Notes sur les régressions et les interpolations - 2° partie, Notes de Applications informatiques
Francine88
Francine8813 January 2014

Notes sur les régressions et les interpolations - 2° partie, Notes de Applications informatiques

PDF (149.4 KB)
11 pages
270Numéro de visites
Description
Notes d’informatique sur les régressions et les interpolations - 2° partie. Les principaux thèmes abordés sont les suivants: la régression logistique, l'interpolation polynômiale, les courbes de bézier (spline).
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 11
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

Ce qui est sympa connaissant ces variances, c'est que nous pouvons aussi estimer la variance

de la variable expliquée de notre régression facilement (en utilisant les propriétés de la variance

vues dans le chapitre de Statistiques).

Il serait intéressant aussi de faire de l'inférence statistique sur l'espérance des

paramètres A et B (donc la pente et l'ordonnée à l'origine) étant donné leur espérance empirique

connue. Mais les développements nécessitent une hypothèse forte qui est l'indépendance des

variables ( ) ce qui est peu acceptable en entreprise.

RÉGRESSION LOGISTIQUE

Bien souvent, les données statistiques disponibles sont relatives à des caractères qualitatifs. Or,

comme nous allons le voir, les méthodes d'inférence traditionnelles ne permettent pas de

modéliser et d'étudier ce type caractères. Des méthodes spécifiques doivent être utilisées

tenant compte par exemple de l'absence de continuité des variables traitées ou de l'absence

d'ordre naturel entre les modalités que peut prendre le caractère qualitatif. Ce sont ces

méthodes spécifiques les plus usuelles qui seront l'objet du texte qui suit.

Comme nous l'avons vu plus haut, la régression linéaire simple a donc pour but de modéliser la

relation entre une variable dépendante quantitative et une variable explicative quantitative.

Lorsque la "variable de classe" Y à expliquer est binaire (oui-non, présence-absence,0-1,etc.)

nous approchons dans un premier temps celle-ci par une fonction de probabilité , qui

nous donne à l'opposé la probabilité d'appartenir à la classe , que nous nommerons

"régression logistique" ou encore "régression logit" (très souvent utilisée dans les cadre des

réseaux de neurones formels). Ensuite, dans une deuxième étape, nous définissons pour un cas

binaire une valeur "cutoff". Par exemple, si nous prenons un cutoff de 0.5 alors les cas pour

lesquels appartiendront à la classe 1 (et inversement dans le cas contraire).

Remarques:

R1. Au fait, la régression logistique n'est qu'une simple loi de distribution de probabilités dans le

cas qui nous intéresse (nous verrons une autre régression logistique dans le chapitre

d'Économétrie lors de notre étude des séries temporelles).

R2. Il n'est évidemment pas possible d'appliquer systématiquement la régression logistique à

n'importe quel type d'échantillon de données! Parfois il faut chercher ailleurs...

R3. Lorsque le nombre de modalités est égal à 2, nous parlons de "variable dichotomique" (oui-

non) ou d'un "modèle dichotomique", s'il est supérieur à 2, nous parlons de "variables

polytomiques" (satisfait-non satisfait-émerveillé).

Considérons par exemple la variable dichotomique : fin des études. Celle-ci prend deux

modalités (en cours, a fini). L'âge est une variable explicative de cette variable et nous

cherchons à modéliser la probabilité d'avoir terminé ses études en fonction de l'âge.

Exemple:

Pour construire le graphique suivant, nous avons calculé et représenté en ordonnées, pour des

jeunes d'âge différent, le pourcentage de ceux qui ont arrêté leurs études.

(57.141)

Mais comment obtient-t-on pareil graphique avec une variable dichotomique??? Au fait c'est

simple. Imaginez un échantillon de 100 individus. Pour ces 100 individus supposez pour un âge

donné que 70% "a fini" et 30% "en cours". Eh bien la courbe représente simplement la

proportion des deux classes pour l'âge donné. Il est même parfois indiqué les grosseurs des

classes avec des cercles sur toute la longueur des asymptotes horizontales pour bien signifier

qu'il s'agit d'une variable dichotomique.

Les points sont distribués selon une courbe en S (une sigmoïde) : il y a deux asymptotes

horizontales car la proportion est comprise entre 0 et 1. Nous voyons immédiatement qu'un

modèle linéaire serait manifestement inadapté.

Cette courbe évoqueront pour certains, à juste titre, une courbe cumulative représentant une

fonction de répartition (d'une loi normale par exemple, mais d'autres lois continues ont la

même allure). Ainsi, pour ajuster une courbe à cette représentative, nous pourrions nous

orienter vers la fonction de répartition d'une loi normale, et au lieu d'estimer les

paramètres a et b de la régression linéaire, nous pourrions estimer les paramètres de la

loi Normale (qui est très similaire à la loi logistique comme nous le démontrerons plus loin).

Nous parlons alors d'un "modèle Probit".

La loi qui nous intéresse cependant est donc la loi logistique. Contrairement à la loi Normale,

nous savons calculer l'expression de sa fonction de répartition dichotomique (probabilité

cumulée) qui est du type (c'est son premier avantage!):

(57.142)

pour une variable de prédiction x où P est donc la probabilité d'avoir un 1. Nous voyons

immédiatement que cette dernière relation étant la primitive de la fonction de distribution, que

prenant x de moins l'infini à plus l'infini que nous avons bien 1. Il s'agit donc bien d'une

fonction de répartition!

S'il y a plusieurs variables prédictives nous avons alors :

(57.143)

Lorsque nous optons pour cette fonction de répartition de la loi logistique, nous obtenons le

modèle de régression logistique ou "modèle Logit" et c'est là son deuxième avantage le plus

important: nous pouvons faire des statistiques sur une régression linéaire multiple!

Ainsi, nous estimerons la probabilité cumulée d'avoir fini ses études pour un individu

d'âge x par (il existe plusieurs manières d'écrire cette loi suivant les habitudes et le contexte) :

(57.144)

il en découle la fonction de distribution :

(57.145)

Nous pouvons calculer aussi l'espérance de la fonction de distribution en appliquant ce qui a

déjà été vu au chapitre de Statistiques mais une partie de cette intégrale ne peut être résolue

que numériquement par contre... si nous posons:

(57.146)

comme étant la variable aléatoire alors nous pouvons calculer numériquement:

(57.147)

qui vaut 0 nous obtenons alors:

(57.148)

Ainsi, nous voyons que si nous posons :

(57.149)

Nous retombons sur une fonction de répartition ayant parfaitement les mêmes caractéristiques

qu'une loi Normale centrée réduite (moyenne nulle et variance unitaire).

Exemple:

La fonction sigmoïde (de répartition) est présentée ci-dessous pour :

(57.150)

Les paramètres a, b sont ajustés selon le principe du maximum de vraisemblance (cf. chapitre

de Statistiques). De plus, ces paramètres doivent généralement être ajustés de manière

itérative, à l'aide d'un programme auquel nous fournissons des valeurs initiales, et qui optimise

ces valeurs de manière récurrente (nous n'entrerons pas dans ces détails qui dépassent le cadre

théorique de ce site à ce jour).

La dernière relation:

(57.151)

peut par ailleurs être transformée de la façon suivante :

(57.152)

d'où :

(57.153)

Ce que certains écrivent aussi... :

(57.154)

Le résultat de cette dernière transformation est appelé "logit". Il est égal au logarithme de

"l'odds" P/1-P.

Donc lorsque les coefficients a et b ont été déterminés, l'expression précédente permet de

déterminer Pconnaissant x facilement (il s'agit de résoudre une équation linéaire) et

inversement! Par ailleurs, puisque x est une variable dichotomique les coefficients sont très

facilement interprétables.

Remarque: L'odds est également appelé "cote" par analogie à la cote des chevaux au tiercé. Par

exemple, si un étudiant a 3 chances sur 4 d'être reçu, contre 1 chance sur 4 d'être collé, sa cote est

de 3 contre un 1, soit un odds=3.

Revenons un peu sur l'odds car il est possible d'introduire la notion de fonction logistique en

faisant la démarche inverse de celle présentée ci-dessus (soit de commencer par la définition

de l'odds pour aller jusqu'au logit) et ceci peut parfois même s'avérer plus pédagogique.

Supposons que nous connaissons la taille (hauteur) d'une personne pour prédire si la personne

est un homme ou une femme. Nous pouvons donc parler de probabilité d'être un homme ou

une femme. Imaginons que la probabilité d'être un homme pour une hauteur donnée est 90%.

Alors l'odds d'être un homme est :

(57.155)

Dans notre exemple, l'odds sera de 0.90/0.10 soit 9. Maintenant, la probabilité d'être une

femme sera donc de 0.10/0.90 soit 0.11. Cette asymétrie des valeurs est peu parlante parce

que l'odds d'être un homme devrait être l'opposé de l'odds d'être une femme idéalement. Nous

résolvons justement cette asymétrie à l'aide du logarithme naturel. Ainsi, nous avons :

et (57.156)

Ainsi, le logit (logarithme de l'odds) est exactement l'opposé de celui d'être une femme de par

la propriété du logarithme:

(57.157)

Exemple:

Imaginons qu'une banque souhaite faire un scoring des ses débiteurs. Comme elle a plusieurs

succursales (la banque) elle construit les tables de données (fictives...) suivantes pour chacune

(toutes les succursales ne sont donc pas représentées):

- 1ère succursale :

Montant crédit Payé Non Payé

27200 1 9

27700 7 3

28300 13 0

28400 7 3

29900 10 1

Tableau: 57.3 - Scoring débituers par montant de crédit succursale 1

- 2ème succursale :

Montant crédit Payé Non Payé

27200 0 8

27700 4 2

28300 6 3

28400 5 3

29900 8 0

Tableau: 57.4 - Scoring débituers par montant de crédit succursale 2

- 3ème succursale :

Montant crédit Payé Non Payé

27'200 1 8

27'700 6 2

28'300 7 1

28'400 7 2

29'900 9 0

Tableau: 57.5 - Scoring débituers par montant de crédit succursale 3

Nous pouvons voir que la proportion totale des bons débiteurs dans les trois succursales est

de .

Quand le crédit est inférieur à 27'500, la proportion de bons débiteurs est de .

Quand le montant des crédits est inférieur à 28'000 la proportion de bons débiteurs est

de .

Quand le montant des crédits est inférieur à 28'500, la proportion de bons débiteurs est

de , et pour des montants inférieurs à 30'000 la proportion est

de .

Nous poserons pour cette régression logistique que est un bon risque de crédit

et est un mauvais risque. Ensuite, nous créons le tableau suivant qui est un récapitulatif

des données de toutes les succursales:

Montant crédit Proportion P

27'200 0.0741

27'700 0.7083

28'300 0.8667

28'400 0.7037

29'900 0.9643

Tableau: 57.6 - Proportion des bons débiteurs

Ce qui donne graphiquement en Kilo-francs :

(57.158)

Une fois ceci fait, nous utilisons la transformation en logit :

(57.159)

Ce qui donne :

Montant crédit KF Proportion P

Logit

27'200 0.0741 -2.5257

27'700 0.7083 0.8873

28'300 0.8667 1.8718

28'400 0.7037 0.8650

29'900 0.9643 3.2958

Tableau: 57.7 - Proportion des bons débiteurs et Logit

Une régression linéaire par la méthode des moindres carrés donne :

(57.160)

avec pour équation :

(57.161)

La fonction logistique avec sa représentation vient alors immédiatement :

(57.162)

Ainsi, il est possible de dire dans cet exemple, qu'elle est la proportion P de bons ou mauvais

payeurs en fonction d'une valeur de crédit X plus petite ou égale à une certaien valeur donnée.

Puisque 0 est un mauvais risque de crédit, nous voyons que plus les crédits sont élevés moins

le risque est gros (dans ce cas fictif...).

INTERPOLATION POLYNÔMIALE

Il existe de nombreuses techniques d'interpolation de polynômes plus ou moins complexes et

élaborées. Nous nous proposons ici de présenter quelques unes dans l'ordre croissant de

difficulté et de puissance d'application.

COURBES DE BÉZIER (SPLINE)

L'ingénieur russe Pierre Bézier (Peugeot), aux débuts de la Conception Assistée par Ordinateur

(C.A.O), dans les années 60, a donné un moyen de définir des courbes et des surfaces à partir

de points. Ceci permet la manipulation directe, géométrique, des courbes sans avoir à donner

d'équation à la machine!!

Le thème des Courbes de Bézier est une notion à multiples facettes, vraiment très riche, au

croisement de nombreux domaines mathématiques très divers : Analyse, Cinématique,

Géométrie Différentielle, Géométrie Affine, Géométrie Projective, Géométrie Fractale,

Probabilités, ...

Les Courbes de Bézier sont par ailleurs devenues incontournables dans leurs applications

concrètes dans l'industrie, l'infographie, ...

Voilà l'approche mathématique de cette technique:

D'abord, nous savons que l'équation d'une droite que nous noterons dans le domaine (par

respect de tradition) Mjoignant deux points est:

(57.163)

Ce qui est juste puisque lorsque nous sommes en A et lorsque nous sommes en B.

Donc et le point M parcoure tout le segment [AB]. Par construction, si A et B étaient

des masses physiques égales à l'unité, représente le barycentre (centre de gravité) du

système pour un t donné.

Par définition, le segment [AB] est par définition la "courbe de Bézier de degré 1" avec points de

contrôle A et B et les Polynômes 1-t et t sont les "polynômes de Bernstein de degré 1".

Construisons maintenant une courbe paramétrée en rajoutant une 2ème étape à ce qui précède:

(57.164)

1ère étape :

- Soit le barycentre de (A,1-t) et (B, t) et où décrit [AB].

- Soit le barycentre de (B,1-t) (C, t) et où décrit [BC].

2ème étape :

- Soit M(t) le barycentre de ( ,1-t) ( ,t).

Par construction, M(t) se situe donc à la même proportion du

segment que par rapport au segment [AB] ou par rapport au

segment [BC].

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome