Notes sur les régressions et les interpolations - 1° partie, Notes de Applications informatiques
Francine88
Francine8813 January 2014

Notes sur les régressions et les interpolations - 1° partie, Notes de Applications informatiques

PDF (141.5 KB)
11 pages
192Numéro de visites
Description
Notes d’informatique sur les régressions et les interpolations - 1° partie. Les principaux thèmes abordés sont les suivants: Les régressions (ou "interpolations"), la régression linéaire à une variable explicative, la dr...
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 11
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

Les régressions (ou "interpolations") sont des outils très utiles aux statisticiens, ingénieurs,

informaticiens souhaitant établir une loi de corrélation entre deux (ou plus) variables dans un

contexte d'études et d'analyse ou d'extrapolation.

Il existe un grand nombre de méthodes d'interpolation : de la simple résolution d'équations du

premier degré (lorsque uniquement deux points d'un mesure sont connus) aux équations

permettant d'obtenir à partir d'un grand nombre de points des informations essentielles à

l'établissement d'une loi (ou fonction) de régression linéaire, polynomiale ou encore logistique.

RÉGRESSION LINÉAIRE À UNE VARIABLE EXPLICATIVE Nous présentons ici deux algorithmes (méthodes) utiles et connus dans les sciences

expérimentales (nous en avons déjà parlé lors de notre étude des statistiques). L'objectif ici est

de chercher à exprimer la relation linéaire entre deux variables x et y indépendantes :

- x est la variable indépendante ou "explicative". Les valeurs de x sont fixées par

l'expérimentateur et sont supposées connues sans erreur

- y est la variable dépendante ou "expliquée" (exemple : réponse de l'analyseur). Les valeurs

de y sont entachées d'une erreur de mesure. L'un des buts de la régression sera précisément

d'estimer cette erreur.

Nous cherchons une relation de la forme:

(57.75)

C'est l'équation d'une droite, d'où le terme de "régression linéaire".

DROITE DE RÉGRESSION

Il existe aussi une autre manière commune de faire une régression linéaire du type :

(57.76)

qui consiste à se baser sur les propriétés de la covariance et de l'espérance (cf. chapitre de

Statistiques) et très utilisée entre autres en finance (mais aussi dans n'importe quel domaine où

on fait un peu de statistique).

Soit x, y deux variables dont l'une dépend de l'autre (souvent c'est yqui dépend de x) nous

avons selon la propriété de linéarité de la covariance qui est rappelons-le :

(57.77)

la relation suivante :

(57.78)

Il vient donc pour la pente (nous réutiliserons cette relation lors de l'étude du rendement d'un

portefeuille selon le modèle de Sharpe dans le chapitre d'Économétrie) :

(57.79)

et pour l'ordonnée à l'origine nous utilisons les propriétés de l'espérance démontrées dans le

chapitre de Statistiques:

(57.80)

ce qui donne b sous la forme :

(57.81)

MÉTHODE DES MOINDRES CARRÉS

Du fait de l'erreur sur y, les points expérimentaux, de coordonnées , ne se situent pas

exactement sur la droite théorique. Il faut donc trouver l'équation de la droite expérimentale

qui passe le plus près possible de ces points.

La "méthode des moindres carrés" consiste à chercher les valeurs des paramètres a, b qui

rendent minimale lasomme des carrés des écarts ei résiduels (SSr: Sum of Squared Residuals)

entre les valeurs observées et les valeurs calculées théoriques de :

(57.82)

où n est le nombre de points et:

(57.83)

d'où autrement écrit:

(57.84)

Cette relation fait apparaître la somme des carrés des écarts comme une fonction des

paramètres a,b. Lorsque cette fonction est minimale (extrêmale), les dérivées par rapport à ses

paramètres s'annulent:

(57.85)

Remarque: Cette méthode de recherche de minimum (optimisation) est nommée "méthode des

multiplicateurs de Lagrange" dans le monde de l'économétrie. Dans notre exemple est la

grandeur scalaire qui fait office de multiplicateur de Lagrange.

Soit après simplification :

(57.86)

Le système ci-dessus est dit appelé "système des équations normales".

C'est un système linéaire de deux équations à deux inconnues. Notons pour simplifier:

(57.87)

Le système devient :

(57.88)

De la deuxième équation nous tirons :

(57.89)

En remplaçant dans la première nous obtenons :

(57.90)

De là nous avons :

(57.91)

Ainsi, l'expression de la pente et de l'ordonnée à l'origine de l'équation recherchée est :

(57.92)

Remarque: C'est la méthode utilisée par MS Excel lors de l'utilisation de la fonction

REGRESSION( ).

Il faut remarquer que la pente a est le forme discrète de:

(57.93)

Le terme b, soit l'ordonnée à l'origine peut être obtenu avec la fonction ORDONNEE.ORIGINE( )

de MS Excel et aavec la fonction PENTE( ) et l'ensemble avec la fonction DROITEREG( ).

ANALYSE DE LA VARIANCE DE LA RÉGRESSION

Nous avons donc maintenant pour la droite des moindres carrés:

(57.94)

soit sous forme discrète:

(57.95)

ainsi que par construction de la méthode la relation suivante:

(57.96)

Maintenant, nous faisons l'hypothèse que chaque valeur mesurée est entachée d'un résidu tel

que:

(57.97)

Soit en soustrayant les deux dernières relations:

(57.98)

Maintenant, passons par un résultat intermédiaire. Rappelons que nous avons obtenu plus haut:

(57.99)

En remplaçant b par sa valeur:

(57.100)

nous avons alors:

(57.101)

Multipliant la deuxième relation ci-dessus par et retranchant de la première, nous obtenons:

(57.102)

Soit après réarrangement:

(57.103)

Revenons maintenant à:

(57.104)

Si nous mettons le tout au carré et en sommant pour toutes les observations, nous avons:

(57.105)

soit:

(57.106)

Or, nous venons de montrer avant que le double produit était nul. Donc:

(57.107)

Cette dernière relation est appelée "équation d'analyse de la variance". En fait, il s'agit de

sommes de carrés. Il faudrait diviser par n pour obtenir des variances.

Cette dernière relation s'écrit aussi souvent:

(57.108)

où SCT est la "somme des carrés totale" (SSr en anglais), SCE la "somme des carrés expliquée"

et SCR la "somme des carrés résiduelle".

Cette dernière relation se trouve également souvent sous la forme suivante dans la littérature:

(57.109)

Notons maintenant les sans erreurs d'une manière différente et appelons cela le "modèle

linéaire à priori":

(57.110)

Il est effectivement important dans la pratique de différencier le modèle à priori qui ne prend

pas en compte les erreurs du modèle réel entaché d'erreurs!

Nous avons alors:

(57.111)

qui est une autre manière plus condensée et traditionnelle d'écrire:

(57.112)

et il vient alors immédiatement la relation importante dans la pratique pour calculer les résidus

(connaissant les valeurs calculées et les valeurs mesurées):

(57.113)

Rappelons maintenant que dans la chapitre de Statistique nous avions déterminé que le

coefficient de corrélation s'exprimait par:

(57.114)

soit explicitement:

(57.115)

Montrons que ceci est égal à (notation souvent utilisée dans la littérature spécialisée):

(57.116)

Remarque: Cette formulation du coefficient de corrélation est extrêmement utile car, car

contrairement à la formulation statistique, cette dernière se généralise immédiatement à la

régression linéaire multiple que nous verrons un peu plus loin.

Démonstration:

Nous partons donc de:

(57.117)

et puisque nous avons montré que:

(57.118)

Donc:

(57.119)

C.Q.F.D.

Nous admettrons que, pour un individu i prélevé au hasard dans la population, est connu

sans erreur, et que est une réalisation d'une variable aléatoire que nous noterons

dorénavant et la droite théorique des moindre carrés s'écrira maintenant :

(57.120)

où est par hypothèse un résidu identiquement distribué et indépendant pour chaque

point i selon une loi normale centrée (de moyenne nulle et d'écart-type égal pour tout k) tel

que:

et (57.121)

donc:

(57.122)

où nous avons le résidu qui est donc donné par la différence entre l'ordonnée théorique et

l'ordonnée mesurée:

(57.123)

Les hypothèses précédentes concernant les moments des résidus sont appelées "hypothèses de

Gauss-Markov" et l'hypothèse particulière d'égalité des variances s'appelle comme nous l'avons

vu dans le chapitre de Statistique "l'homoscédasticité".

Nous avons de par la propriété de l'espérance (cf. chapitre de Statistiques):

(57.124)

Alors sous les hypothèses ci-dessus, nous allons montrer que a et b sont des estimateurs sans

biais (cf. chapitre de Statistiques) de et et qu'il est possible d'estimer l'écart-type à partir

de SCR! Ce qui est un résultat non négligeable et important.

Conformément au modèle adopté, a est à considérer maintenant comme une réalisation de la

variable aléatoire donnée par :

(57.125)

et b comme une réalisation de la variable aléatoire donnée par:

(57.126)

Tenant compte de ce que:

(57.127)

nous pouvons mettre A sous la forme:

(57.128)

et B:

(57.129)

Nous en déduisons les espérances pour A:

(57.130)

et pour B:

(57.131)

Donc A et B sont bien des estimateurs sans biais de .

Nous devons enfin calculer les variances de A et B en utilisant ses propriétés (cf. chapitre de

Statistiques) et les hypothèses sur les résidus, nous avons:

(57.132)

Comme par hypothèse nous avons tous les qui sont égaux nous pouvons alors écrire:

(57.133)

Soit:

(57.134)

et:

(57.135)

En rappelant la relation de Huyghens (cf. chapitre de Statistiques) :

(57.136)

Nous avons finalement:

(57.137)

Le problème réside maintenant dans la détermination de . Evidemment pour ce faire nous

allons être obligés de passer par un estimateur statistique.

Nous savons que nous pouvons écrire selon ce qui a été vu dans le chapitre de Statistique en ce

qui concerne les estimateurs:

(57.138)

puisque la loi normale est centrée pour les résidus donc ... et que le résidu est une

variable aléatoire implicitement dépendante de la somme de deux variables aléatoires que

sont A et B d'où la minoration de deux fois l'erreur-standard.

Indiquons aussi que dans la pratique nous notons fréquemment ce dernier résultat en

mélangeant les notations de l'aspect aléatoire et déterministe:

(57.139)

où SEE signifie en anglais "Standard Error of Estimate" (Erreur Standard de l'Estimation).

Nous avons donc les estimateurs non biaisés des variances de A et de B:

(57.140)

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome