La régression linéaire simple, Slides of Physics

Ce document présente les concepts et les méthodes de la régression linéaire simple. Il aborde les estimateurs des moindres carrés, leur distribution, le coefficient de détermination ainsi que des exercices d'application. La description détaillée permet de comprendre les enjeux et les techniques de la régression linéaire simple, un outil statistique essentiel pour l'analyse de données et la prédiction. Le document couvre les aspects théoriques et pratiques de cette méthode, en fournissant des formules, des propriétés et des exemples qui en facilitent l'appropriation par l'étudiant.

Typology: Slides

2021/2022

Uploaded on 11/12/2023

sagesse-tetya
sagesse-tetya 🇨🇲

1 document

1 / 147

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Université Rennes 2
Master de Statistique
Année 2012/2013
Premier Semestre
Régression linéaire
Arnaud Guyader
Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-
Løber, gression avec R, paru chez Springer en 2010.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Partial preview of the text

Download La régression linéaire simple and more Slides Physics in PDF only on Docsity!

Université Rennes 2

Master de Statistique

Année 2012/

Premier Semestre

Régression linéaire

Arnaud Guyader

Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-

Løber, Régression avec R, paru chez Springer en 2010.

ii Table des matières

C.3.3 Loi du Khi-deux à ν ddl X ∼ χ 2 ν

C.3.4 Loi de Fisher à ν 1 , ν 2

- 3.3.2 Tests entre modèles emboîtés - 3.3.3 Test de Student de signification d’un coefficient - 3.3.4 Test de Fisher global - 3.3.5 Lien avec le Rapport de Vraisemblance Maximale
  • 3.4 Estimation sous contraintes
  • 3.5 Exemple
  • 3.6 Exercices
  • 3.7 Corrigés
  • 4 Validation du modèle
    • 4.1 Analyse des résidus
      • 4.1.1 Résidus et valeurs aberrantes
      • 4.1.2 Analyse de la normalité
      • 4.1.3 Analyse de l’homoscédasticité
      • 4.1.4 Analyse de la structure des résidus
    • 4.2 Analyse de la matrice de projection
    • 4.3 Autres mesures diagnostiques
  • A Annales
  • B Rappels d’algèbre
    • B.1 Quelques définitions
    • B.2 Quelques propriétés
      • B.2.1 Les matrices n × p
      • B.2.2 Les matrices carrées n × n
      • B.2.3 Les matrices symétriques
      • B.2.4 Les matrices semi-définies positives
    • B.3 Propriétés des inverses
    • B.4 Propriétés des projections
      • B.4.1 Généralités
      • B.4.2 Exemple de projection orthogonale
      • B.4.3 Trace et éléments courants
    • B.5 Dérivation matricielle
  • C Rappels de probabilité
    • C.1 Généralités
    • C.2 Vecteurs aléatoires gaussiens
    • C.3 Tables des lois usuelles
      • C.3.1 Loi Normale X ∼ N (0, 1)
      • C.3.2 Loi de Student X ∼ Tν - ν ddl X ∼ F
        • ν
  • D Quelques données
  • Bibliographie

Chapitre 1

La régression linéaire simple

Introduction

Commençons par un exemple afin de fixer les idées. Pour des raisons de santé publique, on s’in-

téresse à la concentration d’ozone O 3

dans l’air (en microgrammes par millilitre). En particulier,

on cherche à savoir s’il est possible d’expliquer le taux maximal d’ozone de la journée par la

température T 12 à midi. Les données sont :

Température à 12h 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.

O 3 max 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.

Table 1.1 – 10 données journalières de température et d’ozone.

D’un point de vue pratique, le but de cette régression est double :

— ajuster un modèle pour expliquer O 3

en fonction de T 12

— prédire les valeurs d’O 3

pour de nouvelles valeurs de T 12

Avant toute analyse, il est intéressant de représenter les données, comme sur la figure 1.1.

10 15 20 25 30

80

90

100

110

120

130

T

O

Figure 1.1 – 10 données journalières de température et d’ozone.

Pour analyser la relation entre les x i

(température) et les y i

(ozone), nous allons chercher une

fonction f telle que :

y i

≈ f (x i

Pour préciser le sens de ≈, il faut se donner un critère quantifiant la qualité de l’ajustement de la

fonction f aux données. Il conviendra aussi de se donner une classe de fonctions F dans laquelle

est supposée vivre la vraie fonction inconnue.

1.2. Moindres Carrés Ordinaires 3

— le coût quadratique L(u) = u

2 .

Les deux ont leurs vertus, mais on privilégiera dans la suite la fonction de coût quadratique. On

parle alors de méthode d’estimation par moindres carrés (terminologie due à Legendre dans un

article de 1805 sur la détermination des orbites des comètes).

Définition 2 (Estimateurs des Moindres Carrés Ordinaires) On appelle estimateurs des Moindres

Carrés Ordinaires (en abrégé MCO)

β 1

et

β 2

les valeurs minimisant la quantité :

S(β 1

, β 2

n ∑

i=

(y i

− β 1

− β 2

x i

2 .

Autrement dit, la droite des moindres carrés minimise la somme des carrés des distances verticales

des points (x i

, y i

) du nuage à la droite ajustée y =

β 1

β 2

x.

1.2.1 Calcul des estimateurs de β

1

et β

2

La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun

problème, comme nous allons le voir maintenant.

Proposition 1 (Estimateurs

β 1

et

β 2

) Les estimateurs des MCO ont pour expressions :

β 1 = ¯y −

β 2 x,¯

avec :

β 2

n

i=

(xi − ¯x)(yi − ¯y)

∑ n

i=

(xi − ¯x)

2

n

i=

(xi − x¯)yi

∑ n

i=

(xi − x¯)

2

Preuves. La première méthode consiste à remarquer que la fonction S(β 1 , β 2 ) est strictement

convexe, donc qu’elle admet un minimum en un unique point (

β 1

β 2

), lequel est déterminé en

annulant les dérivées partielles de S. On obtient les “équations normales” :

∂S

∂β 1

n ∑

i=

(yi −

β 1 −

β 2 xi) = 0

∂S

∂β 2

n ∑

i=

x i

(y i

β 1

β 2

x i

La première équation donne :

β 1

n +

β 2

n ∑

i=

x i

n ∑

i=

y i

d’où l’on déduit immédiatement :

β 1 = ¯y −

β 2 x,¯ (1.1)

où x¯ et ¯y sont comme d’habitude les moyennes empiriques des x i

et des y i

. La seconde équation

donne :

β 1

n ∑

i=

x i

β 2

n ∑

i=

x

2

i

n ∑

i=

x i

y i

Régression Arnaud Guyader - Rennes 2

4 Chapitre 1. La régression linéaire simple

et en remplaçant

β 1

par son expression (1.1), nous avons :

β 2 =

x i

y i

x i

¯y

x

2

i

x i

¯x

x i

(y i

− y¯)

x i

(x i

− ¯x)

(x i

− x¯)(y i

− y¯)

(x i

− ¯x)(x i

− x¯)

La seconde méthode consiste à appliquer la technique de Gauss de réduction des formes quadra-

tiques, c’est-à-dire à décomposer S(β 1

, β 2

) en somme de carrés, carrés qu’il ne restera plus qu’à

annuler pour obtenir les estimateurs

β 1 et

β 2. Dans notre cas, après calculs, ceci s’écrit :

S(β 1

, β 2

) =n (β 1

− (¯y − β 2

x¯))

2

n ∑

i=

(x i

− x¯)

2

β 2

n

i=

(x i

− x¯)(y i

− y¯)

n

i=

(x i

− x¯)

2

2

n ∑

i=

(y i

− y¯)

2

n

i=

(xi − ¯x)(yi − y¯))

2

n

i=

(xi − ¯x)

2

n

i=

(yi − ¯y)

2

où apparaissent deux carrés et un troisième terme indépendant de β 1

et β 2

: ce dernier est donc

incompressible. Par contre, le second est nul si et seulement si β 2

β 2

. Ceci étant fait, le premier

est alors nul si et seulement si β 1

β 1

L’expression (1.2) de

β 2

suppose que le dénominateur

n

i=

(x i

− ¯x)

2 est non nul. Or ceci ne peut

arriver que si tous les x i

sont égaux, situation sans intérêt pour notre problème et que nous ex-

cluons donc a priori dans toute la suite.

Remarques :

  1. La relation

β 1 = ¯y −

β 2 x¯ montre que la droite des MCO passe par le centre de gravité du

nuage (¯x, y¯).

  1. Les expressions obtenues pour

β 1

et

β 2

montrent que ces deux estimateurs sont linéaires

par rapport au vecteur Y = [y 1 ,... , yn]

′ .

  1. L’estimateur

β 2 peut aussi s’écrire comme suit (exercice !) :

β 2

= β 2

(xi − ¯x)εi

(xi − x¯)

2

Si cette décomposition n’est pas intéressante pour le calcul effectif de

β 2 puisqu’elle fait

intervenir les quantités inconnues β 2

et ε i

, elle l’est par contre pour démontrer des propriétés

théoriques des estimateurs (biais et variance). Son avantage est en effet de mettre en exergue

la seule source d’aléa du modèle, à savoir les erreurs ε i

Avant de poursuivre, notons que le calcul des estimateurs des moindres carrés est purement déter-

ministe : il ne fait en rien appel aux hypothèses (H 1

) et (H 2

) sur le modèle. Celles-ci vont en fait

servir dans la suite à expliciter les propriétés statistiques de ces estimateurs.

1.2.2 Quelques propriétés des estimateurs

β 1 et

Sous les seules hypothèses (H 1

) et (H 2

) de centrages, décorrélations et homoscédasticités des er-

reurs εi du modèle, on peut déjà donner certaines propriétés des estimateurs

β 1 et

β 2 des moindres

carrés.

Théorème 1 (Estimateurs sans biais)

β 1 et

β 2 sont des estimateurs sans biais de β 1 et β 2.

Arnaud Guyader - Rennes 2 Régression

6 Chapitre 1. La régression linéaire simple

Remarques :

  1. On a vu que la droite des MCO passe par le centre de gravité du nuage (¯x, y¯). Supposons

celui-ci fixé et ¯x positif, alors il est clair que si on augmente la pente, l’ordonnée à l’origine

va baisser et vice versa, on retrouve donc bien le signe négatif pour la covariance entre

β 1

et

β 2.

  1. En statistique inférentielle, la variance d’un estimateur décroît typiquement de façon inver-

sement proportionnelle à la taille de l’échantillon, c’est-à-dire en 1 /n. En d’autres termes,

sa précision est généralement en 1 /

n. Ceci ne saute pas aux yeux si l’on considère par

exemple l’expression obtenue pour la variance de β 2

Var(

β 2

σ

2

(xi − x¯)

2

Pour comprendre que tout se passe comme d’habitude, il suffit de considérer que les x i

sont eux-mêmes aléatoires, avec écart-type σx. Dans ce cas très général, le dénominateur

est d’ordre nσ

2

x

et l’on retrouve bien une variance en 1 /n.

Les estimateurs des moindres carrés sont en fait optimaux en un certain sens, c’est ce que précise

le résultat suivant.

Théorème 3 (Gauss-Markov) Parmi les estimateurs sans biais linéaires en y, les estimateurs

β j

sont de variances minimales.

Preuve. L’estimateur des MCO s’écrit

β 2

n

i=

p i

y i

, avec p i

= (x i

− x¯)/

(x i

− ¯x)

2

. Considérons

un autre estimateur

β 2

linéaire en y i

et sans biais, c’est-à-dire :

β 2

n ∑

i=

λ i

y i

Montrons que

λi = 0 et

λixi = 1. L’égalité

E(

β 2

) = β 1

λ i

  • β 2

λ i

x i

λ i

E(ε i

) = β 1

λ i

  • β 2

λ i

x i

est vraie pour tout β 2. L’estimateur

β 2 est sans biais donc E(

β 2 ) = β 2 pour tout β 2 , c’est-à-dire

que

λ i

= 0 et

λ i

x i

= 1. Montrons que Var(

β 2

) ≥ Var(

β 2

Var(

β 2

) = Var(

β 2

β 2

β 2

) = Var(

β 2

β 2

) + Var(

β 2

) + 2Cov(

β 2

β 2

β 2

Or :

Cov(

β 2

β 2

β 2

) = Cov(

β 2

β 2

) − Var(

β 2

σ

2

λ i

(x i

− x¯)

(x i

− x¯)

2

σ

2

(x i

− x¯)

2

la dernière égalité étant due aux deux relations

λi = 0 et

λixi = 1. Ainsi :

Var(

β 2

) = Var(

β 2

β 2

) + Var(

β 2

Une variance est toujours positive, donc :

Var(

β 2

) ≥ Var(

β 2

Le résultat est démontré. On obtiendrait la même chose pour

β 1

Remarque. Comme nous le verrons au chapitre suivant, on peut en fait montrer un peu mieux :

au sens de la relation d’ordre sur les matrices symétriques réelles, la matrice de covariance de

β = [

β 1

β 2

]

′ est inférieure à celle de n’importe quel autre estimateur

β = [

β 1

β 2

]

′ sans biais et

linéaire en y.

Arnaud Guyader - Rennes 2 Régression

1.2. Moindres Carrés Ordinaires 7

1.2.3 Calcul des résidus et de la variance résiduelle

T

O

0 5 10 15 20 25 30 35

0

50

100

150

ε ˆ i

y ˆ i

β 1

β 2

x i

xi

Figure 1.2 – Représentation des individus.

Dans R

2 (espace des variables x i

et y i

β 1

est l’ordonnée à l’origine et

β 2

la pente de la droite

ajustée. Cette droite minimise la somme des carrés des distances verticales des points du nuage

à la droite ajustée. Notons yˆ i

β 1

β 2

x i

l’ordonnée du point de la droite des moindres carrés

d’abscisse x i

, ou valeur ajustée. les résidus sont définis par (cf. figure 1.2) :

ˆε i

= y i

− ˆy i

= y i

β 1

β 2

x i

= (y i

− ¯y) −

β 2

(x i

− x¯). (1.4)

Par construction, la somme des résidus est nulle :

i

ε ˆ i

i

(y i

− y¯) −

β 2

i

(x i

− x¯) = 0.

Notons maintenant que les variances et covariance des estimateurs

β 1

et

β 2

établies en section

précédente ne sont pas pratiques car elles font intervenir la variance σ

2 des erreurs, laquelle est en

général inconnue. Néanmoins, on peut en donner un estimateur sans biais grâce aux résidus.

Théorème 4 (Estimateur non biaisé de σ

2 ) La statistique σˆ

2

n

i=

ˆε

2

i

/(n − 2) est un esti-

mateur sans biais de σ

2 .

Preuve. Réécrivons les résidus en constatant que

β 1

= ¯y −

β 2

x¯ et β 1

= ¯y − β 2

x¯ − ε¯, ce qui donne :

ε ˆi = β 1 + β 2 xi + εi −

β 1 −

β 2 xi

= ¯y − β 2

¯x − ε¯ + β 2

x i

  • ε i

− y¯ +

β 2

x¯ −

β 2

x i

= (β 2

β 2

)(x i

− x¯) + (ε i

− ε¯).

En développant et en nous servant de l’écriture vue plus haut :

β 2

= β 2

(xi − x¯)εi

(x i

− x¯)

2

nous avons :

εˆ

2

i

= (β 2

β 2

2

(x i

− x¯)

2

(ε i

− ε¯)

2

  • 2(β 2

β 2

(x i

− ¯x)(ε i

− ¯ε)

= (β 2 −

β 2 )

2

(xi − x¯)

2

(εi − ¯ε)

2

− 2(β 2 −

β 2 )

2

(xi − ¯x)

2

.

Prenons-en l’espérance :

E

εˆ i

2

= E

(ε i

− ε¯)

2

(x i

− x¯)

2

Var(

β 2

) = (n − 2)σ

2

.

Bien sûr, lorsque n est grand, cet estimateur diffère très peu de l’estimateur empirique de la

variance des résidus, à savoir

n

i=

εˆ

2

i

/n.

Régression Arnaud Guyader - Rennes 2

1.3. Interprétations géométriques 9

1.3 Interprétations géométriques

1.3.1 Représentation des variables

Si nous abordons le problème d’un point de vue vectoriel, nous avons deux vecteurs à notre dis-

position : le vecteur X = [x 1

,... , x n

]

′ des n observations pour la variable explicative et le vecteur

Y = [y 1 ,... , yn]

′ des n observations pour la variable à expliquer. Ces deux vecteurs appartiennent

au même espace R

n : l’espace des variables.

Si on ajoute à cela le vecteur 1 = [1,... , 1]

′ , on voit tout d’abord que par l’hypothèse selon laquelle

tous les xi ne sont pas égaux, les vecteurs 1 et X ne sont pas colinéaires : ils engendrent donc un

sous-espace de R

n de dimension 2, noté M(X). On peut projeter orthogonalement le vecteur Y

sur le sous-espace M(X), notons provisoirement

Y ce projeté. Puisque ( 1 , X) forme une base de

M(X), il existe une unique décomposition de la forme

Y =

β 1

β 2

X. Par définition du projeté

orthogonal,

Y est l’unique vecteur de M(X) minimisant la distance euclidienne ‖Y −

Y ‖, ce qui

revient au même que de minimiser son carré. Or, par définition de la norme euclidienne, cette

quantité vaut :

‖Y −

Y ‖

2

n ∑

i=

(y i

β 1

β 2

x i

2 ,

ce qui nous ramène à la méthode des moindres carrés ordinaires. On en déduit que

β 1 =

β 1 ,

β 2 =

β 2

et

Y =

Y = [ˆy 1

,... , ˆy n

]

′ , avec les expressions de

β 1

β 2

et

Y vues précédemment.

Y

ˆε

β 11

β 2 X

y ¯ 1

1

X

Y

M(X)

θ

Figure 1.3 – Représentation de la projection dans l’espace des variables.

Autrement dit, dans R

n ,

β 1 et

β 2 s’interprètent comme les coordonnées de la projection orthogo-

nale

Y de Y sur le sous-espace de R

n engendré par 1 et X (voir figure 1.3).

Remarques :

  1. Cette vision géométrique des choses peut sembler un peu abstraite, mais c’est en fait l’ap-

proche féconde pour comprendre la régression multiple, comme nous le verrons dans les

chapitres suivants.

  1. Nous avons supposé que 1 et X ne sont pas colinéaires. En général, ces vecteurs ne sont pas

orthogonaux (sauf si x¯ = 0), ce qui implique que

β 1

1 n’est pas la projection orthogonale

de Y sur 1 (laquelle vaut y¯ 1 ), et que

β 2

X n’est pas la projection orthogonale de Y sur X

(laquelle vaut

〈Y,X〉

‖X‖

2

X).

Régression Arnaud Guyader - Rennes 2

10 Chapitre 1. La régression linéaire simple

1.3.2 Le coefficient de détermination R

2

Nous conservons les notations du paragraphe précédent, avec

Y = [ˆy 1 ,... , yˆn]

′ la projection ortho-

gonale du vecteur Y sur M(X) et

ˆε = Y −

Y = [ˆε 1 ,... , εˆn]

le vecteur des résidus déjà rencontrés en section 1.2.3. Le théorème de Pythagore donne alors

directement :

‖Y − y¯ 1 ‖

2

= ‖

Y − y¯ 1 ‖

2

  • ‖ˆε‖

2

n ∑

i=

(yi − y¯)

2

=

n ∑

i=

(ˆyi − y¯)

2

n ∑

i=

ˆε

2

i

SCT = SCE + SCR,

où SCT (respectivement SCE et SCR) représente la somme des carrés totale (respectivement

expliquée par le modèle et résiduelle). Ceci peut se voir comme une formule typique de décom-

position de la variance. Elle permet en outre d’introduire le coefficient de détermination de façon

naturelle.

Définition 3 (Coefficient de détermination R

2 ) Le coefficient de détermination R

2 est défini

par :

R

2

=

SCE

SCT

Y − y¯ 1 ‖

2

‖Y − y¯ 1 ‖

2

‖ˆε‖

2

‖Y − ¯y 1 ‖

2

SCR

SCT

On voit sur la figure 1.3 que R

2 correspond au cosinus carré de l’angle θ. De façon schématique,

on peut différencier les cas suivants :

— Si R

2 = 1, le modèle explique tout, l’angle θ vaut zéro et Y est dans M(X), c’est-à-dire

que yi = β 1 + β 2 xi pour tout i : les points de l’échantillon sont parfaitement alignés sur la

droite des moindres carrés ;

— Si R

2 = 0, cela veut dire que

(ˆyi − ¯y)

2 = 0, donc yˆi = ¯y pour tout i. Le modèle de

régression linéaire est inadapté puisqu’on ne modélise rien de mieux que la moyenne ;

— Si R

2 est proche de zéro, cela veut dire que Y est quasiment dans l’orthogonal de M(X),

le modèle de régression linéaire est inadapté, la variable x n’explique pas bien la variable

réponse y (du moins pas de façon affine).

De façon générale, l’interprétation est la suivante : le modèle de régression linéaire permet d’expli-

quer 100 × R

2 % de la variance totale des données.

Remarques :

  1. On peut aussi voir R

2 comme le carré du coefficient de corrélation empirique entre les x i

et

les y i

(cf. exercice 1.2) :

R

2

=

n

i=

(x i

− x¯)(y i

− ¯y)

n

i=

(xi − x¯)

2

n

i=

(yi − y¯)

2

2

= ρ

2

X,Y

  1. Sur la figure 1.3 est noté un angle droit entre les vecteurs 1 et

Y − y¯ 1. On vérifie en effet

facilement que ces deux vecteurs sont orthogonaux puisque ¯y 1 n’est rien d’autre que le

projeté orthogonal de Y sur (la droite vectorielle engendrée par) le vecteur 1 (exercice).

Arnaud Guyader - Rennes 2 Régression

12 Chapitre 1. La régression linéaire simple

1.4.2 Rappels sur les lois usuelles

Outre la sacro-sainte gaussienne, trois lois seront d’usage constant dans la suite : la loi du χ

2 , la

loi de Student et la loi de Fisher.

Figure 1.4 – Densité d’un χ

2

50

(trait gras) et densité d’une N (50, 100) (trait fin).

Définition 4 (Loi du χ

2 ) Soit X 1 ,... , Xn des variables aléatoires i.i.d. suivant une loi normale

centrée réduite. La loi de la variable X =

n

i=

X

2

i

est appelée loi du χ

2 à n degrés de liberté (ddl),

noté X ∼ χ

2

n

On a E[X] = n et Var(X) = 2n. Lorsque n est grand, on sait par le Théorème Central Limite que

X suit approximativement une loi normale de moyenne n et de variance 2 n : X ≈ N (n, 2 n). Ainsi,

pour n grand, environ 95% des valeurs de X se situent dans l’intervalle [n − 2

2 n, n + 2

2 n]. Ceci

est illustré figure 8 pour n = 50 ddl.

Définition 5 (Loi de Student) Soit Z une variable aléatoire suivant une loi normale centrée

réduite et X une variable suivant une loi du χ

2 à n degrés de liberté, avec Z et X indépendantes.

La loi de la variable T =

Z √

X/n

est appelée loi de Student à n degrés de liberté et on note T ∼ Tn.

Figure 1.5 – Densité d’une T 10 (trait gras) et densité d’une N (0, 1) (trait fin).

Lorsque n = 1, T suit une loi de Cauchy et n’a donc pas d’espérance (ni, a fortiori, de variance).

Pour n = 2, T est centrée mais de variance infinie. Pour n ≥ 3 , T est centrée et de variance

n

n− 2

Arnaud Guyader - Rennes 2 Régression

1.4. Cas d’erreurs gaussiennes 13

D’autre part, lorsque n devient grand, on sait par la Loi des Grands Nombres que le dénominateur

tend presque sûrement vers 1. De fait, on peut montrer que pour n grand, T tend en loi vers

une gaussienne centrée réduite : T ≈ N (0, 1). Ceci est illustré figure 1.5 pour n = 10 ddl. Par

conséquent, lorsque n sera grand, on pourra remplacer les quantiles d’une loi de Student Tn par

ceux d’une loi N (0, 1) (cf. tables en Annexe C.3).

Définition 6 (Loi de Fisher) Soit U 1

une variable aléatoire suivant une loi du χ

2 à n 1

degrés

de liberté et U 2 une variable aléatoire suivant une loi du χ

2 à n 2 degrés de liberté, avec U 1 et U 2

indépendantes. La loi de la variable F =

U 1 /n 1

U 2 /n 2

est appelée loi de Fisher à (n 1

, n 2

) degrés de liberté

et on note F ∼ F

n 1

n 2

Pour n 2 > 2 , l’espérance d’une loi de Fisher F

n 1

n 2

est n 2 /(n 2 − 2). Dans la suite, typiquement, n 2

sera grand, de sorte qu’à nouveau la Loi des Grands Nombres implique que U 2

/n 2

tend vers 1.

Dans ce cas, F peut se voir comme un chi-deux normalisé par son degré de liberté : F ≈ χ

2

n 1

/n 1

Ceci est illustré figure 1.6 pour n 1

= 2 et n 2

Figure 1.6 – Densité d’une F

2

10

(trait gras) et densité d’un

χ

2

2

2

(trait fin).

1.4.3 Lois des estimateurs et régions de confiance

Nous allons maintenant voir comment les lois précédentes interviennent dans nos estimateurs. Afin

de faciliter la lecture de cette partie, fixons les notations suivantes :

c =

−σ

2 x¯

(xi − x¯)

2

σˆ

2

n − 2

εˆ

2

i

σ

2

1

= σ

2

x

2

i

n

(x i

− ¯x)

2

σ ˆ

2

1

= ˆσ

2

x

2

i

n

(x i

− x¯)

2

σ

2

2

σ

2

(x i

− x¯)

2

σˆ

2

2

ˆσ

2

(x i

− x¯)

2

Comme nous l’avons vu, σ

2

1

, σ

2

2

et c sont les variances et covariance des estimateurs des moindres

carrés ordinaires. les quantités ˆσ

2

1

et σˆ

2

2

correspondent quant à elles aux estimateurs des variances

de

β 1

et

β 2

Propriétés 1 (Lois des estimateurs avec variance connue) Les lois des estimateurs des MCO

avec variance σ

2 connue sont :

Régression Arnaud Guyader - Rennes 2

1.4. Cas d’erreurs gaussiennes 15

Propriétés 3 (Intervalles et régions de confiance) (i) IC(β 1

β 1

± t n− 2

(1 − α/2)ˆσ 1

où tn− 2 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de Student Tn− 2.

(ii) IC(β 2

β 2

± t n− 2

(1 − α/2)ˆσ 2

(iii) RC(β) : Une région de confiance simultanée pour β 1 et β 2 au niveau (1 − α) est

2ˆσ

2

n(

β 1 − β 1 )

2

  • 2nx¯(

β 1 − β 1 )(

β 2 − β 2 ) +

x

2

i

β 2 − β 2 )

2

≤ f

2

n− 2

(1 − α),

où f

2

n− 2

(1 − α) est le quantile de niveau (1 − α) d’une loi F

2

n− 2

(iv) Un intervalle de confiance de σ

2 est donné par :

[

(n − 2)ˆσ

2

c n− 2

(1 − α/2)

(n − 2)ˆσ

2

c n− 2

(α/2)

]

où c n− 2

(1 − α/2) est le quantile de niveau (1 − α/2) d’une loi χ

2

n− 2

Remarque : Le point (iii) donne la région de confiance simultanée des paramètres (β 1 , β 2 ) de la

régression, appelée ellipse de confiance, tandis que (i) et (ii) donnent des intervalles de confiance

pour β 1

et β 2

pris séparément. La figure 1.7 montre la différence entre ces deux notions.

1.4.4 Prévision

En matière de prévision dans le cas d’erreurs gaussiennes, les résultats obtenus en section 1.2.

pour l’espérance et la variance sont toujours valables. De plus, puisque yˆ n+

est linéaire en

β 1

β 2

et ε n+

, on peut préciser sa loi :

y n+

− ˆy n+

∼ N

0 , σ

2

n

(xn+1 − x¯)

2

(x i

− ¯x)

2

A nouveau on ne connaît pas σ

2 et on l’estime donc par σˆ

2

. Comme (y n+

− yˆ n+

) et ˆσ

2 (n − 2)/σ

2

sont indépendants, on peut énoncer un résultat donnant des intervalles de confiance pour yn+1.

Proposition 3 (Loi et intervalle de confiance pour la prédiction) Avec les notations et hy-

pothèses précédentes, on a :

y n+

− ˆy n+

ˆσ

1

n

(xn+1−x¯)

2

(xi−¯x)

2

∼ Tn− 2 ,

d’où l’on déduit l’intervalle de confiance suivant pour yn+1 :

[

y ˆ n+

± t n− 2

(1 − α/2)ˆσ

n

(x n+

− ¯x)

2

(x i

− x¯)

2

]

Nous retrouvons ainsi la remarque déjà faite : plus le point à prévoir admet pour abscisse x n+

une valeur éloignée de x¯, plus l’intervalle de confiance sera grand.

Plus précisément, la courbe décrite pas les limites de ces intervalles de confiance lorsque x n+

varie est une hyperbole d’axes x = ¯x et y =

β 1

β 2

x. Pour s’en persuader, il suffit d’effectuer le

changement de variables {

X = x − x¯

Y = y − (

β 1

β 2

x)

d’où il ressort qu’un point (X, Y ) est dans la région de confiance ci-dessus si et seulement si

Y

2

b

2

X

2

a

2

Régression Arnaud Guyader - Rennes 2

16 Chapitre 1. La régression linéaire simple

avec {

a

2

1

n

(x i

− ¯x)

2

b

2

1

n

(t n− 2

(1 − α/2)ˆσ)

2

ce qui définit bien l’intérieur d’une hyperbole. En particulier, le centre de cette hyperbole est tout

bonnement le centre de gravité du nuage de points.

1.5 Exemple

Nous allons traiter les 50 données journalières présentées en Annexe D. La variable à expliquer

est la concentration en ozone, notée O3, et la variable explicative est la température à midi, notée

T12. Les données sont traitées avec le logiciel R.

> a <- lm(O3 ∼ T12)

> summary(a)

Call:

lm(formula = O3 ∼ T12)

Residuals:

Min 1Q Median 3Q Max

Coefficients :

Estimate Std. Error t value Pr(>|t|)

(Intercept) 31.4150 13.0584 2.406 0.0200 *

T12 2.7010 0.6266 4.311 8.04e-05 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.5 on 48 degrees of freedom

Multiple R-Squared: 0.2791, Adjusted R-squared: 0.

F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-

Les sorties du logiciel donnent les valeurs estimées

β 1 et

β 2 des paramètres, leurs écart-types

σ ˆ 1

et ˆσ 2

, les statistiques de tests sous l’hypothèse H 0

: β i

= 0. Nous rejetons H 0

pour les deux

paramètres estimés.

1.6 Exercices

Exercice 1.1 (QCM) 1. Lors d’une régression simple, si le R

2 vaut 1 , les points sont-ils

alignés?

A. Non ;

B. Oui ;

C. Pas obligatoirement.

  1. La droite des MCO d’une régression simple passe-t-elle par le point (¯x, ¯y)?

A. Toujours ;

B. Jamais ;

C. Parfois.

Arnaud Guyader - Rennes 2 Régression