




























































































Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Ce document présente les concepts et les méthodes de la régression linéaire simple. Il aborde les estimateurs des moindres carrés, leur distribution, le coefficient de détermination ainsi que des exercices d'application. La description détaillée permet de comprendre les enjeux et les techniques de la régression linéaire simple, un outil statistique essentiel pour l'analyse de données et la prédiction. Le document couvre les aspects théoriques et pratiques de cette méthode, en fournissant des formules, des propriétés et des exemples qui en facilitent l'appropriation par l'étudiant.
Typology: Slides
1 / 147
This page cannot be seen from the preview
Don't miss anything!





























































































Université Rennes 2
Master de Statistique
Année 2012/
Premier Semestre
Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-
Løber, Régression avec R, paru chez Springer en 2010.
C.3.3 Loi du Khi-deux à ν ddl X ∼ χ 2 ν
C.3.4 Loi de Fisher à ν 1 , ν 2
- 3.3.2 Tests entre modèles emboîtés - 3.3.3 Test de Student de signification d’un coefficient - 3.3.4 Test de Fisher global - 3.3.5 Lien avec le Rapport de Vraisemblance MaximaleIntroduction
Commençons par un exemple afin de fixer les idées. Pour des raisons de santé publique, on s’in-
téresse à la concentration d’ozone O 3
dans l’air (en microgrammes par millilitre). En particulier,
on cherche à savoir s’il est possible d’expliquer le taux maximal d’ozone de la journée par la
température T 12 à midi. Les données sont :
Température à 12h 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.
O 3 max 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.
Table 1.1 – 10 données journalières de température et d’ozone.
D’un point de vue pratique, le but de cette régression est double :
— ajuster un modèle pour expliquer O 3
en fonction de T 12
— prédire les valeurs d’O 3
pour de nouvelles valeurs de T 12
Avant toute analyse, il est intéressant de représenter les données, comme sur la figure 1.1.
10 15 20 25 30
80
90
100
110
120
130
T
O
Figure 1.1 – 10 données journalières de température et d’ozone.
Pour analyser la relation entre les x i
(température) et les y i
(ozone), nous allons chercher une
fonction f telle que :
y i
≈ f (x i
Pour préciser le sens de ≈, il faut se donner un critère quantifiant la qualité de l’ajustement de la
fonction f aux données. Il conviendra aussi de se donner une classe de fonctions F dans laquelle
est supposée vivre la vraie fonction inconnue.
1.2. Moindres Carrés Ordinaires 3
— le coût quadratique L(u) = u
2 .
Les deux ont leurs vertus, mais on privilégiera dans la suite la fonction de coût quadratique. On
parle alors de méthode d’estimation par moindres carrés (terminologie due à Legendre dans un
article de 1805 sur la détermination des orbites des comètes).
Définition 2 (Estimateurs des Moindres Carrés Ordinaires) On appelle estimateurs des Moindres
Carrés Ordinaires (en abrégé MCO)
β 1
et
β 2
les valeurs minimisant la quantité :
S(β 1
, β 2
n ∑
i=
(y i
− β 1
− β 2
x i
2 .
Autrement dit, la droite des moindres carrés minimise la somme des carrés des distances verticales
des points (x i
, y i
) du nuage à la droite ajustée y =
β 1
β 2
x.
1
2
La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun
problème, comme nous allons le voir maintenant.
Proposition 1 (Estimateurs
β 1
et
β 2
) Les estimateurs des MCO ont pour expressions :
β 1 = ¯y −
β 2 x,¯
avec :
β 2
n
i=
(xi − ¯x)(yi − ¯y)
∑ n
i=
(xi − ¯x)
2
n
i=
(xi − x¯)yi
∑ n
i=
(xi − x¯)
2
Preuves. La première méthode consiste à remarquer que la fonction S(β 1 , β 2 ) est strictement
convexe, donc qu’elle admet un minimum en un unique point (
β 1
β 2
), lequel est déterminé en
annulant les dérivées partielles de S. On obtient les “équations normales” :
∂β 1
n ∑
i=
(yi −
β 1 −
β 2 xi) = 0
∂β 2
n ∑
i=
x i
(y i
β 1
β 2
x i
La première équation donne :
β 1
n +
β 2
n ∑
i=
x i
n ∑
i=
y i
d’où l’on déduit immédiatement :
β 1 = ¯y −
β 2 x,¯ (1.1)
où x¯ et ¯y sont comme d’habitude les moyennes empiriques des x i
et des y i
. La seconde équation
donne :
β 1
n ∑
i=
x i
β 2
n ∑
i=
x
2
i
n ∑
i=
x i
y i
Régression Arnaud Guyader - Rennes 2
4 Chapitre 1. La régression linéaire simple
et en remplaçant
β 1
par son expression (1.1), nous avons :
β 2 =
x i
y i
x i
¯y
x
2
i
x i
¯x
x i
(y i
− y¯)
x i
(x i
− ¯x)
(x i
− x¯)(y i
− y¯)
(x i
− ¯x)(x i
− x¯)
La seconde méthode consiste à appliquer la technique de Gauss de réduction des formes quadra-
tiques, c’est-à-dire à décomposer S(β 1
, β 2
) en somme de carrés, carrés qu’il ne restera plus qu’à
annuler pour obtenir les estimateurs
β 1 et
β 2. Dans notre cas, après calculs, ceci s’écrit :
S(β 1
, β 2
) =n (β 1
− (¯y − β 2
x¯))
2
n ∑
i=
(x i
− x¯)
2
β 2
n
i=
(x i
− x¯)(y i
− y¯)
n
i=
(x i
− x¯)
2
2
n ∑
i=
(y i
− y¯)
2
n
i=
(xi − ¯x)(yi − y¯))
2
n
i=
(xi − ¯x)
2
n
i=
(yi − ¯y)
2
où apparaissent deux carrés et un troisième terme indépendant de β 1
et β 2
: ce dernier est donc
incompressible. Par contre, le second est nul si et seulement si β 2
β 2
. Ceci étant fait, le premier
est alors nul si et seulement si β 1
β 1
L’expression (1.2) de
β 2
suppose que le dénominateur
n
i=
(x i
− ¯x)
2 est non nul. Or ceci ne peut
arriver que si tous les x i
sont égaux, situation sans intérêt pour notre problème et que nous ex-
cluons donc a priori dans toute la suite.
Remarques :
β 1 = ¯y −
β 2 x¯ montre que la droite des MCO passe par le centre de gravité du
nuage (¯x, y¯).
β 1
et
β 2
montrent que ces deux estimateurs sont linéaires
par rapport au vecteur Y = [y 1 ,... , yn]
′ .
β 2 peut aussi s’écrire comme suit (exercice !) :
β 2
= β 2
(xi − ¯x)εi
∑
(xi − x¯)
2
Si cette décomposition n’est pas intéressante pour le calcul effectif de
β 2 puisqu’elle fait
intervenir les quantités inconnues β 2
et ε i
, elle l’est par contre pour démontrer des propriétés
théoriques des estimateurs (biais et variance). Son avantage est en effet de mettre en exergue
la seule source d’aléa du modèle, à savoir les erreurs ε i
Avant de poursuivre, notons que le calcul des estimateurs des moindres carrés est purement déter-
ministe : il ne fait en rien appel aux hypothèses (H 1
) et (H 2
) sur le modèle. Celles-ci vont en fait
servir dans la suite à expliciter les propriétés statistiques de ces estimateurs.
Sous les seules hypothèses (H 1
) et (H 2
) de centrages, décorrélations et homoscédasticités des er-
reurs εi du modèle, on peut déjà donner certaines propriétés des estimateurs
β 1 et
β 2 des moindres
carrés.
Théorème 1 (Estimateurs sans biais)
β 1 et
β 2 sont des estimateurs sans biais de β 1 et β 2.
Arnaud Guyader - Rennes 2 Régression
6 Chapitre 1. La régression linéaire simple
Remarques :
celui-ci fixé et ¯x positif, alors il est clair que si on augmente la pente, l’ordonnée à l’origine
va baisser et vice versa, on retrouve donc bien le signe négatif pour la covariance entre
β 1
et
β 2.
sement proportionnelle à la taille de l’échantillon, c’est-à-dire en 1 /n. En d’autres termes,
sa précision est généralement en 1 /
n. Ceci ne saute pas aux yeux si l’on considère par
exemple l’expression obtenue pour la variance de β 2
Var(
β 2
σ
2
(xi − x¯)
2
Pour comprendre que tout se passe comme d’habitude, il suffit de considérer que les x i
sont eux-mêmes aléatoires, avec écart-type σx. Dans ce cas très général, le dénominateur
est d’ordre nσ
2
x
et l’on retrouve bien une variance en 1 /n.
Les estimateurs des moindres carrés sont en fait optimaux en un certain sens, c’est ce que précise
le résultat suivant.
Théorème 3 (Gauss-Markov) Parmi les estimateurs sans biais linéaires en y, les estimateurs
β j
sont de variances minimales.
Preuve. L’estimateur des MCO s’écrit
β 2
n
i=
p i
y i
, avec p i
= (x i
− x¯)/
(x i
− ¯x)
2
. Considérons
un autre estimateur
β 2
linéaire en y i
et sans biais, c’est-à-dire :
β 2
n ∑
i=
λ i
y i
Montrons que
λi = 0 et
λixi = 1. L’égalité
β 2
) = β 1
λ i
λ i
x i
λ i
E(ε i
) = β 1
λ i
λ i
x i
est vraie pour tout β 2. L’estimateur
β 2 est sans biais donc E(
β 2 ) = β 2 pour tout β 2 , c’est-à-dire
que
λ i
= 0 et
λ i
x i
= 1. Montrons que Var(
β 2
) ≥ Var(
β 2
Var(
β 2
) = Var(
β 2
β 2
β 2
) = Var(
β 2
β 2
) + Var(
β 2
) + 2Cov(
β 2
β 2
β 2
Or :
Cov(
β 2
β 2
β 2
) = Cov(
β 2
β 2
) − Var(
β 2
σ
2
λ i
(x i
− x¯)
(x i
− x¯)
2
σ
2
(x i
− x¯)
2
la dernière égalité étant due aux deux relations
λi = 0 et
λixi = 1. Ainsi :
Var(
β 2
) = Var(
β 2
β 2
) + Var(
β 2
Une variance est toujours positive, donc :
Var(
β 2
) ≥ Var(
β 2
Le résultat est démontré. On obtiendrait la même chose pour
β 1
Remarque. Comme nous le verrons au chapitre suivant, on peut en fait montrer un peu mieux :
au sens de la relation d’ordre sur les matrices symétriques réelles, la matrice de covariance de
β = [
β 1
β 2
′ est inférieure à celle de n’importe quel autre estimateur
β = [
β 1
β 2
′ sans biais et
linéaire en y.
Arnaud Guyader - Rennes 2 Régression
1.2. Moindres Carrés Ordinaires 7
T
O
0 5 10 15 20 25 30 35
0
50
100
150
ε ˆ i
y ˆ i
β 1
β 2
x i
xi
Figure 1.2 – Représentation des individus.
Dans R
2 (espace des variables x i
et y i
β 1
est l’ordonnée à l’origine et
β 2
la pente de la droite
ajustée. Cette droite minimise la somme des carrés des distances verticales des points du nuage
à la droite ajustée. Notons yˆ i
β 1
β 2
x i
l’ordonnée du point de la droite des moindres carrés
d’abscisse x i
, ou valeur ajustée. les résidus sont définis par (cf. figure 1.2) :
ˆε i
= y i
− ˆy i
= y i
β 1
β 2
x i
= (y i
− ¯y) −
β 2
(x i
− x¯). (1.4)
Par construction, la somme des résidus est nulle :
i
ε ˆ i
i
(y i
− y¯) −
β 2
i
(x i
− x¯) = 0.
Notons maintenant que les variances et covariance des estimateurs
β 1
et
β 2
établies en section
précédente ne sont pas pratiques car elles font intervenir la variance σ
2 des erreurs, laquelle est en
général inconnue. Néanmoins, on peut en donner un estimateur sans biais grâce aux résidus.
Théorème 4 (Estimateur non biaisé de σ
2 ) La statistique σˆ
n
i=
ˆε
2
i
/(n − 2) est un esti-
mateur sans biais de σ
2 .
Preuve. Réécrivons les résidus en constatant que
β 1
= ¯y −
β 2
x¯ et β 1
= ¯y − β 2
x¯ − ε¯, ce qui donne :
ε ˆi = β 1 + β 2 xi + εi −
β 1 −
β 2 xi
= ¯y − β 2
¯x − ε¯ + β 2
x i
− y¯ +
β 2
x¯ −
β 2
x i
= (β 2
β 2
)(x i
− x¯) + (ε i
− ε¯).
En développant et en nous servant de l’écriture vue plus haut :
β 2
= β 2
(xi − x¯)εi
∑
(x i
− x¯)
2
nous avons :
εˆ
2
i
= (β 2
β 2
2
(x i
− x¯)
2
(ε i
− ε¯)
2
β 2
(x i
− ¯x)(ε i
− ¯ε)
= (β 2 −
β 2 )
2
(xi − x¯)
2
(εi − ¯ε)
2
− 2(β 2 −
β 2 )
2
(xi − ¯x)
2
.
Prenons-en l’espérance :
E
εˆ i
2
(ε i
− ε¯)
2
(x i
− x¯)
2
Var(
β 2
) = (n − 2)σ
2
.
Bien sûr, lorsque n est grand, cet estimateur diffère très peu de l’estimateur empirique de la
variance des résidus, à savoir
n
i=
εˆ
2
i
/n.
Régression Arnaud Guyader - Rennes 2
1.3. Interprétations géométriques 9
1.3 Interprétations géométriques
Si nous abordons le problème d’un point de vue vectoriel, nous avons deux vecteurs à notre dis-
position : le vecteur X = [x 1
,... , x n
′ des n observations pour la variable explicative et le vecteur
Y = [y 1 ,... , yn]
′ des n observations pour la variable à expliquer. Ces deux vecteurs appartiennent
au même espace R
n : l’espace des variables.
Si on ajoute à cela le vecteur 1 = [1,... , 1]
′ , on voit tout d’abord que par l’hypothèse selon laquelle
tous les xi ne sont pas égaux, les vecteurs 1 et X ne sont pas colinéaires : ils engendrent donc un
sous-espace de R
n de dimension 2, noté M(X). On peut projeter orthogonalement le vecteur Y
sur le sous-espace M(X), notons provisoirement
Y ce projeté. Puisque ( 1 , X) forme une base de
M(X), il existe une unique décomposition de la forme
β 1
β 2
X. Par définition du projeté
orthogonal,
Y est l’unique vecteur de M(X) minimisant la distance euclidienne ‖Y −
Y ‖, ce qui
revient au même que de minimiser son carré. Or, par définition de la norme euclidienne, cette
quantité vaut :
n ∑
i=
(y i
β 1
β 2
x i
2 ,
ce qui nous ramène à la méthode des moindres carrés ordinaires. On en déduit que
β 1 =
β 1 ,
β 2 =
β 2
et
Y = [ˆy 1
,... , ˆy n
′ , avec les expressions de
β 1
β 2
et
Y vues précédemment.
ˆε
β 11
β 2 X
y ¯ 1
1
θ
Figure 1.3 – Représentation de la projection dans l’espace des variables.
Autrement dit, dans R
n ,
β 1 et
β 2 s’interprètent comme les coordonnées de la projection orthogo-
nale
Y de Y sur le sous-espace de R
n engendré par 1 et X (voir figure 1.3).
Remarques :
proche féconde pour comprendre la régression multiple, comme nous le verrons dans les
chapitres suivants.
orthogonaux (sauf si x¯ = 0), ce qui implique que
β 1
1 n’est pas la projection orthogonale
de Y sur 1 (laquelle vaut y¯ 1 ), et que
β 2
X n’est pas la projection orthogonale de Y sur X
(laquelle vaut
〈Y,X〉
‖X‖
2
Régression Arnaud Guyader - Rennes 2
10 Chapitre 1. La régression linéaire simple
2
Nous conservons les notations du paragraphe précédent, avec
Y = [ˆy 1 ,... , yˆn]
′ la projection ortho-
gonale du vecteur Y sur M(X) et
ˆε = Y −
Y = [ˆε 1 ,... , εˆn]
′
le vecteur des résidus déjà rencontrés en section 1.2.3. Le théorème de Pythagore donne alors
directement :
‖Y − y¯ 1 ‖
2
= ‖
Y − y¯ 1 ‖
2
2
n ∑
i=
(yi − y¯)
2
=
n ∑
i=
(ˆyi − y¯)
2
n ∑
i=
ˆε
2
i
où SCT (respectivement SCE et SCR) représente la somme des carrés totale (respectivement
expliquée par le modèle et résiduelle). Ceci peut se voir comme une formule typique de décom-
position de la variance. Elle permet en outre d’introduire le coefficient de détermination de façon
naturelle.
Définition 3 (Coefficient de détermination R
2 ) Le coefficient de détermination R
2 est défini
par :
2
=
Y − y¯ 1 ‖
2
‖Y − y¯ 1 ‖
2
‖ˆε‖
2
‖Y − ¯y 1 ‖
2
On voit sur la figure 1.3 que R
2 correspond au cosinus carré de l’angle θ. De façon schématique,
on peut différencier les cas suivants :
— Si R
2 = 1, le modèle explique tout, l’angle θ vaut zéro et Y est dans M(X), c’est-à-dire
que yi = β 1 + β 2 xi pour tout i : les points de l’échantillon sont parfaitement alignés sur la
droite des moindres carrés ;
— Si R
2 = 0, cela veut dire que
(ˆyi − ¯y)
2 = 0, donc yˆi = ¯y pour tout i. Le modèle de
régression linéaire est inadapté puisqu’on ne modélise rien de mieux que la moyenne ;
— Si R
2 est proche de zéro, cela veut dire que Y est quasiment dans l’orthogonal de M(X),
le modèle de régression linéaire est inadapté, la variable x n’explique pas bien la variable
réponse y (du moins pas de façon affine).
De façon générale, l’interprétation est la suivante : le modèle de régression linéaire permet d’expli-
quer 100 × R
2 % de la variance totale des données.
Remarques :
2 comme le carré du coefficient de corrélation empirique entre les x i
et
les y i
(cf. exercice 1.2) :
2
=
n
i=
(x i
− x¯)(y i
− ¯y)
n
i=
(xi − x¯)
2
n
i=
(yi − y¯)
2
2
= ρ
2
X,Y
Y − y¯ 1. On vérifie en effet
facilement que ces deux vecteurs sont orthogonaux puisque ¯y 1 n’est rien d’autre que le
projeté orthogonal de Y sur (la droite vectorielle engendrée par) le vecteur 1 (exercice).
Arnaud Guyader - Rennes 2 Régression
12 Chapitre 1. La régression linéaire simple
Outre la sacro-sainte gaussienne, trois lois seront d’usage constant dans la suite : la loi du χ
2 , la
loi de Student et la loi de Fisher.
Figure 1.4 – Densité d’un χ
2
50
(trait gras) et densité d’une N (50, 100) (trait fin).
Définition 4 (Loi du χ
2 ) Soit X 1 ,... , Xn des variables aléatoires i.i.d. suivant une loi normale
centrée réduite. La loi de la variable X =
n
i=
2
i
est appelée loi du χ
2 à n degrés de liberté (ddl),
noté X ∼ χ
2
n
On a E[X] = n et Var(X) = 2n. Lorsque n est grand, on sait par le Théorème Central Limite que
X suit approximativement une loi normale de moyenne n et de variance 2 n : X ≈ N (n, 2 n). Ainsi,
pour n grand, environ 95% des valeurs de X se situent dans l’intervalle [n − 2
2 n, n + 2
2 n]. Ceci
est illustré figure 8 pour n = 50 ddl.
Définition 5 (Loi de Student) Soit Z une variable aléatoire suivant une loi normale centrée
réduite et X une variable suivant une loi du χ
2 à n degrés de liberté, avec Z et X indépendantes.
La loi de la variable T =
Z √
X/n
est appelée loi de Student à n degrés de liberté et on note T ∼ Tn.
Figure 1.5 – Densité d’une T 10 (trait gras) et densité d’une N (0, 1) (trait fin).
Lorsque n = 1, T suit une loi de Cauchy et n’a donc pas d’espérance (ni, a fortiori, de variance).
Pour n = 2, T est centrée mais de variance infinie. Pour n ≥ 3 , T est centrée et de variance
n
n− 2
Arnaud Guyader - Rennes 2 Régression
1.4. Cas d’erreurs gaussiennes 13
D’autre part, lorsque n devient grand, on sait par la Loi des Grands Nombres que le dénominateur
tend presque sûrement vers 1. De fait, on peut montrer que pour n grand, T tend en loi vers
une gaussienne centrée réduite : T ≈ N (0, 1). Ceci est illustré figure 1.5 pour n = 10 ddl. Par
conséquent, lorsque n sera grand, on pourra remplacer les quantiles d’une loi de Student Tn par
ceux d’une loi N (0, 1) (cf. tables en Annexe C.3).
Définition 6 (Loi de Fisher) Soit U 1
une variable aléatoire suivant une loi du χ
2 à n 1
degrés
de liberté et U 2 une variable aléatoire suivant une loi du χ
2 à n 2 degrés de liberté, avec U 1 et U 2
indépendantes. La loi de la variable F =
U 1 /n 1
U 2 /n 2
est appelée loi de Fisher à (n 1
, n 2
) degrés de liberté
et on note F ∼ F
n 1
n 2
Pour n 2 > 2 , l’espérance d’une loi de Fisher F
n 1
n 2
est n 2 /(n 2 − 2). Dans la suite, typiquement, n 2
sera grand, de sorte qu’à nouveau la Loi des Grands Nombres implique que U 2
/n 2
tend vers 1.
Dans ce cas, F peut se voir comme un chi-deux normalisé par son degré de liberté : F ≈ χ
2
n 1
/n 1
Ceci est illustré figure 1.6 pour n 1
= 2 et n 2
Figure 1.6 – Densité d’une F
2
10
(trait gras) et densité d’un
χ
2
2
2
(trait fin).
Nous allons maintenant voir comment les lois précédentes interviennent dans nos estimateurs. Afin
de faciliter la lecture de cette partie, fixons les notations suivantes :
c =
−σ
2 x¯
∑
(xi − x¯)
2
σˆ
n − 2
εˆ
2
i
σ
2
1
= σ
2
x
2
i
n
(x i
− ¯x)
2
σ ˆ
2
1
= ˆσ
2
x
2
i
n
(x i
− x¯)
2
σ
2
2
σ
2
(x i
− x¯)
2
σˆ
2
2
ˆσ
2
(x i
− x¯)
2
Comme nous l’avons vu, σ
2
1
, σ
2
2
et c sont les variances et covariance des estimateurs des moindres
carrés ordinaires. les quantités ˆσ
2
1
et σˆ
2
2
correspondent quant à elles aux estimateurs des variances
de
β 1
et
β 2
Propriétés 1 (Lois des estimateurs avec variance connue) Les lois des estimateurs des MCO
avec variance σ
2 connue sont :
Régression Arnaud Guyader - Rennes 2
1.4. Cas d’erreurs gaussiennes 15
Propriétés 3 (Intervalles et régions de confiance) (i) IC(β 1
β 1
± t n− 2
(1 − α/2)ˆσ 1
où tn− 2 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de Student Tn− 2.
(ii) IC(β 2
β 2
± t n− 2
(1 − α/2)ˆσ 2
(iii) RC(β) : Une région de confiance simultanée pour β 1 et β 2 au niveau (1 − α) est
2ˆσ
2
n(
β 1 − β 1 )
2
β 1 − β 1 )(
β 2 − β 2 ) +
x
2
i
β 2 − β 2 )
2
≤ f
2
n− 2
(1 − α),
où f
2
n− 2
(1 − α) est le quantile de niveau (1 − α) d’une loi F
2
n− 2
(iv) Un intervalle de confiance de σ
2 est donné par :
(n − 2)ˆσ
2
c n− 2
(1 − α/2)
(n − 2)ˆσ
2
c n− 2
(α/2)
où c n− 2
(1 − α/2) est le quantile de niveau (1 − α/2) d’une loi χ
2
n− 2
Remarque : Le point (iii) donne la région de confiance simultanée des paramètres (β 1 , β 2 ) de la
régression, appelée ellipse de confiance, tandis que (i) et (ii) donnent des intervalles de confiance
pour β 1
et β 2
pris séparément. La figure 1.7 montre la différence entre ces deux notions.
En matière de prévision dans le cas d’erreurs gaussiennes, les résultats obtenus en section 1.2.
pour l’espérance et la variance sont toujours valables. De plus, puisque yˆ n+
est linéaire en
β 1
β 2
et ε n+
, on peut préciser sa loi :
y n+
− ˆy n+
0 , σ
2
n
(xn+1 − x¯)
2
(x i
− ¯x)
2
A nouveau on ne connaît pas σ
2 et on l’estime donc par σˆ
2
. Comme (y n+
− yˆ n+
) et ˆσ
2 (n − 2)/σ
2
sont indépendants, on peut énoncer un résultat donnant des intervalles de confiance pour yn+1.
Proposition 3 (Loi et intervalle de confiance pour la prédiction) Avec les notations et hy-
pothèses précédentes, on a :
y n+
− ˆy n+
ˆσ
1
n
(xn+1−x¯)
2
∑
(xi−¯x)
2
∼ Tn− 2 ,
d’où l’on déduit l’intervalle de confiance suivant pour yn+1 :
y ˆ n+
± t n− 2
(1 − α/2)ˆσ
n
(x n+
− ¯x)
2
(x i
− x¯)
2
Nous retrouvons ainsi la remarque déjà faite : plus le point à prévoir admet pour abscisse x n+
une valeur éloignée de x¯, plus l’intervalle de confiance sera grand.
Plus précisément, la courbe décrite pas les limites de ces intervalles de confiance lorsque x n+
varie est une hyperbole d’axes x = ¯x et y =
β 1
β 2
x. Pour s’en persuader, il suffit d’effectuer le
changement de variables {
X = x − x¯
Y = y − (
β 1
β 2
x)
d’où il ressort qu’un point (X, Y ) est dans la région de confiance ci-dessus si et seulement si
2
b
2
2
a
2
Régression Arnaud Guyader - Rennes 2
16 Chapitre 1. La régression linéaire simple
avec {
a
1
n
(x i
− ¯x)
2
b
1
n
(t n− 2
(1 − α/2)ˆσ)
2
ce qui définit bien l’intérieur d’une hyperbole. En particulier, le centre de cette hyperbole est tout
bonnement le centre de gravité du nuage de points.
1.5 Exemple
Nous allons traiter les 50 données journalières présentées en Annexe D. La variable à expliquer
est la concentration en ozone, notée O3, et la variable explicative est la température à midi, notée
T12. Les données sont traitées avec le logiciel R.
> a <- lm(O3 ∼ T12)
> summary(a)
Call:
lm(formula = O3 ∼ T12)
Residuals:
Min 1Q Median 3Q Max
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31.4150 13.0584 2.406 0.0200 *
T12 2.7010 0.6266 4.311 8.04e-05 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.5 on 48 degrees of freedom
Multiple R-Squared: 0.2791, Adjusted R-squared: 0.
F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-
Les sorties du logiciel donnent les valeurs estimées
β 1 et
β 2 des paramètres, leurs écart-types
σ ˆ 1
et ˆσ 2
, les statistiques de tests sous l’hypothèse H 0
: β i
= 0. Nous rejetons H 0
pour les deux
paramètres estimés.
1.6 Exercices
Exercice 1.1 (QCM) 1. Lors d’une régression simple, si le R
2 vaut 1 , les points sont-ils
alignés?
A. Non ;
B. Oui ;
C. Pas obligatoirement.
A. Toujours ;
B. Jamais ;
C. Parfois.
Arnaud Guyader - Rennes 2 Régression