









Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Regression lineaire multiple et simple
Typology: Exercises
1 / 15
This page cannot be seen from the preview
Don't miss anything!










Exercice 1. Dans cet exercice, nous n’utiliserons que le logiciel R pour faire les calculs des valeurs critiques des quantiles de Fisher. Question 1. La somme des carrés dûe à la régression pour l’ensemble des trois variables est égale à :
981 , 326 + 190, 232 + 129, 431 = 1300, 989.
Nous pouvons également calculer la somme ainsi :
1743 , 281 − 442 , 292 = 1300, 989.
Question 2. La proportion de la variation dans le niveau d’anxiété est égale à :
R^2 =
SCreg SCtot
ou encore 74 , 60%.
Question 3. Pour répondre à cette question, il faudrait s’assurer que les trois hypothèses du modèle sont vérifiées. Malheureusement nous ne pourrons pas le faire ici puisque nous ne connaissons pas les valeurs des observations. Donc nous allons supposer que les trois hypothèses sont vérifiées mais dans la pratique il faudrait les vérifier ABSOLUMENT.
Pour conclure que dans l’ensemble les trois variables ont un effet significatif sur le niveau d’anxiété, il faut faire un test de Fisher. Le modèle est :
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ε,
où ε est la variable résiduelle sur laquelle les trois hypothèses sont faites.
L’hypothèse nulle : H 0 : β 1 = β 2 = β 3 = 0
contre l’hypothèse alternative :
H 1 : ∃j = 1, 2 , ou 3 , βj 6 = 0.
Calculons la statistique du test de Fisher observée qui est égale à :
Fobs =
SCreg/ddl SCres/ddl
Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 3 , 18 = 3, 159908.
La statistique du test de Fisher observée est plus grande que le quantile de la loi de Fisher critique, à 95%. Donc nous sommes dans la zone de rejet
de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1 , c’est-à-dire :
∃j = 1, 2 , ou 3 , βj 6 = 0.
Question 4. Source de variation Somme des carrés ddl Régression due à X 1 981 , 326 1 Résiduelle 761 , 955 20 Totale 1743 , 281 21
Question 5. Même remarque qu’à la question 3 de cet exercice.
a) Le modèle est : Y = β 0 + β 1 X 1 + ε.
L’hypothèse nulle H 0 : β 1 = 0
contre l’hypothèse alternative H 1 : β 1 6 = 0.
Calculons la statistique du test de Fisher observée qui est égale à :
Fobs =
SCreg/ddl SCres/ddl
Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 1 , 20 = 4, 351244.
La statistique du test de Fisher observée est plus grande que le quantile de la loi de Fisher critique. Donc nous sommes dans la zone de rejet de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1 , c’est-à-dire :
β 1 6 = 0.
b) Le modèle est : Y = β 0 + β 1 X 1 + β 2 X 2 + ε.
L’hypothèse nulle H 0 : β 2 = 0
contre l’hypothèse alternative H 1 : β 2 6 = 0.
Calculons la statistique du test de Fisher observée qui est égale à :
Fobs =
SCreg/ddl SCres/ddl
Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 1 , 19 = 4, 38075.
coefficient R^2 ajusté du second modèle, c’est-à-dire celui en 5.b) et le coefficient R^2 ajusté du troisième modèle, c’est-à-dire celui en 5.c)
Exercice 2. Avant de lire le corrigé de cet exercice, il serait préférable de vérifier toutes les hypothèses du modèle, à savoir les trois hypothèses du modèles linéaire gaussien.
Question 1. Quel pourcentage de variation dans la résistance à la rupture est ex- pliquée par chacune des régressions? Pour la régression de la résistance à la rupture (Y ) en fonction de l’épaisseur (X 1 ) :
R^2 Y,X 1 =
SCreg SCtot
Pour la régression de la résistance à la rupture (Y ) en fonction de la densité (X 2 ) : R^2 Y,X 2 =
SCreg SCtot
Pour la régression de la résistance à la rupture (Y ) en fonction de l’épaisseur (X 1 ) et de la densité (X 2 ) :
R^2 Y,X 1 ,X 2 =
SCreg SCtot
Question 2. Pour chaque régression, le tableau est le suivant :
Carré moyen résiduel Écart-type des résidus Régression avec X 1 44 , 003 6 , 633 Régression avec X 2 77 , 710 8 , 815 Régression avec X 1 , X 2 23 , 979 4 , 897
Question 3. Le tableau d’analyse de variance pour la régression comportant les deux variables explicatives est le suivant : Source de ddl Somme des Carrés moyens Fobs variation carrés Régression(X 1 , X 2 ) 2 1204 , 86 602 , 43 25 , 123 Résiduelle 9 215 , 81 23 , 979 Totale 11 1420 , 67
Question 4. Tester au seuil de signification α = 5%, l’hypothèse nulle H 0 : β 1 = β 2 = 0 contre l’hypothèse alternative H 1 : au moins un des β 6 = 0. Quelle est votre conclusion? C’est pour cette question qu’il est important de regarder si les hypo- thèses sont vérifiées.
model12<-lm(Y∼ X 1 + X 2 ,data=Exo2TD8) shapiro.test(residuals(model12)) Shapiro-Wilk normality test data: residuals(model12) W = 0.9408, p-value = 0.
La régression est significative entre la résistance à la rupture et l’épais- seur du matériau si le test de Student qui teste si β 1 = 0 n’est pas vérifié. Calculons la statistique du test de Student observée :
tobs =
Le quantile de la loi de Student critique lu dans une table des quantiles de la loi de Student à 95% est égal à : tc,95% = 2, 228. La statistique du test de Student observée est plus grande que le quantile de la loi de Student critique. Par conséquent nous sommes dans la zone de rejet de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1. Donc la régression est significative entre la résistance à la rupture et l’épaisseur du matériau.
Remarque : Nous pouvons répondre plus rapidement en disant que l’intervalle de confiance calculé à la question précédente ne contient pas 0. Par conséquent la régression est significative entre la résistance à la rupture et l’épaisseur du matériau. Remarque : Si nous avons les sorties de R à notre disposition, nous pouvons conclure directement en regardant la p−valeur de X 1.
model1<-lm(Y∼ X 1 ,data=Exo2TD8) summary(model1) Call: lm(formula = Y ∼ X 1 , data = Exo2TD8)
Residuals: Min 1Q Median 3Q Max -8.266 -4.887 -1.209 3.232 10. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.523 4.383 0.804 0. X 1 6.036 1.279 4.721 0.000816 *** –- Residual standard error: 6.633 on 10 degrees of freedom Multiple R-Squared: 0.6903, Adjusted R-squared: 0. F-statistic: 22.29 on 1 and 10 DF, p-value: 0. Cette p−valeur est égale à 0.000816, qui est inférieur à 5%. Donc même conclusion qu’en faisant les calculs à la main précédents.
Question 7. Quel est l’apport marginal de X 2 lorsqu’elle est introduite à la suite de X 1? L’apport marginal de la variable explicative X 2 lorsqu’elle est introduite à la suite de la variable explicative X 1 est égal à : 1204 , 858 − 980 , 635 = 224, 223. Remarque : Nous retrouvons cette valeur en utilisant le logiciel R :
model12<-lm(Y∼ X 1 + X 2 ,data=Exo2TD8)
anova(model12) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X 1 1 980.63 980.63 40.8959 0.000126 *** X 2 1 224.22 224.22 9.3509 0.013617 * Residuals 9 215.81 23.98 –-
Question 8. Est-ce que la contribution marginale de la variable « densité du maté- riau », lorsqu’elle est introduite à la suite de la variable « épaisseur du maté- riau » est significative au seuil α = 5%? Utiliser les deux façons équivalentes d’effectuer ce test. C’est aussi pour cette question qu’il est important de regarder si les hypothèses sont vérifiées. Pour répondre à la question : « Est-ce que la contribution marginale de la variable « densité du matériau », lorsqu’elle est introduite à la suite de la variable « épaisseur du matériau » est significative au seuil α = 5%? », il suffit de faire un test, soit un test de Fisher, soit un test de Student. « F partiel » Fc tobs tc 9 , 350 5 , 120 3 , 058 2 , 262
Remarque : Pour obtenir la valeur 9 , 350 , nous calculons la statistique du test de Fisher : Fobs partiel =
Pour obtenir la valeur 5 , 120 , nous lisons dans une table des quantiles de la loi de Fisher : Fc, 1 , 9 = 5, 120. Comme Fobs > Fc, 1 , 9 , nous en déduisons que nous décidons de rejeter l’hypothèse nulle H 0 et par conséquent nous décidons d’accepter l’hypothèse alternative H 1 à savoir la contribution marginale de la variable « densité du matériau », lorsqu’elle est introduite à la suite de la variable « épaisseur du matériau » est significative au seuil α = 5%. Remarque : En regardant les sorties de R qui sont affichées à la question précé- dente, nous retrouvons cette valeur de 9.3509 ainsi que la p−valeur qui est égale à 0.013617 qui nous permet de conclure directement sans passer par la valeur critique. Bien sûr, nous retrouvons la même conclusion que nous venons d’établir.
Pour obtenir la valeur 3 , 058 , nous calculons la statistique du test de Student :
tobs =
Pour obtenir la valeur 2 , 262 , nous lisons dans une table des quantiles de la loi de Student : tc, 9 = 2, 262.
predict(model12,data.frame(X 1 = 4, X 2 = 2. 9 ),se.fit=TRUE) [1] 21. $se.fit [1] 2.
Question 10. Entre quelles valeurs peut se situer la résistance moyenne à la rup- ture, pour des jouets dont l’épaisseur du matériau est X 1 = 4 et de densité X 2 = 3, 8 , si l’entreprise utilise un niveau de confiance à 95%? C’est pour cette question qu’il est important de regarder si les hypo- thèses sont vérifiées. Un intervalle de confiance à 95% est égal à : [31, 612 − 4 , 751 ; 31, 612 + 4, 751] = [26, 861 ; 36, 363]. Remarque : Si nous avons les sorties du logiciel R à disposition, les calculs sont moins fastidieux (- ;
data.frame(X 1 = 4, X 2 = 3. 8 ) X 1 X 2 1 4 3. predict(model12,data.frame(X 1 = 4, X 2 = 3. 8 ),interval="confidence") fit lwr upr [1, ] 31.61175 26.86038 36.
Question 11. Quelle est la marge d’erreur dans l’estimation effectuée à la question
10.? La marge d’erreur dans l’estimation effectuée à la question 10. est égale à 36 , 363 − 26 , 861 = 2 × 4 , 751.
Question 12. Nous désirons un intervalle de prévision de la résistance à la rupture pour un jouet ayant comme épaisseur de matériau et de densité ceux précisés en
predict(model12,data.frame(X 1 = 4, X 2 = 3. 8 ),interval="predict") fit lwr upr [1, ] 31.61175 19.55839 43. Un intervalle de prévision à 95% est égal à : [19, 55839 ; 43, 6651].
Exercice 3. Question 1. Complétons le tableau d’ANOVA :
Source de variation Somme des carrés ddl Carrés moyens Fobs Régression 1 504, 4 2 752 , 2 38 , 37 Résiduelle 176 , 4 9 19 , 6 Totale 1 680, 8 11
Question 2. Pour répondre à cette question, il faudrait s’assurer que les trois hypothèses du modèle sont vérifiées. Malheureusement nous ne pourrons pas le faire ici puisque nous ne connaissons pas les valeurs des observations. Donc nous allons supposer que les trois hypothèses sont vérifiées mais dans la pratique il faudrait les vérifier ABSOLUMENT.
Testons l’hypothèse nulle H 0 : β 1 = β 2 = 0 contre l’hypothèse alternative H 1 : ∃j = 1, ou 2 , βj 6 = 0. Nous avons trouvé d’après le tableau d’ANOVA : Fobs = 38, 37. Nous lisons dans la table des quantiles de la loi de Fisher, à 95%, pour ν 1 = 2 et ν 2 = 9 : Fc, 2 , 9 = 4, 256495. Comme Fobs > Fc, 2 , 9 , nous décidons de rejeter l’hypothèse nulle H 0 et par conséquent nous décidons d’accepter l’hypothèse alternative H 1 , c’est-à-dire : ∃j = 1 ou 2 , βj 6 = 0. Remarque : À cette étape, et avec un test de Fisher, nous ne savons pas dire qu’elle est la ou les variable(s) qu’il faut conserver dans le modèle.
Question 3. Calculons le coefficient de détermination R^2 du modèle :
R^2 =
SCreg SCtot
Question 4. Donnons une estimation de la variance de la variable résiduelle ε :
s^2 =
||y − yˆ||^2 n − p
SCres n − p
Comme Fobs > Fc, 2 , 15 , nous décidons de rejeter l’hypothèse nulle H 0 et d’accepter l’hypothèse alternative H 1. L’affirmation de notre collègue n’est donc pas vraisemblable au seuil de signification α = 5%.
Exercice 6. Question 1. Dans quelle proportion, notée P , la variation non ex- pliquée par X 1 est réduite avec l’ajout de X 2 dans l’équation de régression?
Il faut d’abord calculer la proportion de la variation non expliquée par X 1. Elle est égale à : (1 − 0 , 548) × 100 = 45, 2%. Ensuite il faut calculer la proportion de la variation non expliquée par X 1 et par X 2. Elle est égale à : (1 − 0 , 683) × 100 = 31, 7%. Ensuite nous résolvons une équation à une inconnue : 45 , 2 − (45, 2 × P ) = 31, 7%. En résolvant cette équation, on obtient : P = 29, 86%. Donc la proportion P cherchée est égale à 29 , 86%.
Question 2. Déterminer la somme des carrés résiduelle lorsque les variables ex- plicatives X 1 et X 2 sont dans l’équation de régression.
La somme de carrés résiduelle lorsque les variables explicatives X 1 et X 2 sont dans l’équation de régression est égale à : SCres = s^2 × (n − p) = 1, 63522 × (20 − 3) = 45, 45.
Question 3. Quelle est la somme de carrés de régression attribuable à X 3 lors- qu’on ajoute cette variable à la suite de X 1 et X 2?
Pour répondre à cette question, introduisons quelques notations. Accroissement de la variation expliquée par l’ajout de la variable explicative X 3 à la suite de la variable explicative X 1 et de la variable explicative X 2 : SCreg(X 1 , X 2 , X 3 ) − SCreg(X 1 , X 2 ) = SCreg(X 3 |X 1 , X 2 ), soit dans une proportion de SCreg(X 1 , X 2 , X 3 ) − SCreg(X 1 , X 2 ) SCres(X 1 , X 2 )
SCreg(X 3 |X 1 , X 2 ) SCres(X 1 , X 2 )
= r Y^23. 1 , 2
qui peut également s’écrire, si on divise chaque membre par SCtot SCreg(X 1 , X 2 , X 3 ) SCtot
SCreg(X 1 , X 2 ) SCtot SCres(X 1 , X 2 ) SCtot
= r^2 Y 3. 1 , 2.
Cette formule donne le coefficient de détermination partielle entre la variable ex- pliquée Y et la variable explicative X 3 , étant donné que les variables explicatives X 1 et X 2 sont déjà dans l’équation de régression.