Prepare for your exams
Get points
Guidelines and tips
Sell on Docsity
Docsity AI

Prepare for your exams

Study with the several resources on Docsity

Earn points to download

Earn points by helping other students or get them with a premium plan

Guidelines and tips

Sell on Docsity

Docsity AI

Log in Sign up

Prepare for your exams

Study with the several resources on Docsity

Find documents

Prepare for your exams with the study notes shared by other students like you on Docsity

Search for your university

Find the specific documents for your university's exams

Docsity AINEW

Summarize your documents, ask them questions, convert them into quizzes and concept maps

Explore questions

Clear up your doubts by reading the answers to questions asked by your fellow students

Earn points to download

Earn points by helping other students or get them with a premium plan

Share documents

20 Points

For each uploaded document

Answer questions

5 Points

For each given answer (max 1 per day)

All the ways to get free points

Get points immediately

Choose a premium plan with all the points you need

Study Opportunities

Choose your next study program

Get in touch with the best universities in the world. Search through thousands of universities and official partners

Community

Ask the community

Ask the community for help and clear up your study doubts

Free resources

Our save-the-student-ebooks!

Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors

Td10 regression lineaire, Exercises of Data Analysis & Statistical Methods

Ecole Mohammadia d'Ingénieurs Data Analysis & Statistical Methods

Regression lineaire multiple et simple

Typology: Exercises

2019/2020

Uploaded on 01/19/2020

abdeljalil-zr 🇲🇦

2 documents

1 / 15

This page cannot be seen from the preview

Don't miss anything!

Frédéric Bertrand 4ème année - ESIEA - 2009/2010

T. D. no10

Correction de Régression linéaire

multiple

Exercice 1. Dans cet exercice, nous n’utiliserons que le logiciel Rpour

faire les calculs des valeurs critiques des quantiles de Fisher.

Question 1. La somme des carrés dûe à la régression pour l’ensemble des trois

variables est égale à :

981,326 + 190,232 + 129,431 = 1300,989.

Nous pouvons également calculer la somme ainsi :

1743,281 −442,292 = 1300,989.

Question 2. La proportion de la variation dans le niveau d’anxiété est égale à :

R2=SCreg

SCtot

=1300,989

1743,281 = 0,746,

ou encore 74,60%.

Question 3. Pour répondre à cette question, il faudrait s’assurer que

les trois hypothèses du modèle sont vérifiées. Malheureusement nous ne

pourrons pas le faire ici puisque nous ne connaissons pas les valeurs des

observations. Donc nous allons supposer que les trois hypothèses sont

vérifiées mais dans la pratique il faudrait les vérifier ABSOLUMENT.

Pour conclure que dans l’ensemble les trois variables ont un effet significatif sur le

niveau d’anxiété, il faut faire un test de Fisher. Le modèle est :

Y=β0+β1X1+β2X2+β3X3+ε,

où εest la variable résiduelle sur laquelle les trois hypothèses sont faites.

L’hypothèse nulle :

H0:β1=β2=β3= 0

contre l’hypothèse alternative :

H1:∃j= 1,2,ou 3, βj6= 0.

Calculons la statistique du test de Fisher observée qui est égale à :

Fobs =SCreg /ddl

SCres /ddl =1300,989/3

442,292/(22 −3−1 = 18) '17,649.

Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de

Fisher à 95% est égal à :

Fc,3,18 = 3,159908.

La statistique du test de Fisher observée est plus grande que le quantile

de la loi de Fisher critique, à 95%.Donc nous sommes dans la zone de rejet

1

Discover Exercises of Data Analysis & Statistical Methods Ecole Mohammadia d'Ingénieurs

Partial preview of the text

Download Td10 regression lineaire and more Exercises Data Analysis & Statistical Methods in PDF only on Docsity!

T. D. n

o

Correction de Régression linéaire

multiple

Exercice 1. Dans cet exercice, nous n’utiliserons que le logiciel R pour faire les calculs des valeurs critiques des quantiles de Fisher. Question 1. La somme des carrés dûe à la régression pour l’ensemble des trois variables est égale à :

981 , 326 + 190, 232 + 129, 431 = 1300, 989.

Nous pouvons également calculer la somme ainsi :

1743 , 281 − 442 , 292 = 1300, 989.

Question 2. La proportion de la variation dans le niveau d’anxiété est égale à :

R^2 =

SCreg SCtot

ou encore 74 , 60%.

Question 3. Pour répondre à cette question, il faudrait s’assurer que les trois hypothèses du modèle sont vérifiées. Malheureusement nous ne pourrons pas le faire ici puisque nous ne connaissons pas les valeurs des observations. Donc nous allons supposer que les trois hypothèses sont vérifiées mais dans la pratique il faudrait les vérifier ABSOLUMENT.

Pour conclure que dans l’ensemble les trois variables ont un effet significatif sur le niveau d’anxiété, il faut faire un test de Fisher. Le modèle est :

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ε,

où ε est la variable résiduelle sur laquelle les trois hypothèses sont faites.

L’hypothèse nulle : H 0 : β 1 = β 2 = β 3 = 0

contre l’hypothèse alternative :

H 1 : ∃j = 1, 2 , ou 3 , βj 6 = 0.

Calculons la statistique du test de Fisher observée qui est égale à :

Fobs =

SCreg/ddl SCres/ddl

Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 3 , 18 = 3, 159908.

La statistique du test de Fisher observée est plus grande que le quantile de la loi de Fisher critique, à 95%. Donc nous sommes dans la zone de rejet

de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1 , c’est-à-dire :

∃j = 1, 2 , ou 3 , βj 6 = 0.

Question 4. Source de variation Somme des carrés ddl Régression due à X 1 981 , 326 1 Résiduelle 761 , 955 20 Totale 1743 , 281 21

Question 5. Même remarque qu’à la question 3 de cet exercice.

a) Le modèle est : Y = β 0 + β 1 X 1 + ε.

L’hypothèse nulle H 0 : β 1 = 0

contre l’hypothèse alternative H 1 : β 1 6 = 0.

Calculons la statistique du test de Fisher observée qui est égale à :

Fobs =

SCreg/ddl SCres/ddl

Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 1 , 20 = 4, 351244.

La statistique du test de Fisher observée est plus grande que le quantile de la loi de Fisher critique. Donc nous sommes dans la zone de rejet de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1 , c’est-à-dire :

β 1 6 = 0.

b) Le modèle est : Y = β 0 + β 1 X 1 + β 2 X 2 + ε.

L’hypothèse nulle H 0 : β 2 = 0

contre l’hypothèse alternative H 1 : β 2 6 = 0.

Calculons la statistique du test de Fisher observée qui est égale à :

Fobs =

SCreg/ddl SCres/ddl

Le quantile de la loi de Fisher critique lu dans la table des quantiles de la loi de Fisher à 95% est égal à : Fc, 1 , 19 = 4, 38075.

coefficient R^2 ajusté du second modèle, c’est-à-dire celui en 5.b) et le coefficient R^2 ajusté du troisième modèle, c’est-à-dire celui en 5.c)

Exercice 2. Avant de lire le corrigé de cet exercice, il serait préférable de vérifier toutes les hypothèses du modèle, à savoir les trois hypothèses du modèles linéaire gaussien.

Question 1. Quel pourcentage de variation dans la résistance à la rupture est ex- pliquée par chacune des régressions? Pour la régression de la résistance à la rupture (Y ) en fonction de l’épaisseur (X 1 ) :

R^2 Y,X 1 =

SCreg SCtot

Pour la régression de la résistance à la rupture (Y ) en fonction de la densité (X 2 ) : R^2 Y,X 2 =

SCreg SCtot

Pour la régression de la résistance à la rupture (Y ) en fonction de l’épaisseur (X 1 ) et de la densité (X 2 ) :

R^2 Y,X 1 ,X 2 =

SCreg SCtot

Question 2. Pour chaque régression, le tableau est le suivant :

Carré moyen résiduel Écart-type des résidus Régression avec X 1 44 , 003 6 , 633 Régression avec X 2 77 , 710 8 , 815 Régression avec X 1 , X 2 23 , 979 4 , 897

Question 3. Le tableau d’analyse de variance pour la régression comportant les deux variables explicatives est le suivant : Source de ddl Somme des Carrés moyens Fobs variation carrés Régression(X 1 , X 2 ) 2 1204 , 86 602 , 43 25 , 123 Résiduelle 9 215 , 81 23 , 979 Totale 11 1420 , 67

Question 4. Tester au seuil de signification α = 5%, l’hypothèse nulle H 0 : β 1 = β 2 = 0 contre l’hypothèse alternative H 1 : au moins un des β 6 = 0. Quelle est votre conclusion? C’est pour cette question qu’il est important de regarder si les hypo- thèses sont vérifiées.

model12<-lm(Y∼ X 1 + X 2 ,data=Exo2TD8) shapiro.test(residuals(model12)) Shapiro-Wilk normality test data: residuals(model12) W = 0.9408, p-value = 0.

La régression est significative entre la résistance à la rupture et l’épais- seur du matériau si le test de Student qui teste si β 1 = 0 n’est pas vérifié. Calculons la statistique du test de Student observée :

tobs =

Le quantile de la loi de Student critique lu dans une table des quantiles de la loi de Student à 95% est égal à : tc,95% = 2, 228. La statistique du test de Student observée est plus grande que le quantile de la loi de Student critique. Par conséquent nous sommes dans la zone de rejet de l’hypothèse nulle H 0. Donc nous décidons de refuser l’hypothèse nulle H 0 et par conséquent d’accepter l’hypothèse alternative H 1. Donc la régression est significative entre la résistance à la rupture et l’épaisseur du matériau.

Remarque : Nous pouvons répondre plus rapidement en disant que l’intervalle de confiance calculé à la question précédente ne contient pas 0. Par conséquent la régression est significative entre la résistance à la rupture et l’épaisseur du matériau. Remarque : Si nous avons les sorties de R à notre disposition, nous pouvons conclure directement en regardant la p−valeur de X 1.

model1<-lm(Y∼ X 1 ,data=Exo2TD8) summary(model1) Call: lm(formula = Y ∼ X 1 , data = Exo2TD8)

Residuals: Min 1Q Median 3Q Max -8.266 -4.887 -1.209 3.232 10. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.523 4.383 0.804 0. X 1 6.036 1.279 4.721 0.000816 *** –- Residual standard error: 6.633 on 10 degrees of freedom Multiple R-Squared: 0.6903, Adjusted R-squared: 0. F-statistic: 22.29 on 1 and 10 DF, p-value: 0. Cette p−valeur est égale à 0.000816, qui est inférieur à 5%. Donc même conclusion qu’en faisant les calculs à la main précédents.

Question 7. Quel est l’apport marginal de X 2 lorsqu’elle est introduite à la suite de X 1? L’apport marginal de la variable explicative X 2 lorsqu’elle est introduite à la suite de la variable explicative X 1 est égal à : 1204 , 858 − 980 , 635 = 224, 223. Remarque : Nous retrouvons cette valeur en utilisant le logiciel R :

model12<-lm(Y∼ X 1 + X 2 ,data=Exo2TD8)

anova(model12) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X 1 1 980.63 980.63 40.8959 0.000126 *** X 2 1 224.22 224.22 9.3509 0.013617 * Residuals 9 215.81 23.98 –-

Question 8. Est-ce que la contribution marginale de la variable « densité du maté- riau », lorsqu’elle est introduite à la suite de la variable « épaisseur du maté- riau » est significative au seuil α = 5%? Utiliser les deux façons équivalentes d’effectuer ce test. C’est aussi pour cette question qu’il est important de regarder si les hypothèses sont vérifiées. Pour répondre à la question : « Est-ce que la contribution marginale de la variable « densité du matériau », lorsqu’elle est introduite à la suite de la variable « épaisseur du matériau » est significative au seuil α = 5%? », il suffit de faire un test, soit un test de Fisher, soit un test de Student. « F partiel » Fc tobs tc 9 , 350 5 , 120 3 , 058 2 , 262

Remarque : Pour obtenir la valeur 9 , 350 , nous calculons la statistique du test de Fisher : Fobs partiel =

Pour obtenir la valeur 5 , 120 , nous lisons dans une table des quantiles de la loi de Fisher : Fc, 1 , 9 = 5, 120. Comme Fobs > Fc, 1 , 9 , nous en déduisons que nous décidons de rejeter l’hypothèse nulle H 0 et par conséquent nous décidons d’accepter l’hypothèse alternative H 1 à savoir la contribution marginale de la variable « densité du matériau », lorsqu’elle est introduite à la suite de la variable « épaisseur du matériau » est significative au seuil α = 5%. Remarque : En regardant les sorties de R qui sont affichées à la question précé- dente, nous retrouvons cette valeur de 9.3509 ainsi que la p−valeur qui est égale à 0.013617 qui nous permet de conclure directement sans passer par la valeur critique. Bien sûr, nous retrouvons la même conclusion que nous venons d’établir.

Pour obtenir la valeur 3 , 058 , nous calculons la statistique du test de Student :

tobs =

Pour obtenir la valeur 2 , 262 , nous lisons dans une table des quantiles de la loi de Student : tc, 9 = 2, 262.

predict(model12,data.frame(X 1 = 4, X 2 = 2. 9 ),se.fit=TRUE) [1] 21. $se.fit [1] 2.

Question 10. Entre quelles valeurs peut se situer la résistance moyenne à la rup- ture, pour des jouets dont l’épaisseur du matériau est X 1 = 4 et de densité X 2 = 3, 8 , si l’entreprise utilise un niveau de confiance à 95%? C’est pour cette question qu’il est important de regarder si les hypo- thèses sont vérifiées. Un intervalle de confiance à 95% est égal à : [31, 612 − 4 , 751 ; 31, 612 + 4, 751] = [26, 861 ; 36, 363]. Remarque : Si nous avons les sorties du logiciel R à disposition, les calculs sont moins fastidieux (- ;

data.frame(X 1 = 4, X 2 = 3. 8 ) X 1 X 2 1 4 3. predict(model12,data.frame(X 1 = 4, X 2 = 3. 8 ),interval="confidence") fit lwr upr [1, ] 31.61175 26.86038 36.

Question 11. Quelle est la marge d’erreur dans l’estimation effectuée à la question

10.? La marge d’erreur dans l’estimation effectuée à la question 10. est égale à 36 , 363 − 26 , 861 = 2 × 4 , 751.

Question 12. Nous désirons un intervalle de prévision de la résistance à la rupture pour un jouet ayant comme épaisseur de matériau et de densité ceux précisés en

Quel est cet intervalle au niveau 95%? Remarque : Les calculs étant tellement fastidieux, que le logiciel R est indispen- sable pour répondre à ce type de question, à savoir le calcul des intervalles de prévision.

predict(model12,data.frame(X 1 = 4, X 2 = 3. 8 ),interval="predict") fit lwr upr [1, ] 31.61175 19.55839 43. Un intervalle de prévision à 95% est égal à : [19, 55839 ; 43, 6651].

Exercice 3. Question 1. Complétons le tableau d’ANOVA :

Source de variation Somme des carrés ddl Carrés moyens Fobs Régression 1 504, 4 2 752 , 2 38 , 37 Résiduelle 176 , 4 9 19 , 6 Totale 1 680, 8 11

Question 2. Pour répondre à cette question, il faudrait s’assurer que les trois hypothèses du modèle sont vérifiées. Malheureusement nous ne pourrons pas le faire ici puisque nous ne connaissons pas les valeurs des observations. Donc nous allons supposer que les trois hypothèses sont vérifiées mais dans la pratique il faudrait les vérifier ABSOLUMENT.

Testons l’hypothèse nulle H 0 : β 1 = β 2 = 0 contre l’hypothèse alternative H 1 : ∃j = 1, ou 2 , βj 6 = 0. Nous avons trouvé d’après le tableau d’ANOVA : Fobs = 38, 37. Nous lisons dans la table des quantiles de la loi de Fisher, à 95%, pour ν 1 = 2 et ν 2 = 9 : Fc, 2 , 9 = 4, 256495. Comme Fobs > Fc, 2 , 9 , nous décidons de rejeter l’hypothèse nulle H 0 et par conséquent nous décidons d’accepter l’hypothèse alternative H 1 , c’est-à-dire : ∃j = 1 ou 2 , βj 6 = 0. Remarque : À cette étape, et avec un test de Fisher, nous ne savons pas dire qu’elle est la ou les variable(s) qu’il faut conserver dans le modèle.

Question 3. Calculons le coefficient de détermination R^2 du modèle :

R^2 =

SCreg SCtot

Question 4. Donnons une estimation de la variance de la variable résiduelle ε :

s^2 =

||y − yˆ||^2 n − p

SCres n − p

Comme Fobs > Fc, 2 , 15 , nous décidons de rejeter l’hypothèse nulle H 0 et d’accepter l’hypothèse alternative H 1. L’affirmation de notre collègue n’est donc pas vraisemblable au seuil de signification α = 5%.

Exercice 6. Question 1. Dans quelle proportion, notée P , la variation non ex- pliquée par X 1 est réduite avec l’ajout de X 2 dans l’équation de régression?

Il faut d’abord calculer la proportion de la variation non expliquée par X 1. Elle est égale à : (1 − 0 , 548) × 100 = 45, 2%. Ensuite il faut calculer la proportion de la variation non expliquée par X 1 et par X 2. Elle est égale à : (1 − 0 , 683) × 100 = 31, 7%. Ensuite nous résolvons une équation à une inconnue : 45 , 2 − (45, 2 × P ) = 31, 7%. En résolvant cette équation, on obtient : P = 29, 86%. Donc la proportion P cherchée est égale à 29 , 86%.

Question 2. Déterminer la somme des carrés résiduelle lorsque les variables ex- plicatives X 1 et X 2 sont dans l’équation de régression.

La somme de carrés résiduelle lorsque les variables explicatives X 1 et X 2 sont dans l’équation de régression est égale à : SCres = s^2 × (n − p) = 1, 63522 × (20 − 3) = 45, 45.

Question 3. Quelle est la somme de carrés de régression attribuable à X 3 lors- qu’on ajoute cette variable à la suite de X 1 et X 2?

Pour répondre à cette question, introduisons quelques notations. Accroissement de la variation expliquée par l’ajout de la variable explicative X 3 à la suite de la variable explicative X 1 et de la variable explicative X 2 : SCreg(X 1 , X 2 , X 3 ) − SCreg(X 1 , X 2 ) = SCreg(X 3 |X 1 , X 2 ), soit dans une proportion de SCreg(X 1 , X 2 , X 3 ) − SCreg(X 1 , X 2 ) SCres(X 1 , X 2 )

SCreg(X 3 |X 1 , X 2 ) SCres(X 1 , X 2 )

= r Y^23. 1 , 2

qui peut également s’écrire, si on divise chaque membre par SCtot SCreg(X 1 , X 2 , X 3 ) SCtot

SCreg(X 1 , X 2 ) SCtot SCres(X 1 , X 2 ) SCtot

R^2 Y. 1 , 2 , 3 − R^2 Y. 1 , 2

1 − R^2 Y. 1 , 2

= r^2 Y 3. 1 , 2.

Cette formule donne le coefficient de détermination partielle entre la variable ex- pliquée Y et la variable explicative X 3 , étant donné que les variables explicatives X 1 et X 2 sont déjà dans l’équation de régression.

Td10 regression lineaire, Exercises of Data Analysis & Statistical Methods

Related documents

Partial preview of the text

Download Td10 regression lineaire and more Exercises Data Analysis & Statistical Methods in PDF only on Docsity!

T. D. n

o

Correction de Régression linéaire

multiple

R^2 Y. 1 , 2 , 3 − R^2 Y. 1 , 2

1 − R^2 Y. 1 , 2