Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni | Appunti di Statistica

Sia dato il modello di regressione Yi = β0 + β1Xi1 + β2Xi2 + … + βkXik + εi. Soddisfatte le 5 ipotesi (deboli) di

base, una buona regola generale da osservare per costruire un buon modello di regressione è che ciascuna

delle componenti del vettore (X1, X2, … , Xk) sia il più possibile correlata con la variabile dipendente Yi (tutto

ciò porterà ad un alto valore dell’indice di adattamento R2); deve altresì valere che gli elementi di (X1, X2, … ,

Xk) siano il meno possibile correlati fra loro; intuitivamente tutto ciò significa che ciascuna delle variabili

esplicative deve fornire un contributo autonomo alla “spiegazione” di Yi.

Quando ciò non si verifica e la correlazione fra due (o più) variabili esplicative è alta, si manifesta una

patologia nell’analisi di regressione che è chiamata “Multicollinearità”.

Le conseguenze della multicollinearità sono molteplici e di varia natura. Li riassumiamo nello schema

seguente:

Indicatori di multicollinearità (Schema di p. 23, cap. 15 online del Newbold…da sapere bene)

La multicollinearità è spesso presente quando sussistono una o più delle seguenti condizioni.

1. I coefficienti di regressione sono molto diversi, anche dal punto di vista del segno, da quelli che ci si potrebbe

attendere secondo le teorie economiche o l’esperienza.

2. I coefficienti delle variabili che si ritengono rilevanti hanno una statistica T molto bassa, in realtà, quindi, si tratta

di valori nulli.

3. Le statistiche T di tutti i coefficienti sono basse, indicando l’assenza di influenze individuali sulla risposta, ma il

valore della statistica F del modello indica la sua significatività statistica.

4. Vi sono forti correlazioni tra coppie di variabili indipendenti o forti relazioni di dipendenza lineare tra una o piu`

variabili indipendenti e le altre (o si verificano entrambi i casi).

Bisogna ribadire che potrebbero verificarsi anche solo alcune delle condizioni indicate nello schema

riassuntivo. Vediamo un esempio pratico.

Sia data la seguente matrice dei dati. Le colonne sono le variabili, le righe sono gli individui. Le celle

individuano per ogni variabile le realizzazioni delle variabili in corrispondenza di ogni individuo incluso nel

campione.

Y X1

10 7

8 6

6 5

4 1

2 -1

-2 -10

Stimiamo sulla base del campione sopra proposto un modello di regressione semplice Yi = β0 + β1Xi1 + εi.

I risultati ottenuti con Excel sono i seguenti.

NOTA SULLA MULTICOLLINEARITA'

Anteprima parziale del testo

Scarica Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni e più Appunti in PDF di Statistica solo su Docsity!

Sia dato il modello di regressione Yi = β 0 + β 1 Xi1 + β 2 Xi2 + … + βkXik + εi. Soddisfatte le 5 ipotesi (deboli) di base, una buona regola generale da osservare per costruire un buon modello di regressione è che ciascuna delle componenti del vettore (X 1 , X 2 , … , Xk) sia il più possibile correlata con la variabile dipendente Yi (tutto ciò porterà ad un alto valore dell’indice di adattamento R^2 ); deve altresì valere che gli elementi di (X 1 , X 2 , … , Xk) siano il meno possibile correlati fra loro; intuitivamente tutto ciò significa che ciascuna delle variabili esplicative deve fornire un contributo autonomo alla “spiegazione” di Yi. Quando ciò non si verifica e la correlazione fra due (o più) variabili esplicative è alta, si manifesta una patologia nell’analisi di regressione che è chiamata “Multicollinearità”. Le conseguenze della multicollinearità sono molteplici e di varia natura. Li riassumiamo nello schema seguente:

Indicatori di multicollinearità (Schema di p. 23, cap. 15 online del Newbold…da sapere bene) La multicollinearità è spesso presente quando sussistono una o più delle seguenti condizioni.

I coefficienti di regressione sono molto diversi, anche dal punto di vista del segno, da quelli che ci si potrebbe attendere secondo le teorie economiche o l’esperienza.
I coefficienti delle variabili che si ritengono rilevanti hanno una statistica T molto bassa, in realtà, quindi, si tratta di valori nulli.
Le statistiche T di tutti i coefficienti sono basse, indicando l’assenza di influenze individuali sulla risposta, ma il valore della statistica F del modello indica la sua significatività statistica.
Vi sono forti correlazioni tra coppie di variabili indipendenti o forti relazioni di dipendenza lineare tra una o piu` variabili indipendenti e le altre (o si verificano entrambi i casi).

Bisogna ribadire che potrebbero verificarsi anche solo alcune delle condizioni indicate nello schema riassuntivo. Vediamo un esempio pratico. Sia data la seguente matrice dei dati. Le colonne sono le variabili, le righe sono gli individui. Le celle individuano per ogni variabile le realizzazioni delle variabili in corrispondenza di ogni individuo incluso nel campione. Y X 1 10 7 8 6 6 5 4 1 2 - -2 -

Stimiamo sulla base del campione sopra proposto un modello di regressione semplice Yi = β 0 + β 1 Xi1 + εi. I risultati ottenuti con Excel sono i seguenti.

NOTA SULLA MULTICOLLINEARITA'

ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 87.41942605 87.41943 59.12803285 0. Residuo 4 5.913907285 1. Totale 5 93.

Coefficienti Errore standard Stat t Valore di significatività Intercetta 3.7880795 0.509379806 7.43665 0. X1 0.6589404 0.085693803 7.689475 0.

Come possiamo notare il risultato del test F indica con un pvalue molto basso (0.00153) che almeno un coefficiente (esclusa l’intercetta) è diverso da zero. Tale risultato è confermato dal pvalue del test T sul coefficiente angolare (0.00153), che indica come l’impatto di X 1 sia significativamente di verso da zero. Inoltre l’effetto di X 1 su Y è positivo: al crescere di X 1 , cresce Y. Arricchiamo ora il modello introducendo una nuova variabile X 2 e proponiamoci di stimare il modello Yi = β 0 + β 1 Xi1 + β 2 Xi2 + εi,

Y X 1 X 2

Come possiamo notare la variabile X 2 è quasi una riproduzione esatta di X 1 (cambia solo l’ultima riga con

6 invece che - 10)^1. Nessuno dubiterà quindi del fatto che il coefficiente di correlazione campionario fra le realizzazioni di X 1 e X 2 sia molto alto (r= 0.98). Vediamo ora le stime del modello arricchito:

ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 2 90.70621469 45.35311 51.79032258 0. Residuo 3 2.627118644 0. Totale 5 93.

Coefficienti Errore standard Stat t Valore di significatività Intercetta 2.79661017 0.644662229 4.338101 0. X1 - 0.1355932 0.41538393 - 0.32643 0. X2 1.02542373 0.529293658 1.937344 0.

(^1) Non è possibile avere un vettore di realizzazioni di X 1 esattamente uguale alle realizzazioni di X 2 , perché una assunzione di base del modello di regressione multipla impedisce ad una variabile esplicativa di essere combinazione lineare delle altre.

Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni e più Appunti in PDF di Statistica solo su Docsity!

Y X 1 X 2