Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni, Appunti di Statistica

La multicollinearità, una patologia che si manifesta quando due o più variabili indipendenti sono fortemente correlate. La multicollinearità può portare a risultati imprecisi e ingannevoli in un modello di regressione. Le conseguenze della multicollinearità, come coefficienti divergenti e bassi valori di statistica t, e fornisce esempi pratici per illustrare queste conseguenze. Viene inoltre discusso come eliminare una o più variabili indipendenti, cambiare la specificazione del modello o ottenere nuovi dati come soluzioni per evitare la multicollinearità.

Tipologia: Appunti

2019/2020

Caricato il 21/09/2020

Giuseppe191919
Giuseppe191919 🇮🇹

3 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Sia dato il modello di regressione Yi = β0 + β1Xi1 + β2Xi2 + … + βkXik + εi. Soddisfatte le 5 ipotesi (deboli) di
base, una buona regola generale da osservare per costruire un buon modello di regressione è che ciascuna
delle componenti del vettore (X1, X2, … , Xk) sia il più possibile correlata con la variabile dipendente Yi (tutto
ciò porterà ad un alto valore dell’indice di adattamento R2); deve altresì valere che gli elementi di (X1, X2, … ,
Xk) siano il meno possibile correlati fra loro; intuitivamente tutto ciò significa che ciascuna delle variabili
esplicative deve fornire un contributo autonomo alla “spiegazione” di Yi.
Quando ciò non si verifica e la correlazione fra due (o più) variabili esplicative è alta, si manifesta una
patologia nell’analisi di regressione che è chiamata “Multicollinearità”.
Le conseguenze della multicollinearità sono molteplici e di varia natura. Li riassumiamo nello schema
seguente:
Indicatori di multicollinearità (Schema di p. 23, cap. 15 online del Newbold…da sapere bene)
La multicollinearità è spesso presente quando sussistono una o più delle seguenti condizioni.
1. I coefficienti di regressione sono molto diversi, anche dal punto di vista del segno, da quelli che ci si potrebbe
attendere secondo le teorie economiche o l’esperienza.
2. I coefficienti delle variabili che si ritengono rilevanti hanno una statistica T molto bassa, in realtà, quindi, si tratta
di valori nulli.
3. Le statistiche T di tutti i coefficienti sono basse, indicando l’assenza di influenze individuali sulla risposta, ma il
valore della statistica F del modello indica la sua significatività statistica.
4. Vi sono forti correlazioni tra coppie di variabili indipendenti o forti relazioni di dipendenza lineare tra una o piu`
variabili indipendenti e le altre (o si verificano entrambi i casi).
Bisogna ribadire che potrebbero verificarsi anche solo alcune delle condizioni indicate nello schema
riassuntivo. Vediamo un esempio pratico.
Sia data la seguente matrice dei dati. Le colonne sono le variabili, le righe sono gli individui. Le celle
individuano per ogni variabile le realizzazioni delle variabili in corrispondenza di ogni individuo incluso nel
campione.
Y X1
10 7
8 6
6 5
4 1
2 -1
-2 -10
Stimiamo sulla base del campione sopra proposto un modello di regressione semplice Yi = β0 + β1Xi1 + εi.
I risultati ottenuti con Excel sono i seguenti.
NOTA SULLA MULTICOLLINEARITA'
pf3

Anteprima parziale del testo

Scarica Multicollinearità in Analisi di Regressione: Conseguenze e Soluzioni e più Appunti in PDF di Statistica solo su Docsity!

Sia dato il modello di regressione Yi = β 0 + β 1 Xi1 + β 2 Xi2 + … + βkXik + εi. Soddisfatte le 5 ipotesi (deboli) di base, una buona regola generale da osservare per costruire un buon modello di regressione è che ciascuna delle componenti del vettore (X 1 , X 2 , … , Xk) sia il più possibile correlata con la variabile dipendente Yi (tutto ciò porterà ad un alto valore dell’indice di adattamento R^2 ); deve altresì valere che gli elementi di (X 1 , X 2 , … , Xk) siano il meno possibile correlati fra loro; intuitivamente tutto ciò significa che ciascuna delle variabili esplicative deve fornire un contributo autonomo alla “spiegazione” di Yi. Quando ciò non si verifica e la correlazione fra due (o più) variabili esplicative è alta, si manifesta una patologia nell’analisi di regressione che è chiamata “Multicollinearità”. Le conseguenze della multicollinearità sono molteplici e di varia natura. Li riassumiamo nello schema seguente:

Indicatori di multicollinearità (Schema di p. 23, cap. 15 online del Newbold…da sapere bene) La multicollinearità è spesso presente quando sussistono una o più delle seguenti condizioni.

  1. I coefficienti di regressione sono molto diversi, anche dal punto di vista del segno, da quelli che ci si potrebbe attendere secondo le teorie economiche o l’esperienza.
  2. I coefficienti delle variabili che si ritengono rilevanti hanno una statistica T molto bassa, in realtà, quindi, si tratta di valori nulli.
  3. Le statistiche T di tutti i coefficienti sono basse, indicando l’assenza di influenze individuali sulla risposta, ma il valore della statistica F del modello indica la sua significatività statistica.
  4. Vi sono forti correlazioni tra coppie di variabili indipendenti o forti relazioni di dipendenza lineare tra una o piu` variabili indipendenti e le altre (o si verificano entrambi i casi).

Bisogna ribadire che potrebbero verificarsi anche solo alcune delle condizioni indicate nello schema riassuntivo. Vediamo un esempio pratico. Sia data la seguente matrice dei dati. Le colonne sono le variabili, le righe sono gli individui. Le celle individuano per ogni variabile le realizzazioni delle variabili in corrispondenza di ogni individuo incluso nel campione. Y X 1 10 7 8 6 6 5 4 1 2 - -2 -

Stimiamo sulla base del campione sopra proposto un modello di regressione semplice Yi = β 0 + β 1 Xi1 + εi. I risultati ottenuti con Excel sono i seguenti.

NOTA SULLA MULTICOLLINEARITA'

ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 87.41942605 87.41943 59.12803285 0. Residuo 4 5.913907285 1. Totale 5 93.

Coefficienti Errore standard Stat t Valore di significatività Intercetta 3.7880795 0.509379806 7.43665 0. X1 0.6589404 0.085693803 7.689475 0.

Come possiamo notare il risultato del test F indica con un pvalue molto basso (0.00153) che almeno un coefficiente (esclusa l’intercetta) è diverso da zero. Tale risultato è confermato dal pvalue del test T sul coefficiente angolare (0.00153), che indica come l’impatto di X 1 sia significativamente di verso da zero. Inoltre l’effetto di X 1 su Y è positivo: al crescere di X 1 , cresce Y. Arricchiamo ora il modello introducendo una nuova variabile X 2 e proponiamoci di stimare il modello Yi = β 0 + β 1 Xi1 + β 2 Xi2 + εi,

Y X 1 X 2

Come possiamo notare la variabile X 2 è quasi una riproduzione esatta di X 1 (cambia solo l’ultima riga con

  • 6 invece che - 10)^1. Nessuno dubiterà quindi del fatto che il coefficiente di correlazione campionario fra le realizzazioni di X 1 e X 2 sia molto alto (r= 0.98). Vediamo ora le stime del modello arricchito:

ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 2 90.70621469 45.35311 51.79032258 0. Residuo 3 2.627118644 0. Totale 5 93.

Coefficienti Errore standard Stat t Valore di significatività Intercetta 2.79661017 0.644662229 4.338101 0. X1 - 0.1355932 0.41538393 - 0.32643 0. X2 1.02542373 0.529293658 1.937344 0.

(^1) Non è possibile avere un vettore di realizzazioni di X 1 esattamente uguale alle realizzazioni di X 2 , perché una assunzione di base del modello di regressione multipla impedisce ad una variabile esplicativa di essere combinazione lineare delle altre.