

Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La multicollinearità, una patologia che si manifesta quando due o più variabili indipendenti sono fortemente correlate. La multicollinearità può portare a risultati imprecisi e ingannevoli in un modello di regressione. Le conseguenze della multicollinearità, come coefficienti divergenti e bassi valori di statistica t, e fornisce esempi pratici per illustrare queste conseguenze. Viene inoltre discusso come eliminare una o più variabili indipendenti, cambiare la specificazione del modello o ottenere nuovi dati come soluzioni per evitare la multicollinearità.
Tipologia: Appunti
1 / 3
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


Sia dato il modello di regressione Yi = β 0 + β 1 Xi1 + β 2 Xi2 + … + βkXik + εi. Soddisfatte le 5 ipotesi (deboli) di base, una buona regola generale da osservare per costruire un buon modello di regressione è che ciascuna delle componenti del vettore (X 1 , X 2 , … , Xk) sia il più possibile correlata con la variabile dipendente Yi (tutto ciò porterà ad un alto valore dell’indice di adattamento R^2 ); deve altresì valere che gli elementi di (X 1 , X 2 , … , Xk) siano il meno possibile correlati fra loro; intuitivamente tutto ciò significa che ciascuna delle variabili esplicative deve fornire un contributo autonomo alla “spiegazione” di Yi. Quando ciò non si verifica e la correlazione fra due (o più) variabili esplicative è alta, si manifesta una patologia nell’analisi di regressione che è chiamata “Multicollinearità”. Le conseguenze della multicollinearità sono molteplici e di varia natura. Li riassumiamo nello schema seguente:
Indicatori di multicollinearità (Schema di p. 23, cap. 15 online del Newbold…da sapere bene) La multicollinearità è spesso presente quando sussistono una o più delle seguenti condizioni.
Bisogna ribadire che potrebbero verificarsi anche solo alcune delle condizioni indicate nello schema riassuntivo. Vediamo un esempio pratico. Sia data la seguente matrice dei dati. Le colonne sono le variabili, le righe sono gli individui. Le celle individuano per ogni variabile le realizzazioni delle variabili in corrispondenza di ogni individuo incluso nel campione. Y X 1 10 7 8 6 6 5 4 1 2 - -2 -
Stimiamo sulla base del campione sopra proposto un modello di regressione semplice Yi = β 0 + β 1 Xi1 + εi. I risultati ottenuti con Excel sono i seguenti.
NOTA SULLA MULTICOLLINEARITA'
ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 87.41942605 87.41943 59.12803285 0. Residuo 4 5.913907285 1. Totale 5 93.
Coefficienti Errore standard Stat t Valore di significatività Intercetta 3.7880795 0.509379806 7.43665 0. X1 0.6589404 0.085693803 7.689475 0.
Come possiamo notare il risultato del test F indica con un pvalue molto basso (0.00153) che almeno un coefficiente (esclusa l’intercetta) è diverso da zero. Tale risultato è confermato dal pvalue del test T sul coefficiente angolare (0.00153), che indica come l’impatto di X 1 sia significativamente di verso da zero. Inoltre l’effetto di X 1 su Y è positivo: al crescere di X 1 , cresce Y. Arricchiamo ora il modello introducendo una nuova variabile X 2 e proponiamoci di stimare il modello Yi = β 0 + β 1 Xi1 + β 2 Xi2 + εi,
Come possiamo notare la variabile X 2 è quasi una riproduzione esatta di X 1 (cambia solo l’ultima riga con
ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 2 90.70621469 45.35311 51.79032258 0. Residuo 3 2.627118644 0. Totale 5 93.
Coefficienti Errore standard Stat t Valore di significatività Intercetta 2.79661017 0.644662229 4.338101 0. X1 - 0.1355932 0.41538393 - 0.32643 0. X2 1.02542373 0.529293658 1.937344 0.
(^1) Non è possibile avere un vettore di realizzazioni di X 1 esattamente uguale alle realizzazioni di X 2 , perché una assunzione di base del modello di regressione multipla impedisce ad una variabile esplicativa di essere combinazione lineare delle altre.