







Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti su regressione lineare
Tipologia: Dispense
1 / 13
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!








Il modello di regressione lineare consente di analizzare la relazione causale (ipotesi) tra una variabile dipendente quantitativa (misurata su scala almeno a intervalli) e una o più variabili indipendenti quantitative. NELLA FORMA GENERALE DEL MODELLO DI REGRESSIONE LA VARIABILE DIPENDENTE Y VIENE CONSIDERATA COME FUNZIONE DI k VARIABILI INDIPENDENTI (X1j; X2j; X3j; ...; Xkj). IL MODELLO DELLA REGRESSIONE LINEARE ASSUME CHE DATO UN SET DI VARIABILI INDIPENDENTI IL VALORE MEDIO (VALORE ATTESO) DELLA VARIABILE DIPENDENTE SI MODIFICA SECONDO LA SEGUENTE FORMULA: Dove: RAPPRESENTANO I PARAMETRI CHE ESPRIMONO LA RELAZIONE TRA LE k VI E LA VD NELLA POPOLAZIONE RAPPRESENTANO IL COEFFICIENTE DI REGRESSIONE PARZIALE TRA CIASCUNA DELLE k VI E LA VD Y MANTENENDO COSTANTI (CONTROLLANDO) TUTTE LE ALTRE VARIABILI. ALFA È L’INTERCETTA E RAPPRESENTA IL VALORE ATTESO DI Y QUANDO TUTTE LE VI SONO UGUALI A ZERO. EPSILON PER OGNI VALORE Y PREDETTO (MANTENENDO COSTANTI I VALORI NELLE VI) IL MODELLO PREVEDE UNA COMPONENTE D’ERRORE (COMPONENTE STOCASTICA) QUESTO TERMINE D’ERRORE RAPPRESENTA:
Perché la stima dei parametri possa essere considerara robusta, l’OLS presuppone che alcune assunzioni siano verificate. Le assunzioni sono le seguenti:
la devianza totale. Ovvero ci fa capire che l’R2 rappresenta una stima di quanto si riduce l'errore di previsione della variabile dipendente considerando le variabili nel modello. L’R2 varia sempre tra 0 e 1. Può essere interpretato come:
L’ipotesi che sottoponiamo a verifica (ipotesi nulla o H0) è che la varianza spiegata è uguale alla varianza residua, vale a dire che il modello di regressione non riduce l’errore di previsione della variabile dipendente (H 0 : la varianza spiegata è uguale a quella residua) In altri termini l’ipotesi nulla che si sottopone a verifica assume che tutti i parametri b siano uguali a 0: Qualora questa ipotesi venga rifiutata viene considerata come vera l’ipotesi alternativa che assume che almeno uno dei predittori abbia un valore di b diverso da 0:
4. Se la verifica dell’ipotesi relativa alla capacità predittiva del modello ha portato a scartare l’ipotesi nulla è possibile approfondire l’analisi indagando il contributo di ciascun predittore considerato singolarmente. A tal scopo si formula per ciascun predittore una specifica ipotesi nulla e la si sottopone a verifica. L’ipotesi nulla che viene formulata assume che ciascun valore di b osservato al livello campionario corrisponda a un valore nella popolazione uguale a 0 ( In altri termini, l’ipotesi nulla assume che il valore di b osservato sia una variazione casuale del valore 0 della popolazione). 5. Per la verifica delle ipotesi relative a ciascun predittore si utilizza la statistica t che pone a confronto il valore b osservato con il valore BetaiH0 atteso in base all’ipotesi nulla (vale a dire Beta iH0):
Per l’interpretazione del valore t si utilizza la distribuzione della variabile casuale t di Student calcolando i gradi di libertà secondo la seguente equazione:
Un modello A (MA) si dice nested in un modello B (MB) se il modello A è composto da alcuni dei termini contenuti nel modello B, e non ve ne sono di diversi, mentre nel modello B vi sono anche termini aggiuntivi.
Se i primi 6 assunti sono rispettati (in base al teorema di Gauss-Markov) è possibile affermare che le formule di stima derivate dal principio dei minimi quadrati (LS) sono efficienti e senza bias; e vengono dette BLUE (BEST LINEAR UNBIASED ESTIMATOR). Il teorema, tuttavia, vale solo se gli assunti sono rispettati. In genere, il metodo più utile per verificare l’adeguatezza del modello è l’analisi dei residui dei valori stimati dalla regressione per ogni valore osservato: L’ASSUNTO DELLA MULTICOLLINEARITÀ: UNA PRIMA DISTINZIONE DEVE ESSERE FATTA TRA LA PERFETTA MULTICOLLINEARITÀ E LE FORME MENO ESTREME DI MULTICOLLINEARITÀ. LA PERFETTA COLLINEARITÀ ESISTE QUANDO UNA O PIÙ VI È PERFETTAMENTE CORRELATA (r = 1) AD UNA O PIÙ DELLE ALTRE VI NELL’EQUAZIONE: FORTUNATAMENTE NELLA PRATICA PSICOLOGICA NON CAPITANO QUASI MAI CASI DI QUESTO TIPO (DOVE LA STIMA DEI PARAMETRI RISULTA NON POSSIBILE). MOLTO PIÙ SPESSO ABBIAMO A CHE FARE CON IL CASO IN CUI SI ASSISTE A FORME MENO ESTREME DI COLLINEARITÀ. NEGLI ESPERIMENTI, AD ESEMPIO, QUESTO PROBLEMA VIENE PERFETTAMENTE RISOLTO DAL MOMENTO CHE LE VARIABILI SONO MANIPOLATE DALLO SPERIMENTATORE IN MODO DA RENDERLE INDIPENDENTI. NELLA PRATICA È BENE CONSIDERARE LA COLLINEARITÀ COME UN GRADIENTE. La presenza della multicollinearità non altera la validità dell’ols, ma influisce sull’interpretazione della significatività delle stime dei coefficienti parziali. Infatti, quando due o più variabili indipendenti sono altamente correlate è IMPOSSIBILE conoscere il contributo di ciascuna delle due variabili sulla variabile dipendente. Da un punto di vista statistico l’influenza della collinearità si osserva nella stima del coefficiente d’errore (s) che inevitabilmente aumenta e nei conseguenti test di significatività (t) dove si osserva una riduzione dei valori. Gli effetti della multicollinearità sono IRRILEVANTI se il nostro modello si pone come obiettivo la predizione della vd (MODELLO PREDITTIVO); diventano molto più SERI se l’obiettivo della regressione è quello di definire la rilevanza dei singoli predittori (MODELLO INTERPRETATIVO). Tranne nel caso della perfetta multicollinearità, nella pratica non esistono test che consentono di definire se questo problema esiste o meno. FORTUNATAMENTE, PERÒ, ESISTONO DEI SEGNALI CHE POSSONO PORTARCI SOSPETTARNE LA PRESENZA. ALCUNI SEGNALI POSSONO ESSERE RICONOSCIUTI QUANDO: