Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione Multipla: Modelli e Interpretazione, Dispense di Statistica

Appunti su regressione lineare

Tipologia: Dispense

2020/2021

Caricato il 01/07/2021

Gigi3345
Gigi3345 🇮🇹

4.3

(15)

25 documenti

1 / 13

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
REGRESSIONE LINEARE:
Il modello di regressione lineare consente di analizzare la relazione causale (ipotesi) tra una variabile
dipendente quantitativa (misurata su scala almeno a intervalli) e una o più variabili indipendenti
quantitative.
NELLA FORMA GENERALE DEL MODELLO DI REGRESSIONE LA VARIABILE DIPENDENTE Y VIENE
CONSIDERATA COME FUNZIONE DI k VARIABILI INDIPENDENTI (X1j; X2j; X3j; ...; Xkj).
IL MODELLO DELLA REGRESSIONE LINEARE ASSUME CHE DATO UN SET DI VARIABILI INDIPENDENTI IL
VALORE MEDIO (VALORE ATTESO) DELLA VARIABILE DIPENDENTE SI MODIFICA SECONDO LA SEGUENTE
FORMULA:
Dove:
RAPPRESENTANO I PARAMETRI CHE ESPRIMONO LA RELAZIONE TRA LE k VI E LA
VD NELLA POPOLAZIONE
RAPPRESENTANO IL COEFFICIENTE DI REGRESSIONE PARZIALE TRA CIASCUNA DELLE
k VI E LA VD Y MANTENENDO COSTANTI (CONTROLLANDO) TUTTE LE ALTRE
VARIABILI.
ALFA
È L’INTERCETTA E RAPPRESENTA IL VALORE ATTESO DI Y QUANDO TUTTE LE VI SONO UGUALI A ZERO.
EPSILON
PER OGNI VALORE Y PREDETTO (MANTENENDO COSTANTI I VALORI NELLE VI) IL MODELLO PREVEDE UNA
COMPONENTE D’ERRORE (COMPONENTE STOCASTICA) QUESTO TERMINE D’ERRORE RAPPRESENTA:
- L’EFFETTO SULLA VD Y NON ESPLICITAMENTE INCLUSO NEL MODELLO;
- UN RESIDUO CASUALE NELLA VARIABILE DIPENDENTE.
SEBBENE SIA IMPLICITO NELLA FORMULAZIONE DEL MODELLO È IMPORTANTE SOTTOLINEARE CHE LA
RELAZIONE TRA E(Yj) E CIASCUN Xkj È CONCEPITA COME LINEARE E CHE GLI EFFETTI DELLE k VI SONO
ADDITIVI.
Dal momento che non è possibile indagare nella popolazione la presunta relazione tra le variabili
considerate, per la verifica delle ipotesi si procede estraendo un campione rappresentativo della
popolazione e descrivendo su questo la relazione tra le variabili considerate. Infatti nella pratica, i parametri
della popolazione non sono sempre noti. In tali casi i valori sono stimati considerando un numero finito di
osservazioni: le osservazioni campionarie. Alla base di questo passaggio vi è l'assunzione che il campione
corrisponda a una sottoparte rappresentativa della popolazione. Ovvero che nel campione siano
rappresentate tutte le caratteristiche della popolazione, e che i fenomeni al livello campionario agiscano in
maniera omologa a quanto avviene nella popolazione. Le tecniche di campionamento servono a garantire
che i campioni siano rappresentativi. Successivamente, mediante la statistica inferenziale, si verifica se la
relazione descritta al livello campionario può essere generalizzata alla popolazione di riferimento.
MULTIPLA:
Nella regressione lineare multipla ci sono molte variabili esogene, molti predittori e una variabile criterio:
ovvero c’è una sola variabile dipendente e molte variabili indipendenti.
la relazione tra le variabili indipendenti e la variabile dipendente diventa:
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Anteprima parziale del testo

Scarica Regressione Multipla: Modelli e Interpretazione e più Dispense in PDF di Statistica solo su Docsity!

REGRESSIONE LINEARE:

Il modello di regressione lineare consente di analizzare la relazione causale (ipotesi) tra una variabile dipendente quantitativa (misurata su scala almeno a intervalli) e una o più variabili indipendenti quantitative. NELLA FORMA GENERALE DEL MODELLO DI REGRESSIONE LA VARIABILE DIPENDENTE Y VIENE CONSIDERATA COME FUNZIONE DI k VARIABILI INDIPENDENTI (X1j; X2j; X3j; ...; Xkj). IL MODELLO DELLA REGRESSIONE LINEARE ASSUME CHE DATO UN SET DI VARIABILI INDIPENDENTI IL VALORE MEDIO (VALORE ATTESO) DELLA VARIABILE DIPENDENTE SI MODIFICA SECONDO LA SEGUENTE FORMULA: Dove: RAPPRESENTANO I PARAMETRI CHE ESPRIMONO LA RELAZIONE TRA LE k VI E LA VD NELLA POPOLAZIONE RAPPRESENTANO IL COEFFICIENTE DI REGRESSIONE PARZIALE TRA CIASCUNA DELLE k VI E LA VD Y MANTENENDO COSTANTI (CONTROLLANDO) TUTTE LE ALTRE VARIABILI. ALFA È L’INTERCETTA E RAPPRESENTA IL VALORE ATTESO DI Y QUANDO TUTTE LE VI SONO UGUALI A ZERO. EPSILON PER OGNI VALORE Y PREDETTO (MANTENENDO COSTANTI I VALORI NELLE VI) IL MODELLO PREVEDE UNA COMPONENTE D’ERRORE (COMPONENTE STOCASTICA) QUESTO TERMINE D’ERRORE RAPPRESENTA:

  • L’EFFETTO SULLA VD Y NON ESPLICITAMENTE INCLUSO NEL MODELLO;
  • UN RESIDUO CASUALE NELLA VARIABILE DIPENDENTE. SEBBENE SIA IMPLICITO NELLA FORMULAZIONE DEL MODELLO È IMPORTANTE SOTTOLINEARE CHE LA RELAZIONE TRA E(Yj) E CIASCUN Xkj È CONCEPITA COME LINEARE E CHE GLI EFFETTI DELLE k VI SONO ADDITIVI. Dal momento che non è possibile indagare nella popolazione la presunta relazione tra le variabili considerate, per la verifica delle ipotesi si procede estraendo un campione rappresentativo della popolazione e descrivendo su questo la relazione tra le variabili considerate. Infatti nella pratica, i parametri della popolazione non sono sempre noti. In tali casi i valori sono stimati considerando un numero finito di osservazioni: le osservazioni campionarie. Alla base di questo passaggio vi è l'assunzione che il campione corrisponda a una sottoparte rappresentativa della popolazione. Ovvero che nel campione siano rappresentate tutte le caratteristiche della popolazione, e che i fenomeni al livello campionario agiscano in maniera omologa a quanto avviene nella popolazione. Le tecniche di campionamento servono a garantire che i campioni siano rappresentativi. Successivamente, mediante la statistica inferenziale, si verifica se la relazione descritta al livello campionario può essere generalizzata alla popolazione di riferimento. MULTIPLA: Nella regressione lineare multipla ci sono molte variabili esogene, molti predittori e una variabile criterio: ovvero c’è una sola variabile dipendente e molte variabili indipendenti. la relazione tra le variabili indipendenti e la variabile dipendente diventa:
  • dove B1, B2, ..., Bk sono i coefficienti di regressione parziali e riflettono il fatto che ognuno dei predittori X1, X2, ..., Xk considerati fornisce una spiegazione parziale (o predizione) della variabile endogena Y. Ovvero, il modello assume che ciascun predittore agisca in modo indipendente e lineare sulla variabile dipendente, e che le variazioni della variabile dipendente siano il risultato della somma dei singoli effetti indipendenti. Per questa ragione la Y viene simboleggiata come Y con il cappelletto. Per una maggiore correttezza , sia nella regressione semplice sia nella regressione multipla, l’equazione andrebbe scritta includendo il termine d’errore (epsilon) relativo alla previsione della variabile dipendente. Pertanto la formula corretta diventa: Riconducendo In questo modo il modello alla sua natura probabilistica. Nella regressione lineare multipla si assume che la distribuzione teorica di riferimento della Y sia la distribuzione normale. 1. Nell’analisi della regressione multipla il primo passo prevede la valutazione o stima dei parametri nella pratica, i parametri della popolazione non sono sempre noti. In tali casi i valori sono stimati considerando un numero finito di osservazioni: le osservazioni campionarie (vedi sopra) Per distinguere la regressione campionaria da quella della popolazione il modello di regressione viene scritto in questo modo: dove:
  • le lettere latine (a, b, e) indicano i parametri del modello stimati a partire dal campione (N),
  • j rappresenta il singolo valore predetto (j = 1, 2, ..., N). Per la stima dei parametri a e bi (i = 1, 2, ..., k) il metodo più frequentemente impiegato è il principio dei minimi quadrati (OLS). Tale metodo si pone come obiettivo di stimare i parametri a e bi in modo tale da ridurre al minimo l’errore di misura: la distanza al quadrato tra i valori predetti in base al modello (Ycon cappelletto i) e i valori osservati (Yj). l’OLS tende a minimizzare la sommatoria degli scarti dalla media al quadrato (SQ):

Perché la stima dei parametri possa essere considerara robusta, l’OLS presuppone che alcune assunzioni siano verificate. Le assunzioni sono le seguenti:

  • misure: tutte le variabili indipendenti sono misurate su scala ad intervalli, a rapporti o dicotomica, la variabile dipendente è continua e misurata su scala ad intervalli o a rapporti. Tutte le variabili sono misurate senza errore;
  • specificazioni: tutti i predittori rilevanti per la variabile dipendente sono stati inseriti nell’analisi, nessun predittore irrilevante è stato inserito, e la forma della relazione tra variabili indipendenti e dipendenti è lineare;
  • valore atteso dell’errore: il valore atteso dell’errore  è 0;
  • omoschedasticità: la varianza del termine d’errore  è la stessa (o è costante) per tutti i valori delle variabili indipendenti;
  • normalità degli errori: gli errori della Y sono distribuiti normalmente (distribuzione normale) per ogni gruppo di valori delle variabili indipendenti;
  • assenza di autocorrelazioni: non ci devono essere correlazioni tra i termini dell’errore prodotti da ciascun predittore (matematicamente E(i, j) = 0);
  • assenza di correlazione tra errori e predittori: i termini d’errore devono essere non correlati con le variabili indipendenti, matematicamente E(j, Xj) = 0;
  • assenza di perfetta multicollinearità: nessuna delle variabili indipendenti deve essere una combinazione lineare perfetta delle altre variabili indipendenti (matematicamente, per ogni variabile i il valore di R2i deve essere minore di 1, dove R2i è la varianza della variabile indipendente Xi spiegata da tutti gli altri predittori nel modello X1, X2, ..., Xk). *[il quadratino con il punto interrogativo indica in tutti la epsilon greca]
  1. Un altro aspetto utile alla valutazione del modello di regressione è la valutazionedellabontà di adattamento del modello ( goodness-of-fit). Vale a dire la capacità del modello di migliorare la previsione dellavariabile Y considerando come valore di riferimento il valore stimato mediante il modello di regressione (ipotesi alternativa H1) piuttosto che il valore medio di Y (ipotesi nulla H0). Le statistiche maggiormente impiegate a tal scopo sono:  l’errore standard della stima: L’errore standard della stima corrisponde all’errore standard dei residui (. ) e rappresenta un indice che esprime l’ampiezza dell’errore di misura del modello considerato. Tale statistica viene stimata mediante la seguente formula:  l’R2 (2 inteso come quadro): esprime la parte di varianza della variabile dipendente spiegata attraverso il modello. L’R2 viene stimata con le seguenti formule, tra loro equivalenti:
  • Nella prima formula [8b] si mette in evidenza come l’R2 rappresenti il rapporto tra la devianza spiegata dal modello e la devianza totale (la devianza di Y osservata)
  • mentre nella seconda formula [8c] si pone in luce che l’R2 rappresenta l’inverso del rapporto tra la devianza d’errore (o non spiegata dal modello) e

la devianza totale. Ovvero ci fa capire che l’R2 rappresenta una stima di quanto si riduce l'errore di previsione della variabile dipendente considerando le variabili nel modello. L’R2 varia sempre tra 0 e 1. Può essere interpretato come:

  • la percentuale di varianza (%) della variabile dipendente spiegata dalle variabili indipendenti considerate nel modello.
  • Oppure, considerando la seconda formulazione [8c], come la % di riduzione dell’errore nella previsione della variabile dipendente. Per l’utilizzo e l’interpretazione dell’R2 due aspetti devono essere sottolineati:
  • Primo, l’R2 è dipendente dal campione. Modelli di regressione con le stesse variabili se sono applicati su campioni diversi possono avere identici parametri b ma R2 differenti; questo è determinato dalla diversa varianza di Y nei campioni considerati.
  • Secondo, l’R2 è influenzato dal numero di predittori. A parità di campione per confrontare due modelli è necessario calcolare un valore corretto stimabile con la seguente formula: 3. Significatività della previsione: Per sottoporre a verifica l’ipotesi che prevede che la previsione della variabile dipendente Y migliora significativamente mediante il modello di regressione si pone a confronto la varianza spiegata dal modello con la varianza non spiegata (o varianza residua). Per la verifica delle ipotesi si utilizza:  il test del rapporto tra le varianza che si distribuisce come la variabile casuale F di Fisher. Per il calcolo delle varianza si utilizza il teorema della scomposizione della devianza. Secondo tale teorema la devianza totale è data dalla somma della devianza d’errore e della devianza dell’effetto: Nella regressione si assume che la somma dei quadrati totale (SQtot o devianza) è data da una componente di errore (SQerr) e da una componente spiegata dalla regressione (SQreg). In termini formali, possiamo riscrivere la formula precedente nel seguente modo:

L’ipotesi che sottoponiamo a verifica (ipotesi nulla o H0) è che la varianza spiegata è uguale alla varianza residua, vale a dire che il modello di regressione non riduce l’errore di previsione della variabile dipendente (H 0 : la varianza spiegata è uguale a quella residua) In altri termini l’ipotesi nulla che si sottopone a verifica assume che tutti i parametri b siano uguali a 0: Qualora questa ipotesi venga rifiutata viene considerata come vera l’ipotesi alternativa che assume che almeno uno dei predittori abbia un valore di b diverso da 0:

4. Se la verifica dell’ipotesi relativa alla capacità predittiva del modello ha portato a scartare l’ipotesi nulla è possibile approfondire l’analisi indagando il contributo di ciascun predittore considerato singolarmente. A tal scopo si formula per ciascun predittore una specifica ipotesi nulla e la si sottopone a verifica. L’ipotesi nulla che viene formulata assume che ciascun valore di b osservato al livello campionario corrisponda a un valore nella popolazione uguale a 0 ( In altri termini, l’ipotesi nulla assume che il valore di b osservato sia una variazione casuale del valore 0 della popolazione). 5. Per la verifica delle ipotesi relative a ciascun predittore si utilizza la statistica t che pone a confronto il valore b osservato con il valore BetaiH0 atteso in base all’ipotesi nulla (vale a dire Beta iH0):

  • Dove bi corrisponde al coefficiente di regressione calcolato sul campione e
  • S i corrisponde alla deviazione standard del coefficiente stimata con la formula

Per l’interpretazione del valore t si utilizza la distribuzione della variabile casuale t di Student calcolando i gradi di libertà secondo la seguente equazione:

  • Dove N corrisponde al numero di osservazioni (o ampiezza del campione totale)
  • k al numero di predittori considerati nel modello. [ESERCITAZIONE in slide “regressione”] 6. Una volta verificata la relazione tra ciascun predittore e la variabile dipendente possiamo procedere all’interpretazione della relazione. È importante sottolineare che possono essere considerati esclusivamente i predittori i cui valori b sono risultati espressioni di  significativamente diversi da 0, ma che nell'interpretazione si deve fare riferimento a tutte le variabili nel modello dato che gli effetti sono sempre parziali. Nella regressione multipla, il coefficiente di regressione viene detto parziale dal momento che esprime la relazione che una data variabile indipendente ha con la variabile dipendente al netto delle altre variabili considerate nel modello. In pratica, il coefficiente di regressione parziale esprime la relazione unica che una data variabile indipendente ha con la variabile dipendente mantenendo costanti i valori delle altre variabili. In termini pratici, ciascun coefficiente di regressione viene interpretato come la variazione in unità del valore atteso della variabile dipendente per una variazione unitaria della variabile esplicativa, mantenendo costanti i valori delle altre variabili nel modello. Da ciò deriva che il valore del coefficiente b dipende dall’unità di misura delle variabili considerate. A causa della dipendenza dall’unità di misura delle variabili considerate, il coefficiente di regressione viene interpretato esclusivamente in base al segno:
  • Quando il segno è positivo significa che la relazione tra le variabili è positiva: al crescere di X j corrisponde un aumento nei valori di Yˆ o, in modo del tutto equivalente, al decrescere della X j la Yˆ decresce.
  • Al contrario, quando il segno del coefficiente b è negativo significa che le due variabili sono legate da una relazione inversa per cui se aumenta il valore della variabile X j i valori attesi della variabile Y (con cappelletto) diminuiscono, e viceversa. Il valore, la grandezza del coefficiente non standardizzato non viene mai interpretato come indice di forza della relazione. 7. Per avere un indice che esprima la forza della relazione tra la variabile indipendente e la variabile dipendente o per confrontare i coefficienti di regressione parziale tra loro, è necessario calcolare i coefficienti di regressione standardizzati (simboleggiati con la lettera greca beta) che possono essere ottenuti in due modi:  considerando nel modello di regressione le variabili standardizzate (variabili espresse in punti z)  trasformando i coefficienti di regressione attraverso la seguente formula:

Un modello A (MA) si dice nested in un modello B (MB) se il modello A è composto da alcuni dei termini contenuti nel modello B, e non ve ne sono di diversi, mentre nel modello B vi sono anche termini aggiuntivi.

POSSIBILI R2 E RELATIVE INTERPRETAZIONE:

Se i primi 6 assunti sono rispettati (in base al teorema di Gauss-Markov) è possibile affermare che le formule di stima derivate dal principio dei minimi quadrati (LS) sono efficienti e senza bias; e vengono dette BLUE (BEST LINEAR UNBIASED ESTIMATOR). Il teorema, tuttavia, vale solo se gli assunti sono rispettati. In genere, il metodo più utile per verificare l’adeguatezza del modello è l’analisi dei residui dei valori stimati dalla regressione per ogni valore osservato: L’ASSUNTO DELLA MULTICOLLINEARITÀ: UNA PRIMA DISTINZIONE DEVE ESSERE FATTA TRA LA PERFETTA MULTICOLLINEARITÀ E LE FORME MENO ESTREME DI MULTICOLLINEARITÀ. LA PERFETTA COLLINEARITÀ ESISTE QUANDO UNA O PIÙ VI È PERFETTAMENTE CORRELATA (r = 1) AD UNA O PIÙ DELLE ALTRE VI NELL’EQUAZIONE: FORTUNATAMENTE NELLA PRATICA PSICOLOGICA NON CAPITANO QUASI MAI CASI DI QUESTO TIPO (DOVE LA STIMA DEI PARAMETRI RISULTA NON POSSIBILE). MOLTO PIÙ SPESSO ABBIAMO A CHE FARE CON IL CASO IN CUI SI ASSISTE A FORME MENO ESTREME DI COLLINEARITÀ. NEGLI ESPERIMENTI, AD ESEMPIO, QUESTO PROBLEMA VIENE PERFETTAMENTE RISOLTO DAL MOMENTO CHE LE VARIABILI SONO MANIPOLATE DALLO SPERIMENTATORE IN MODO DA RENDERLE INDIPENDENTI. NELLA PRATICA È BENE CONSIDERARE LA COLLINEARITÀ COME UN GRADIENTE. La presenza della multicollinearità non altera la validità dell’ols, ma influisce sull’interpretazione della significatività delle stime dei coefficienti parziali. Infatti, quando due o più variabili indipendenti sono altamente correlate è IMPOSSIBILE conoscere il contributo di ciascuna delle due variabili sulla variabile dipendente. Da un punto di vista statistico l’influenza della collinearità si osserva nella stima del coefficiente d’errore (s) che inevitabilmente aumenta e nei conseguenti test di significatività (t) dove si osserva una riduzione dei valori. Gli effetti della multicollinearità sono IRRILEVANTI se il nostro modello si pone come obiettivo la predizione della vd (MODELLO PREDITTIVO); diventano molto più SERI se l’obiettivo della regressione è quello di definire la rilevanza dei singoli predittori (MODELLO INTERPRETATIVO). Tranne nel caso della perfetta multicollinearità, nella pratica non esistono test che consentono di definire se questo problema esiste o meno. FORTUNATAMENTE, PERÒ, ESISTONO DEI SEGNALI CHE POSSONO PORTARCI SOSPETTARNE LA PRESENZA. ALCUNI SEGNALI POSSONO ESSERE RICONOSCIUTI QUANDO:

  • IL MODELLO MOSTRA UN BUON FIT CON I DATI E TUTTAVIA SI OSSERVA CHE TUTTI I COEFFICIENTI PARZIALI SONO NON SIGNIFICATIVI; •LE STIME DEI COEFFICIENTI PARZIALI NON SONO STABILI NEI DIVERSI CAMPIONI O NELLO STESSO CAMPIONE A SEGUITO DI LEGGERE VARIAZIONI DEL MODELLO. SE I SI RILEVANO TALI SEGNALI È POSSIBILE IMPIEGARE ALCUNI TEST PER PROCEDERE AD UNA PIÙ DIRETTA VERIFICA.