Anteprima parziale del testo
Scarica Dispense regressione multipla e più Dispense in PDF di Statistica Inferenziale solo su Docsity!
Il modello di regressione lineare multiplo
Cira Perna
Dipartimento di Scienze Economiche e Statistiche
Università degli Studi di Salerno
Corso di Statistica per l'Impresa e l'Innovazione
Corso di Laurea Magistrale in Economia
Curriculum in Economia e Managment dell'Innovazione
Il modello di regressione lineare multiplo
Il modello di regressione lineare multiplo é specicato dalla seguente
relazione:
Y = 0 + 1 X 1 + : : : + pXp + "
In questo modello, il legame tra la variabile dipendente Y e le variabili
esplicative X 1 ; : : : ; Xp é specicato attraverso una combinazione lineare di
queste variabili e delle quantitá costanti 0 ; 1 ; : : : ; p dette parametri del
modello di regressione.
Supponiamo quindi di estrarre un campione costituito da n unità statistiche
per ciascuna delle quali si osservano le variabili Y e X 1 ; : : : ; Xp.
Il modello per la i-esima unità statistica è quindi dato da:
Yi = 0 + 1 X 1 i + 2 X 2 i + + pXpi + ϵi i = 1; : : : ; n:
Il modello di regressione in forma matriciale
Sia ϵ = (ϵ 1 ; : : : ; ϵn)
il vettore di variabili errori ϵi
sia = ( 0 ; 1 ; : : : ; p)
il vettore dei coecienti non noti di
regressione da stimare,
Il modello di regressione multipla puó essere scritto, in forma matriciale,
come:
Y = X + ϵ (1)
Le ipotesi classiche del modello di regressione lineare
semplice
1 Il modello di regressione per Y é esattamente specicato;
2 E(ϵ) = 0 con 0 ′^ = (0; : : : ; 0);
3 V ar(ϵ) = ^2 In, dove con V ar(ϵ) si é indicata la matrice delle
varianze e covarianze della v.c. n-pla ϵ;
4 rank(X) = p + 1 che implica l'assenza di multicollinearitá tra le
variabili esplicative del modello;
5 la matrice X é deterministica.
Alcune considerazioni sulle ipotesi classiche
È bene sottolineare che vi sono molte situazioni reali in cui una o più
assunzioni classiche potrebbero essere violate per ragioni oggettive o per
questioni di misurazione.
A tal proposito, si pongono due questioni riguardanti:
la validità dei risultati in quanto:
se valgono le ipotesi classiche, le procedure inferenziali sono ottimali.
se una delle ipotesi non è vericata, il modello potrebbe ancora
registrare una validità complessiva in termini di adattamento tra dati e
schema teorico, ma il rigore delle proprietà sarà attenuato.
la necessità di rimuovere una o più delle ipotesi precedenti
considerando:
modelli non lineari;
v.c. errori non omoschedastiche e/o tra loro correlate
variabili esplicative stocastiche
È quindi consigliabile controllare il rispetto delle ipotesi, prima di sviluppare
calcoli, interpretazioni e utilizzazioni del modello.
La struttura della v.c. Y
Le variabili Yi sono v.c. in quanto somma di una componente sistematica e
della componente aleatoria "i.
Dalla ipotesi classiche si ottiene facilmente il valore atteso di tale variabile
casuale:
E(Y ) = X
La matrice delle varianze e covarianze di Y é invece:
Var(Y ) = ^2 In
dove In è una matrice identità di ordine n.
La stima dei parametri
Quando si dispone di un campione osservato della variabile dipendente e
delle variabili esplicative, per stimare i parametri e ^2 occorre riferirsi ad
un particolare metodo di stima.
In questo caso si fa riferimento a:
Metodo dei minimi quadrati, poiché le ipotesi classiche non
richiedono alcuna specicazione sulla distribuzione delle v.c. "i, si fa
riferimento al metodo dei minimi quadrati.
Se alla seconda, terza e quarta assunzione delle ipotesi classiche si
aggiunge quella secondo cui la v.c. " sia una v.c. Normale multipla allora
puó essere utilizzato il
Metodo della massima verosimiglianza.
Il metodo dei minimi quadrati
Il metodo dei minimi quadrati permette di stimare l vettore minimizzando
la somma degli scarti al quadrato tra i valori osservati di Y e i valori stimati.
Si tratta, quindi, di minimizzare la quantitá:
S( ) = "′" (2)
Essendo:
ϵ = Y X : (3)
Occorre trovare il vettore tale che:
S( ) = "′" = (Y X )′(Y X ) = min
Lo stimatore OLS
La soluzione, unica se valgono le ipotesi classiche del modello lineare, è
(dettagli)
ˆ = (X′X) ^1 X′Y (8)
è lo stimatore OLS per il vettore dei coecienti di regressione, cioè è il
vettore che minimizza la quantità S( ).
Si tenga presente che X′X deve essere invertibile e ció é vericato se X ha
rango pieno.
Le proprietá dello stimatore ˆ
Lo stimatore ˆ^ é non distorto, cioé:
E(ˆ^ ) = (9)
La varianza dello stimatore é:
V ar( ˆ) = ^2 (X′X) ^1 (10)
Non distorsione di ˆ
Si consideri il valore atteso di entrambi i membri:
E(ˆ^ ) = E(( + (X′X) ^1 X′ϵ)) (14)
Ricordando che il valore atteso di una somma è uguale alla somma dei
valori attesi, si ha:
E(ˆ^ ) = E( ) + E((X′X) ^1 X′ϵ)
= + (X′X) ^1 X′E(ϵ) (15)
per la proprietà 1, E(ϵ) = 0 quindi:
E(ˆ^ ) = (16)
La varianza dello stimatore ˆ
V ar( ˆ) = E[(ˆ^ E( ˆ))(ˆ^ E( ˆ))
]
= E[( ˆ^ )( ˆ^ )
]
= E[((X′X) ^1 X′ϵ)((X′X) ^1 X′ϵ)
]
= E[(X′X) ^1 X′ϵϵ
X(X′X) ^1 j]
= (X′X) ^1 X′E[ϵϵ
]X(X′X) ^1
per la proprietà 3 si ha
= ^2 (X′X) ^1 X′X(X′X) ^1
= ^2 (X′X) ^1 (17)
Il modello stimato
Il modello di regressione multiplo stimato risulta essere:
Y^ ˆ = X ˆ
= X(X′X) ^1 X′Y
= P Y (18)
dove si é posto P = X(X′X) ^1 X′.
La matrice P é idempotente risultando:
P ′^ = P (quindi simmetrica)
P 2 = P P = P
(dettagli)
Il vettore dei residui
Il vettore dei residui dei è dato da:
ˆϵ = Y Yˆ
= Y P Y
= (I P )Y
= M Y (19)
dove si é posto M = (I P ) = (In X(X′X) ^1 ) La matrice M è ordine
n n ed è anch'essa idempotente. Risulta, infatti,:
M = M ′^ (quindi simmetrica)
M 2 = M M = M
(dettagli)