









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dalla regressione semplice a quella multipla, inferenza, VIF, controllo d'ipotesi, diagnostica, scelta regressori da inserire nel modello, analisi della varianza (ANOVA)
Tipologia: Sbobinature
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










CAPITOLO 1 MODELLO DI REGRESSIONE SEMPLICE (y=B 0
1
x+ε)
1.1 sistema di equazioni normali
𝑗
𝑛 2
𝑗= 1
𝑗
𝑗
∗
2
𝑛
𝑗= 1
𝑗
𝑜
1
𝑗
2
𝑛
𝑗= 1
Si usa il metodo dei minimi quadrati per trovare la retta che si adatta meglio ai dati: differenza al ^2 tra y
e y* (ordinata teorica=valore che avrei se il punto fosse esattamente posizionato sulla retta) pari al
quadrato del residuo e alle distanze verticali^2 tra il punto e la retta (voglio la retta che minimizza le
distanze, per cui devo lavorare con b 0
, intercetta, e b 1
, pendenza)→minimizzo 𝜑 rispetto a b 0
e b 1
𝑗
𝑜
1
𝑗
2
𝑛
𝑗= 1
𝑗
2
0
2
1
2
𝑗
2
0
𝑗
𝑜
1
𝑗
1
𝑗
𝑗
𝑛
𝑗= 1
𝒋
𝟐
𝟎
𝟐
𝟏
𝟐
𝒋
𝟐
𝟎
𝒋
𝒐
𝟏
𝒋
𝟏
𝒋
𝒋
Funzione rispetto a b 0
Funzione rispetto a b 1
0
2
0
𝑗
1
𝑗
1
2
𝑗
2
1
𝑗
𝑗
𝑜
𝑗
Parabola con concavità verso l’alto: ha solo un minimo nel vertice, non ha massimi (nè flessi)→
calcoliamo la derivata prima eguagliando a 0: sistema di 2 equazioni, una rispetto a b 0
e l’altra rispetto
a b 1
→sistema di equazioni normali (costruite prendendo le distanze: il segmento e j
è
normale/ortogonale/perpendicolare rispetto a b 0
e b 1
Equazione 1 (b 0 )
𝑗
𝑜
1
𝑗
𝑛
𝑗= 1
Equazione 2 (b 1 )
𝑗
𝑜
1
𝑗
𝑗
𝑛
𝑗= 1
𝑜
1
𝑥̅ b 0
dipende da b 1
𝑜
1
𝑥̅ la retta passa per forza per il
baricentro della nube dei punti.
𝑗
𝑛
𝑗= 1
la somma (la media) dei residui
è nulla (si compensano).
𝑗
𝑛
𝑗= 1
𝑗
𝑛 ∗
𝑗= 1
le ordinate teoriche
sostituite a quelle osservate ne lasciano
inalterata la somma (simile alla proprietà
associativa della media).
1
∑ 𝒙
𝒋
𝒚
𝒋
𝒏
𝒋=𝟏
−𝒏𝒙𝒚̅̅̅̅
∑ 𝒙
𝒋
𝒏 𝟐
𝒋=𝟏
−𝒏𝒙̅
𝟐
∑ (𝑥
𝑗
−𝑥̅ )(𝑦
𝑗
−𝑦̅ )
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥̅ )
2
𝑛
𝑗= 1
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)
𝑑𝑒𝑣(𝑥)
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦) ⁄𝑛
𝑑𝑒𝑣(𝑥) ⁄𝑛
𝑐𝑜𝑣(𝑥,𝑦)
𝑣(𝑥)
𝒔
𝒙𝒚
𝒔
𝒙
𝟐
in base alla codevianza
sappiamo se le unità statistiche sono concordanti o
discordanti rispetto alle 2 variabili (se prodotti positivi
= prodotti negativi→ si compensano e c’è indipendenza
lineare di y da x).
𝑗
𝑗
𝑛
𝑗= 1
𝑡
𝑥 = 0 il vettore e ed il vettore x
sono perpendicolari il loro prodotto scalare è pari a 0).
2
indice di determinazione lineare
2
𝑟𝑒𝑔
𝑗
∗
2
𝑛
𝑗= 1
𝑗
2
𝑛
𝑗= 1
𝑑𝑖𝑠𝑝
𝑗
𝑗
∗
2
𝑛
𝑗= 1
𝑗
2
𝑛
𝑗= 1
0 perfetta indipendenza lineare 1 perfetta dipendenza lineare
La devianza di regressione è pari a 0. La devianza di dispersione pari a 0, per cui i punti
sono perfettamente allineati sulla retta.
𝒓𝒆𝒈
𝑗
∗
2
𝑛
𝑗= 1
0
1
𝑗
0
1
2
𝑛
𝑗= 1
1
2
𝑗
2
𝑛
𝑗= 1
𝟏
𝟐
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)
𝑑𝑒𝑣(𝑥)
2
2
𝟏
1.3 Regressione con variabili espresse in forma standardizzata: r coefficiente di correlazione lineare
𝑥
𝑥−𝑥̅
𝑠 𝑥
𝑗𝑥
𝑥
𝑗
−𝑥̅
𝑠 𝑥
e 𝑧
𝑦
𝑦−𝑦̅
𝑠 𝑦
𝑗𝑦
𝑦
𝑗
−𝑦̅
𝑠 𝑦
𝑦
𝑥
1
∑ (𝑧
𝑗𝑥
−𝑧̅
𝑥
) ∑ (𝑧
𝑗𝑦
−𝑧̅
𝑦
)
𝑛
𝑗= 1
𝑛
𝑗= 1
∑ (𝑧 𝑗𝑥
−𝑧̅ 𝑥
)
𝑛
𝑗= 1
1
𝑛
𝑗𝑥
𝑗𝑦
𝑛
𝑗= 1
1
𝑛
(𝑥
𝑗
−𝑥̅ )
𝑠 𝑥
(𝑦
𝑗
−𝑦̅ )
𝑠 𝑦
𝑛
𝑗= 1
𝒔
𝒙𝒚
𝒔 𝒙
𝒔 𝒚
→coefficiente di
correlazione adimensionale e simmetrico (se cambio il ruolo della x e della y l’indicatore non cambia).
Se lavoriamo con variabili standardizzate il coefficiente di regressione diventa il coefficiente di
correlazione e l’intercetta scompare (variabili standardizzate hanno media nulla).
r in caso d’indipendenza
lineare
r=0 (r e b 1
hanno lo stesso numeratore)
r quando c’è perfetta
dipendenza lineare
∑ (𝑥
𝑗
−𝑥̅ )(𝑏
0
+𝑏
1
𝑥
𝑗
−𝑏
0
−𝑏
1
𝑥̅ )
𝑛
𝑗= 1
√
∑ (𝑥
𝑗
−𝑥̅ )
2
∑ (𝑏
0
+𝑏
1
𝑥
𝑗
−𝑏
0
−𝑏
1
𝑥̅ )
2
𝑛
𝑗= 1
𝑛
𝑗= 1
𝑏
1
∑ (𝒙
𝒋
−𝒙̅)
𝟐
𝒏
𝒋=𝟏
√𝒅𝒆𝒗(𝒙)𝑏
1
2
𝒅𝒆𝒗(𝒙)
𝒃 𝟏
𝒅𝒆𝒗(𝒙)
| 𝒃 𝟏
| 𝒅𝒆𝒗(𝒙)
Sempre possibile passare da r a b 1
1
𝑠 𝑦
𝑠
𝑥
1
𝑠
𝑥
𝑠
𝑦
𝟐
1
2
𝑠
𝑥
2
𝑠
𝑦
2
1
2
𝑉(𝑥)/𝑛
𝑉(𝑦)/𝑛
1
2
𝑑𝑒𝑣(𝑥)
𝑑𝑒𝑣(𝑦)
𝟐
1.4 Regressione con variabili espresse in forma di scarti dalla media
𝑗
𝑗
− 𝑥̅ e 𝑦̃ = 𝑦 − 𝑦̅ → 𝑦
𝑗
𝑗
− 𝑦̅ dunque 𝑥̃
1
∑ (𝑥
𝑗
̃ −𝑥̃
̅ )(𝑦
𝑗
̃ −𝑦̃
̅ )
𝑛
𝑗= 1
∑ (𝑥 𝑗
̃ −𝑥̃
̅
)
2
𝑛
𝑗= 1
∑ (𝑥
𝑗
̃ ∗𝑦
𝑗
̃ )
𝑛
𝑗= 1
∑ (𝑥 𝑗
̃ )
2
𝑛
𝑗= 1
∑ (𝑥
𝑗
−𝑥̅ )(𝑦
𝑗
−𝑦̅ )
𝑛
𝑗= 1
∑ (𝑥
𝑗
−𝑥̅ )
2
𝑛
𝑗= 1
𝟏
Se noi prendiamo le nostre variabili e le centriamo rispetto alla media (spostiamo l’origine degli assi:
spostiamo x ed y portando le loro medie ad essere 0) b 1
è lo stesso→ il coefficiente di regressione
rimane uguale, l’intercetta si annulla (passa per l’origine degli assi, mentre prima per il baricentro della
nube dei punti).
0
1
2.1 Condizioni
X deterministica (fisso la x per vedere cosa succede alla y)
𝜀
2
i residui hanno varianza costante (fissato un valore x e una pluralità di valori y con stessa
varianza, i residui sono omoschedastici)
𝑗
𝑗
′ ) = 0 i residui sono incorrelati
𝑗
𝜀
2
2.2 Stima
Tutti gli stimatori dei minimi quadrati sono corretti
b 1
→β 1
b 0
→β 0
1
∑ (𝑥 𝑗
−𝑥
̅ )(𝑦 𝑗
−𝑦
̅ )
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥̅ )
2
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥
̅ )𝑦 𝑗
−
∑ (𝑥 𝑗
−𝑥
̅ )𝑦
̅
𝑛
𝑗= 1
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥̅ )
2
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥
̅ )𝑦 𝑗
𝑛
𝑗= 1
∑ (𝑥 𝑗
−𝑥̅ )
2
𝑛
𝑗= 1
𝒋
𝒋
𝒏
𝒋=𝟏
1
è una combinazione lineare delle y, allora si dice che è uno
stimatore lineare.
b 0
𝟏
𝟏
∑ (
x
j
−x̅ )
y
j
n
j= 1
∑ (x j
−x
̅ )
2
n
j= 1
1
dev(x)
x
j
− x̅ )
n
j= 1
y
j
1
dev(x)
x
j
n
j= 1
x̅ ) E(β
0
1
x
j
j
1
dev(x)
(x
j
− x̅ )
n
j= 1
(β
0
1
x
j
1
dev(x)
(β
0
(x
j
− x̅ )
n
j= 1
1
(x
j
− x̅ )
n
j= 1
x
j
1
dev(x)
β
1
x
j
2
− x̅
x
j
1
dev(x)
β
1
x
j
2
− n x̅
2
𝟏
La distribuzione a cui appartiene b 1
è centrata su β
1
0
) = 𝐸(y̅ − b
1
x̅) = 𝐸(𝛽
0
1
𝑥̅ − b
1
x̅ ) = 𝛽
0
1
x̅ E(b
1
0
1
1
𝟎
Usiamo, per calcolare la varianza, la 2° e 3° condizione che vede gli ε omoschedastici e incorrelati.
V(b 1
𝑗
𝑗
𝑛
𝑗= 1
𝑗
𝑗
𝑗
2
𝑗
𝜺
𝟐
𝒋
𝟐
𝜎 𝜀
2
𝐷𝑒𝑣(𝑥)
dove 𝑤
𝑗
(𝑥
𝑗
−𝑥̅ )
∑ (𝑥 𝑗
−𝑥̅ )
2
Più le x sono sparse, più la varianza dei coefficienti di regressione è
piccola e meno variabile→maggior stabilità della nostra retta
nell’universo dei campioni.
V(b 0
1
1
𝜺
𝟐
𝟏
𝒏
𝒙̅
𝟐
𝒅𝒆𝒗(𝒙)
La varianza di una differenza:
somma varianze e
covarianze (se
indipendenti=0).
La V(b 0
) dipende da b1→COV(b 0
,b 1
0
0
1
1
1
0
1
1
0
1
1
0
1
1
1
1
1
1
1
−𝒙̅ 𝝈
𝜺
𝟐
𝒅𝒆𝒗(𝒙)
=0 (coefficiente di regressione in popolazione)
1° modo: sviluppiamo la distribuzione campionaria di b 1
sotto Ho
1
1
𝜎 𝜀
2
𝑑𝑒𝑣
( 𝑥
)
𝑐
𝑏 1
−𝛽 1
𝜎
𝜀
/√𝑑𝑒𝑣(𝑥)
stimo la varianza con la varianza di dispersione per cui sotto Ho si ha 𝒕 𝒄
𝒃 𝟏
𝒔
𝒆
/√𝒅𝒆𝒗(𝒙)
𝒏−𝟐
ragioniamo poi con le soglie della t o con il p-value (probabilità di avere, sotto Ho, un valore assoluto di t,
uguale o più estremo di quello osservato) per accettare o rifiutare Ho.
2° modo: altro modo, equivalente nel modello semplice, dove si usa la distribuzione di Fisher, con al
numeratore la varianza di regressione, corretta solo se Ho vera e al denominatore la varianza di
dispersione, sempre corretta.
𝒄
𝒔 𝒓𝒆𝒈
𝟐
𝒔
𝒅𝒊𝒔𝒑
𝟐
𝟏;𝒏−𝟐
, posso fare il test F conoscendo solo l’R
2
𝑹
𝟐
(𝟏−𝑹
𝟐
)/(𝒏−𝟐)
Dev(y) reg
2
*dev(y), Dev(y) disp
=dev(y)-R
2
dev(y)
Per poter prevedere il corrispondente valore di y su una nuova unità statistica per cui abbiamo x 0
dobbiamo immaginare che l’unità statistica sia omogenea alle altre usate per stimare il modello.
Valore vero Errore di previsione Valore previsto
0
0
1
0
0
0
0
0
∗
0
∗
0
1
0
0
∗
𝑛− 2 ;𝛼/ 2
𝑒
1
𝑛
(𝑥
0
−𝑥̅ )
𝑑𝑒𝑣(𝑥)
2
𝟎
) = 𝟎 il previsore dei minimi quadrati è corretto
in media.
𝟎
0
0
0
0
1
1
0
0
0
2
1
0
0
0
1
1
𝜀
2
𝜀
2
1
𝑛
𝑥̅
2
𝑑𝑒𝑣(𝑥)
0
2
𝜎
𝜀
2
𝑑𝑒𝑣(𝑥)
0
𝑥̅ 𝜎
𝜀
2
𝑑𝑒𝑣(𝑥)
𝜺
𝟐
𝟏
𝒏
(𝒙
𝟎
−𝒙̅ )
𝒅𝒆𝒗(𝒙)
𝟐
) dipende dal campione da cui
stimiamo i dati: più piccola per n grande (modello
supportato da tanti dati dà maggior efficienza di
previsione), più le x sono sparse più è piccola e se
x 0
=𝑥̅ è la varianza più piccola possibile.
0
𝑒
0
2
0
0
∗
𝑒
0
2
Valore atteso Errore di previsione Valore previsto
0
0
1
0
0
0
0
∗
0
∗
0
1
0
0
∗
𝑛− 2 ;𝛼/ 2
𝑒
1
𝑛
(𝑥
0
−𝑥̅ )
𝑑𝑒𝑣(𝑥)
2
0
0
𝟑
𝟐
𝟏
𝒏
(𝒙
𝟎
−𝒙̅ )
𝒅𝒆𝒗(𝒙)
𝟐
0
𝑒
0
2
0
0
∗
𝑒
0
2
3.1 Matrice dei dati
11
12
1 𝑚
𝑗 1
𝑗 2
𝑗𝑚
𝑛 1
𝑛 2
𝑛𝑚
X n(unità statistiche)*m(variabili quantitative o dummies)
Xn1→ ultima unità statistica che presenta il valore della prima variabile
Lettura per riga: ciascun profilo riferito all’unità
Lettura per colonna: protocolli elementari univariati
3.2 Vettore delle medie aritmetiche delle variabili
𝑚∗ 1
𝑛
𝑡
1
𝑛
𝑡
1
𝑛
𝑡
𝑛
3.3 Matrice degli scarti dalla media
11
1
1 𝑖
𝑖
1 𝑚
𝑚
𝑗 1
1
𝑗𝑖
𝑖
𝑗𝑚
𝑚
𝑛 1
1
𝑛𝑖
𝑖
𝑛𝑚
𝑚
𝑛∗𝑚
𝒏
𝑻
𝑛
1
𝑛
𝑛
𝑡
𝑛
1
𝑛
𝑛
𝑛
𝑡
) 𝑋 = 𝑨𝑿 dove A è chiamata centering matrix (se la prendiamo e moltiplichiamo con un’altra
diventa in funzione di scarti dalla media, è centrata rispetto a ciò).
Ciascuna colonna di X
ha somma (media) nulla, con questa matrice si considera in R
m
un nuovo sistema
di assi cartesiani uguale a quello rispetto a cui è definita la matrice X, tranne che per l’origine, che nel
nuovo sistema, è nel punto che ha come coordinate le medie aritmetiche delle m variabili oggetto di
studio. La nuvola di punti presenta il medesimo aspetto, ciò che cambia è soltanto l’origine degli assi, che
subisce una traslazione.
A è quadrata (nn), simmetrica e idempotente in quanto AA=A→(𝐼 𝑛
1
𝑛
𝑛
𝑛
𝑡
𝑛
1
𝑛
𝑛
𝑛
𝑡
𝑛
1
𝑛
𝑛
𝑛
𝑡
1
𝑛
𝑛
𝑛
𝑡
1
𝑛
2
𝑛
𝑛
𝑡
𝑛
𝑛
𝑡
𝑛
1
𝑛
𝑛
𝑛
𝑡
1
𝑛
𝑛
𝑛
𝑡
1
𝑛
2
𝑛
𝑛
𝑡
3.4 Matrice dei dati standardizzati (per eliminare l’effetto dell’unità di misura sui valori assunti dalle unità
statistiche rispetto alle m variabili)
11
1 𝑖
1 𝑚
𝑗 1
𝑗𝑖
𝑗𝑚
𝑛 1
𝑛𝑖
𝑛𝑚
dove 𝑧
𝑗𝑖
𝑥
𝑗𝑖
−𝑥
𝑖
̅
𝑠
𝑖
e Z=𝐗
−𝟏 ⁄𝟐
D è la matrice che contiene sulla diagonale principale le varianze delle variabili (la radice contiene lo
scarto quadratico medio necessaria per standardizzare le variabili).
Ciascuna colonna di Z ha somma (media) nulla e varianza unitaria. Gli elementi di Z sono numeri puri
(non dipendono dall’unità di misura delle variabili oggetto di studio). Le analisi statistiche realizzate
rispetto a Z producono risultati che non sono influenzati dalle differenze esistenti tra le variabili
osservate rispetto alle unità di misura, all’ordine medio di grandezza ed alla variabilità di ognuna di esse.
3.5 Matrice di varianze e covarianze
2
1
1 𝑖
1 𝑚
𝑖 1
2
𝑖
𝑖𝑚
𝑚 1
𝑚𝑖
2
𝑚
𝑚∗𝑚
𝑖
2
∑(𝑥
𝑗𝑖
−𝑥
𝑖
̅ )
2
𝑛
𝑖𝑚
∑(𝑥
𝑗𝑖
−𝑥
𝑖
̅ )(𝑥
𝑗𝑚
−𝑥
𝑚
̅̅̅̅̅ )
𝑛
𝟏
𝒏
𝒕
1
𝑛
𝑛
𝑡
𝑡
𝑛
𝑡
), è quadrata, simmetrica, la sua traccia (somma tutte le varianze sulla diagonale
principale) è pari alla varianza totale ed è semi definita positiva→bisogna calcolare il suo determinate e
quello di tutti i suoi minori, cioè di ciò che resta togliendo una riga e 1 colonna, se tutti ≥0 allora semi
definita positiva.
coordinate 𝑥̅ , 𝑦̅
0
1
1
𝑚
𝑚
4.2 Sistema di equazioni normali
Pre moltiplicando a destra e a sinistra per (x
t
x)
, se esiste l’inversa, ottengo la soluzione del sistema.
𝒕
−𝟏
𝒕
4.3 Casi in cui non si inverte (x
t
x)
Non sempre esiste però l’inversa: rango prodotto ≤ rango più piccolo che moltiplichiamo→implica che X
deve avere rango pieno m+1 (pari alla dimensione dello spazio colonna).
No rango colonna pieno Emergono nuovi dati (n<m+1)
Collinearità esatta (non si inverte per problema
algebrico): 1 o più colonne sono combinazione
lineare delle altre.
Multicollinearità (messaggio d’errore ma
matrici si invertono e si ottengono stime): 1
colonna è quasi combinazione lineare esatta
delle altre.
Matrici a elevata dimensione (non si invertono in
quanto l’algebra non funziona più, devo riuscire a
stimare il modello con poche unità ma tante
variabili): ho tante variabili ma poche unità, si lavora
con matrici landscape al posto di portrait, quando
andiamo a moltiplicare il r(X)=n e le matrici non si
invertono.
Se le colonne di X sono linearmente indipendenti la matrice X
t
X è singolare e il sistema normale ha
infinite soluzioni.
X=[x 1
2
] dove x 1
è la prima colonna di tutti 1 ( n
) e X 2
è la matrice contenente tutti i regressori.
b=(b 0
b 1
) dove b 0
è il vettore che moltiplica 1 n
Y= b 0
x 1
2
+e→AY= b 0
Ax 1
2
b 1
+Ae= AX 2
b 1
+e
Questo poiché Ax 1
n
𝑛
1
𝑛
𝑛
𝑛
𝑡
𝑛
𝑛
𝑛
= 0 e Ae=(𝐼
𝑛
1
𝑛
𝑛
𝑛
𝑡
Premoltiplico per 𝑋
2
𝑡
2
𝑡
2
𝑡
2
1
2
𝑡
e (0 in quanto i residui sono ortogonali allo spazio colonna
di X e quindi anche di X 2 )
Usiamo la proprietà di idempotenza di A→(𝑋 2
𝑡
2
𝑡
2
1
A simmetrica e quadrata→ (𝐴𝑋
2
𝑡
2
𝑡
2
1
𝑡
𝑡
1
𝟏
𝒕
−𝟏
𝒕
𝒚̃ questo se esiste l’inversa.
Lavorare con variabili espresse in forma di scarto dalla media fa sparire l’intercetta e lascia inalterati i
coefficienti di regressione:b che era soluzione di 𝑥
𝑡
𝑡
𝑦 è anche soluzione di 𝑋
𝑡
𝑡
1
Modello multiplo
b 1
=dev(x)
codev(x,y) =
1
𝑛
𝑥𝑥
− 1
𝑥𝑦
𝒙𝒙
−𝟏
𝒙𝒚
0
𝑡
1
Modello semplice o modello multiplo con
x incorrelate (covarianze nulle, Sxx
diagonale)
b 1
𝑠
𝑥𝑦
𝑠
𝑥
2
Il coefficiente di regressione di x 1
nel modello multiplo tiene conto, non solo della relazione tra y e
x 1
,ma anche delle relazioni che intercorrono tra le x e tra le x e la y: nel modello multiplo lavoriamo
con coefficienti parziali (dipende dal modello semplice ma c’è altro), in quanto tengono conto della
presenza anche di tutti gli altri regressori nel modello. Tanti modelli semplici comportano una perdita
di informazioni dovuta alle interrelazioni tra variabili: 1 variabile da sola potrebbe essere molto
importante, ma con altre variabili il suo contributo può essere irrilevante.
I coefficienti di regressione del modello multiplo coincidono con quelli di altrettanti modelli semplici
qualora i regressori siano tra loro incorrelati, o in termini geometrici, qualora le colonne della matrice
X siano tra loro ortogonali.
Se le variabili sono standardizzate, le covarianze sono le correlazioni: 𝑏 1
𝑥𝑥
− 1
𝑥𝑦
So che 𝑅 𝑥𝑥
− 1
𝑥𝑥
− 1 ⁄ 2
𝑥𝑥
𝑥𝑥
− 1 ⁄ 2
− 1
e che 𝑟
𝑥𝑦
𝑥𝑥
− 1 ⁄ 2
𝑠 𝑥𝑦
𝑠
𝑦
1
𝑥𝑥
− 1 ⁄ 2
1
𝑦
e 𝑏
1
𝑥𝑥
1 / 2
𝑏
1
𝑠
𝑦
Si usano i coefficienti di regressione standardizzati per ordinarli per importanza: si elimina l’unità di
misura del coefficiente per poterli confrontare tra loro.
2
nel modello multiplo
2
𝑟𝑒𝑔
𝑑𝑖𝑠𝑝
Dev(y)=
𝑗
2
2
𝒕
𝟐
Dev(y) disp
𝑗
𝑗
∗
2
𝑗
2
𝒕
Dev(y) reg
=dev(y)-dev(y) disp
𝑡
2
𝑡
𝑡
2
𝑡
𝑡
2
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
2
𝑡
𝑡
𝑡
𝑡
2
𝑡
𝑡
𝑡
𝑡
𝑡
𝑡
2
𝒕
𝒕
𝟐
2
𝑟𝑒𝑔
𝒕
𝒕
𝟐
𝒕
𝟐
𝑑𝑖𝑠𝑝
𝒕
𝒕
𝟐
Con variabili in scarti dalla media
2
𝑑𝑒𝑣(𝑦)
𝑟𝑒𝑔
𝑑𝑒𝑣(𝑦)
𝒃
𝟏
𝒕
𝒙̃
𝒕
𝒙̃ 𝒃
𝟏
𝒚̃
𝒕
𝒚̃
analogo a
𝑏
1
2
𝑑𝑒𝑣(𝑥)
𝑑𝑒𝑣(𝑦)
nel mod semplice
𝑏
1
𝑡
𝑥̃
𝑡
𝑥̃ 𝑏 1
𝑦̃
𝑡
𝑦̃
𝑏
1
𝑡
𝑥̃
𝑡
𝑦̃
∗
𝑦̃
𝑡
𝑦̃
𝑏
1
𝑡
𝑥̃
𝑡
(𝑦̃ +𝑒)
𝑦̃
𝑡
𝑦̃
𝑏
1
𝑡
𝑥̃
𝑡
𝑦̃ + 0
𝑦̃
𝑡
𝑦̃
𝒃
𝟏
𝒕
𝒙̃
𝒕
𝒚̃
𝒚̃
𝒕
𝒚̃
analogo a
𝑏 1
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)
𝑑𝑒𝑣(𝑦)
2
𝑑𝑒𝑣(𝑦)
𝑑𝑖𝑠𝑝
𝑑𝑒𝑣(𝑦)
𝑒
𝑡
𝑒
𝑦̃
𝑡
𝑦̃
Con variabili standardizzate
2
𝑏
1
̂
𝑡
𝑛𝑅
𝑥𝑥
𝑏
1
̂
𝑛 (𝐷𝑒𝑣 𝑦 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑧𝑧𝑎𝑡𝑎)
1
𝑡
𝑥𝑥
1
1
𝑡
𝑥𝑥
𝑥𝑥
− 1
𝑥𝑦
1
𝑡
𝑥𝑦
Se le x sono incorrelate: R xx
n
1
n
r xy
2
𝑥𝑦
𝑡
𝑥𝑦
(somma
degli R
2
dei modelli di regressione semplice di Y rispetto a
ciascuna x).
Per fare inferenza devo sapere le seguenti condizioni:
X predeterminata, E(ε)=0, V(ε)=𝜎 𝜀
2
𝑛
(fuori dalla diagonale principale ho tutti 0, per cui i residui sono
omoschedastici e incorrelati), 𝜀~𝑁𝑀𝑉( 0 , 𝜎 𝜀
2
𝑛
5.1 Matrice cappello H
𝑡
− 1
𝑡
𝑦) , y*=xb=𝑥(𝑥
𝑡
− 1
𝑡
La matrice H proietta y sullo spazio colonna di x: è quadrata (n*n), simmetrica (H
t
=H) e idempotente in
quanto H*H= 𝑥(𝑥
𝑡
− 1
𝑡
𝑡
− 1
𝑡
𝑡
− 1
𝑡
5.2 Valore atteso e varianza b
E(b)=E[(𝑥
𝑡
− 1
𝑡
𝑡
− 1
𝑡
𝑡
− 1
𝑡
E(xβ + ε) = (𝑥
𝑡
− 1
𝑡
xβ = 𝛃
Gli stimatori dei minimi quadrati sono corretti.
V(b)=V[
𝑡
− 1
𝑡
𝑡
− 1
𝑡
y
𝑡
− 1
𝑡
− 1
𝑡
xβ + ε
𝑡
− 1
𝑡
− 1
𝑡
𝜀
2
𝑛
𝑡
− 1
𝜀
2
𝑡
− 1
𝑡
𝑡
− 1
𝜺
𝟐
𝒕
−𝟏
𝜀
2
b è combinazione lineare delle y e quindi anche delle ε, per la condizione 4 (𝜀~𝑁𝑀𝑉( 0 , 𝜎 𝜀
2
𝑛
)) anche b si
distribuisce come una normale multivariata con parametri (β, 𝜎 𝜀
2
𝑡
− 1
5.3 Intervallo di confidenza per B i
e stima varianza di popolazione
𝑖
𝜀
2
𝑡
− 1
𝑏
𝑖
−𝛽
𝑖
𝜎
𝜀
√
𝑐
𝑖𝑖
con b i
𝛼 ⁄ 2
𝜀
𝑖𝑖
Problema varianza popolazione incognita→stimatore corretto per la varianza?
e=y-y*=(I n
idempotente M*M=(I
𝑛
𝑛
𝑛
𝑛
e=My=M(xβ+ε)=Mxβ+Mε=Mε→𝑀𝑥 = (𝐼 − 𝐻)𝑥 = [𝐼 − 𝑥(𝑥
𝑡
− 1
𝑡
𝑡
− 1
𝑡
Dev(y)disp=e
t
e=ε
t
MMε=ε
t
Mε
E(ε
t
Mε), scalare coincide con la sua traccia, E(tr ε
t
Mε), posso scambiare, la
traccia è la stessa, E(tr Mεε
t
)=trME(εε
t
)=trMV(ε)=𝜎
𝜀
2
𝛆
𝟐
trM (somma diag principale)=tr(I-H)=𝑡𝑟𝐼
𝑛
𝑡
− 1
𝑡
𝑡
𝑡
− 1
𝑚+ 1
) =n-m- 1
Per fare diagnostica si controllano delle assunzioni sui residui, necessarie per fare inferenza.
Bisogna controllare l’assunzione di omoschedasticità: mettiamo t j
sull’asse delle ordinate e y j
delle ascisse: se i residui sono omoschedastici sono centrati sullo 0 e ballano attorno all’asse delle x (noi
abbiamo fatto inferenza pensando fossero omoschedastici).
Bisogna controllare l’assunzione di linearità: se viene rifiutata (residui standardizzati non descritti
tramite funzione lineare) il nostro modello manca di qualcosa e non è in grado di spiegare la variabilità
dei residui (non spiega tutta la variabilità strutturata della y).
Infine si controlla l’assunzione di normalità, cioè di normo distribuzione dei nostri residui.
7.1 residui standardizzati: studentizzati internamente ed esternamente (controllo assunzione
omoschedasticità)
I residui dei minimi quadrati non sono omoschedastici e sono tra loro correlati: il metodo di stima
produce residui con covarianza non costante: V(e)=𝑉
𝜀
2
(𝐼 − 𝐻) mentre
V(ε)=𝜎 𝜀
2
𝐼. I ha tutti 1 sulla diagonale principale, H dei valori qualunque sulla diagonale principale (fuori
dalla diagonale non ci sono tutti 0, i residui non sono incorrelati, H è piena).
Il residuo del campione, a causa del metodo di stima, non ha varianza costante (ma forse in popolazione
si): per poter confrontare i residui si usano i residui standardizzati.
Residui standardizzati
𝒋
𝒋
𝜺
𝒋𝒋
Residui studentizzati internamente Residui studentizzati esternamente
Stimo varianza e ottengo: 𝑡
𝑗
𝑒
𝑗
𝑠
𝑒
√
1 −ℎ
𝑗𝑗
𝑗
∗
𝑒
𝑗
𝑠
𝑒
(𝑗) √
1 −ℎ
𝑗𝑗
per vedere se ci sono dei residui grandi
escludo l’unità j-esima al denominatore: un residuo grande al
numeratore fa diventare grande la varianza al denominatore.
7.2 outlier, punto di leverage, osservazione influente
Nome OUTLIER PUNTO DI LEVERAGE OSSERVAZIONE INFLUENTE
Cos’è Punto anomalo
rispetto alle y
(tira verso di sé
la retta in quanto
anche il suo
punto deve
essere
minimizzato).
Osservazione anomala rispetto
alle X.
Si guardano gli elementi che
stanno sulla diagonale principale
di H: 𝒉
𝒋𝒋
𝟏
𝒏
(𝒙
𝒋
−𝒙̅)
𝟐
𝒅𝒆𝒗(𝒙)
che fanno
diventare il numeratore (varia il
contributo di ogni unità).
È perfettamente allineata con la
retta nonostante possa sembrare
un outlier o un punto di leverage.
La sua eliminazione comporta
delle variazioni rilevanti nelle
stime dei minimi quadrati.
Come si
riconosce
t j
o t j*
(preferibile)
esterno a [-3;3]
𝒋𝒋
𝟐(𝒎+𝟏)
𝒏
dove m+1 è la traccia
di H e (m+1)/n è la media degli h jj
Distanza di cook >
𝑗
(𝑗)
𝑡
𝑡
(𝑗)
𝑒
2
Si distribuisce come una F m+1;n-m- 1
La parte che esclude b nella
formula indica la distanza euclidea
ponderata.
C’è almeno una variabile che è combinazione lineare quasi esatta di un’altra o di altre (se fosse esatta x
t
x
non si invertirebbe): la stima dei minimi quadrati esiste ma gli effetti sulla varianza delle stime possono
essere gravi. VIF>10 indica multicollinearità: si toglie prima quello con il VIF più alto poi si vede quello che
succede nelle altre variabili e nel caso si eliminano le altre che presentano un VIF ancora più alto di 10.
Dalle correlazioni tra coppie non è detto che si capisca la presenza di multicollinearità, il Vif è una
misura più generale.
Se c’è multicollinearità per x i
io
2
diventa molto vicino ad 1→ 1 - R io
2
tende a 0 →il VIF esplode→il test di
significatività per il regressore considerato diventa molto vicino a 0 e quindi non significativo, cala la
precisione delle stime puntuali, gli intervalli di confidenza si allargano, crescono le covarianze
campionarie tra gli stimatori. Inoltre le stime di b sono molto sensibili a variazioni anche molto piccole
dei valori osservati di Y e/o dei regressori.
La correlazione è una condizione sufficiente ma non necessaria alla multicollinearità.
Specificare un modello significa scegliere la forma della relazione e scegliere la variabile da inserire nel
modello: quanti e quali regressori considerare.
8.1 errori di specificazione
Esclusione di regressori rilevanti Inclusione di regressori irrilevanti
𝑌 = 𝑥𝛽 + 𝜀 modello vero
𝑡
− 1
𝑡
𝑦 stima OLS
𝑝
𝑚
𝑝
𝑚
, X=[Xp, Xm], Y=𝑥
𝑝
𝑝
𝑚
𝑚
Immaginiamo di considerare solo le variabili in x p
, i
coefficienti vengono stimati comunque bene?
𝑝
∗
𝑝
𝑡
𝑝
− 1
𝑝
𝑡
𝑝
𝑡
𝑝
− 1
𝑝
𝑡
𝑝
𝑡
𝑝
− 1
𝑝
𝑡
𝑝
𝑝
𝑚
𝑚
𝑝
𝑡
𝑝
− 1
𝑝
𝑡
𝑝
𝑝
𝑝
𝑡
𝑝
− 1
𝑝
𝑡
𝑚
𝑚
𝒑
𝒑
𝒕
𝒑
−𝟏
𝒑
𝒕
𝒎
𝒎
𝒑
L’inclusione di regressori irrilevanti
conserva le proprietà di correttezza
degli stimatori dei coefficienti riferiti
alle variabili rilevanti, però la varianza
delle stime aumenta (poiché
all’aumentare dei regressori R
2
non
cala mai, aggiungere regressori
irrilevanti comporta un aumento di R
2
io
e quindi un aumento del VIF i
Nel test f parziale con modello
completo e ridotto si usa al
denominatore la varianza di
dispersione del modello completo: se
Ho vera significa che il modello
completo contiene un regressore
irrilevante, mentre se falsa il modello
ridotto avrebbe perso un regressore
rilevante quindi la varianza di
dispersione del ridotto sarebbe
distorta, mentre quella del modello
completo è corretta.
In generale, se escludo regressori rilevanti, le stime dei
coefficienti di regressione delle variabili che includo sono
distorte (coeff. parziali).
Lo stimatore 𝑏
𝑝
∗
è corretto per β p
solo se.
punto di vista statistico sono con loro incorrelate (x
p
t
x
m
=0 le
righe di x p
sono normali alle colonne di x m
Se le stime sono distorte anche la varianza di dispersione
riferita ai soli p-regressori è distorta e quindi i test e gli
intervalli di confidenza non sono più affidabili.
8.2 perché all’aumentare del numero dei regressori R
2
non diminuisce mai? (andamento monotono
crescente)
1
n*(m+1) X 2
n*(m+2)
𝐼
1
𝑡
1
− 1
1
𝑡
𝑦 →(m+1)*1 𝑏
𝐼𝐼
2
𝑡
2
− 1
2
𝑡
𝑦 →(m+2)*
𝑟𝑒𝑔(𝐼)
𝐼
𝑡
1
𝑡
1
𝐼
2
𝑡
1
1
𝑡
1
− 1
1
𝑡
1
1
𝑡
1
− 1
1
𝑡
2
𝑡
1
1
𝑡
1
− 1
1
𝑡
2
𝒕
𝟏
𝟐
𝑟𝑒𝑔(𝐼𝐼)
𝒕
𝟐
𝟐
Th: 𝑅
𝐼𝐼
2
𝐼
2
𝐼𝐼
2
𝑑𝑒𝑣 𝑟𝑒𝑔(𝐼𝐼)
𝑑𝑒𝑣(𝑦)
𝑑𝑒𝑣 𝑟𝑒𝑔(𝐼)
𝑑𝑒𝑣
( 𝑦
)
𝐼
2
𝑟𝑒𝑔(𝐼𝐼)
𝑟𝑒𝑔(𝐼)
1
(n*n) ha rango m+1 H 2
(n*n) ha rango m+
Base per lo spazio colonna di X 1 (e di H 1 )
(a 1
,a 2
,…,a m+
Per il teorema di completamento della base,
quella per lo spazio colonna di X 2
(e di H 2
) è
(a 1
,a 2
,…,a m+
,a m+
Per il teorema spettrale reale: nel caso di matrici idempotenti gli autovalori sono solo 1 o 0
Rango autovalori non nulli m+1 Rango autovalori non nulli m+
1
1
1
1
𝑇
1
1
𝑡
𝑚+ 1
𝑚+ 1
𝑡
2
2
2
2
𝑇
1
1
𝑡
𝑚+ 1
𝑚+ 1
𝑡
𝑚+ 2
𝑚+ 2
𝑡
Dove A è la matrice di autovettori (base) e λ la matrice di autovalori (diagonale)
2
1
𝑚+ 2
𝑚+ 2
𝑡
con 2 regressori.
4 - Considero il
modello che
contiene tutti e 3 i
regressori.
In totale 2
m
modelli:
scelgo il migliore
sulla base di R
2
corretto tra i
migliori per ogni
tipo (modello
intercetta, miglior
modello 1
regressore, miglior
modello 2
regressori…)
entrare nel modello).
2 - Costruisco tutti i possibili
modelli a 2 regressori
incrementando il migliore
ad 1, scelgo il migliore e ne
controllo la significatività.
Criterio d’arresto: Mi fermo
quando ho inserito tutti i
regressori o quando per la
1° volta ottengo un test non
significativo.
eliminare un regressore
rilevante, altrimenti
continuo.
Criterio d’arresto: mi
fermo quando ho
eliminato tutti i regressori
o quando ottengo per la
prima volta un test
statisticamente
significativo.
non lo sia lo elimina
secondo la logica
backward.
Il modello ottenuto
è il miglior modello
possibile, ma al
prezzo di un
elevatissimo onere
computazionale.
Vantaggi: meno oneroso del
best subset, posso
selezionare un modello
anche quando m>n.
Warning: il metodo forward
lavora ad ogni passo con
modelli erroneamente
specificati (esclusione di
regressori rilevanti),
presenta il problema del
multiple testing.
Svantaggi: metodo instabile
(piccole variazioni portano
alla scelta di modelli
completamente diversi),
modello finale ottimo
localmente (procedura per
passi), una variabile che
entra rimane fino alla fine
(il modello finale può
contenere regressori
irrilevanti).
Vantaggi: meno oneroso
del best subset, ad ogni
passo lavora con modelli
erroneamente specificati
ma per l’inclusione di
regressori irrilevanti.
Warning: Multiple testing.
Svantaggi: il metodo è
instabile, il modello finale
è ottimo localmente,
richiede n>>m, una volta
che una variabile esce dal
modello non rientra più.
Il metodo è molto
oneroso
computazionalmente.
9.1 test ipotesi con ANOVA
Si fa un test d’ipotesi di uguaglianza delle medie basandosi sulle varianze.
Ho:𝜇 1
2
𝑘
Per poter effettuare questo test devono valere due assunzioni: le popolazioni debbono essere
omoschedastiche (𝜎 1
2
2
2
𝑘
2
2
) e che in ciascuna popolazione Y~𝑁(𝜇
𝑖
2
Il test si basa sulla scomposizione della devianza
DEV(y) tot
DEV(y) tra
entro
𝑗𝑖
2
𝑛
𝑗= 1
𝑘
𝑖= 1
n- 1 g.d.l
𝑖
2
𝑖
𝑘
𝑖= 1
(moltiplico perché le medie
sono calcolate su un numero diverso di unità
statistiche) k- 1 g.d.l (k medie di ogni gruppo
devono sottostare alla generale)
𝑗𝑖
𝑖
2 𝑛
𝑖
𝑗= 1
𝑘
𝑖= 1
calcolo la
devianza di ogni gruppo e poi le
sommo (lavoro all’interno delle
colonne) n-k g.d.l. (∑ (𝑛
𝑖
𝑘
𝑖= 1
𝑐
𝑑𝑒𝑣
( 𝑦
)
𝑡𝑟𝑎
( 𝑘− 1
⁄ )
𝑑𝑒𝑣
( 𝑦
)
𝑒𝑛𝑡𝑟𝑜
( 𝑛−𝑘
⁄ )
𝑋
𝑘− 1
2
𝑋
𝑛−𝑘
2
𝑘− 1 ;𝑛−𝑘
Per l’ipotesi di omoschedasticità:
popolazione)→𝐸 [
𝑑𝑒𝑣(𝑦)
𝑡𝑟𝑎
𝑘− 1
2
1
𝑘− 1
𝑖
𝑘 2
𝑖= 1
→se Ho è falsa la varianza tra sovrastima σ
2
perché
il termine è necessariamente positivo.
Se si rifiuta Ho si fa un’analisi post-Hoc per vedere quali sono le medie significativamente diverse.
La variabile è un fattore sperimentale a k livelli.
9.2 analisi della varianza a 1 fattore
Modello in popolazione: 𝑦
𝑗𝑖
𝑖
𝑗𝑖
dove 𝑦
𝑗𝑖
è l’osservazione j-esima sottoposta al livello i-esimo del
fattore sperimentale, 𝜇
𝑖
è la media della popolazione a cui l’osservazione j-esima appartiene, 𝜀
𝑗𝑖
è il
residuo individuale casuale (quantità che mi dice quanto l’osservazione differisce dalla media del
gruppo)→𝒚
𝒋𝒊
𝒊
𝒋𝒊
dove 𝛼
𝑖
è la differenza tra 𝜇
𝑖
e μ.
È un modello lineare e di regressione multipla:
11
1 𝑖
1 𝑘
𝑗 1
𝑛
1
1
𝑗𝑖
𝑛
𝑖
𝑖
𝑗𝑘
𝑛
𝑘
𝑘
e può essere vettorizzato.
11
𝑗 1
𝑛
1
1
1 𝑖
𝑛
𝑖
𝑖
1 𝑘
𝑛
𝑘
𝑘
n*1 dove n= 𝑛
1
2
𝑖
𝑘
𝑖
𝑘
𝑖= 1
11
𝑗 1
𝑛
1
1
1 𝑖
𝑛
𝑖
𝑖
1 𝑘
𝑛
𝑘
𝑘
n*
Y=Xβ+ε: costruiamo ora la matrice disegno X: 1° colonna pari a tutti 1 per catturare μ, aggiungiamo poi
tante colonne dummy di 0 e 1 (se l’unità statistica appartiene a quel gruppo) quanti sono i livelli del
fattore sperimentale.
1
𝑖
𝑘
Nell’Anova Ho:𝜇
1
𝑘
= 𝜇 equivale a Ho:𝛼
1
𝑘
= 0 (coefficienti di regressione nel modello
multiplo, è l’ipotesi nulla di significatività del modello con il test F come rapporto tra varianza di
regressione e varianza di dispersione).
Stima di β utilizzando il metodo dei minimi quadrati
𝑡
𝑡
𝑡
11
𝑗 1
𝑛
1
1
1 𝑖
𝑛 𝑖
𝑖
1 𝑘
𝑛 𝑘
𝑘
𝑗𝑖
𝑛
𝑖
𝑗= 1
𝑛
𝑖= 1
𝑗 1
𝑛 1
𝑗= 1
𝑗𝑖
𝑛
𝑖
𝑗= 1
𝑗𝑘
𝑛
𝑘
𝑗= 1
1
1
𝑖
𝑖
𝑘
𝑘
Le colonne della matrice x dalla seconda in poi sono tra loro ortogonali: gli effetti di ciascun livello del
fattore sperimentale non influiscono sugli altri livelli del fattore sperimentale.
Problema La 1° colonna della X si ottiene come combinazione lineare di tutte le altre: ha
dimensioni n*(k+1) ma rango k→𝑥
𝑡
𝑥 (k+1)*(k+1) ha rango k e quindi non è
invertibile→il sistema di equazioni ha k equazioni ma k+1 incognite quindi infinite
soluzioni.