Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modelli lineari: regressione multipla, Sbobinature di Statistica

Dalla regressione semplice a quella multipla, inferenza, VIF, controllo d'ipotesi, diagnostica, scelta regressori da inserire nel modello, analisi della varianza (ANOVA)

Tipologia: Sbobinature

2020/2021

In vendita dal 06/06/2022

rosssss11
rosssss11 🇮🇹

4.5

(2)

21 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1 MODELLO DI REGRESSIONE SEMPLICE (y=B0+B1x+ε)
1.1 sistema di equazioni normali
𝜑=𝑒𝑗2𝑛
𝑗=1 =(𝑦𝑗𝑦𝑗)2
𝑛
𝑗=1 =(𝑦𝑗𝑏𝑜𝑏1𝑥𝑗)2
𝑛
𝑗=1
Si usa il metodo dei minimi quadrati per trovare la retta che si adatta meglio ai dati: differenza al ^2 tra y
e y* (ordinata teorica=valore che avrei se il punto fosse esattamente posizionato sulla retta) pari al
quadrato del residuo e alle distanze verticali^2 tra il punto e la retta (voglio la retta che minimizza le
distanze, per cui devo lavorare con b0, intercetta, e b1, pendenza)minimizzo 𝜑 rispetto a b0 e b1.
(𝑦𝑗𝑏𝑜𝑏1𝑥𝑗)2
𝑛
𝑗=1 = (𝑦𝑗2+𝑏0
2+𝑏12𝑥𝑗22𝑏0𝑦𝑗+2𝑏𝑜𝑏1𝑥𝑗2𝑏1𝑥𝑗𝑦𝑗)=
𝑛
𝑗=1 𝒚𝒋𝟐+𝒏𝒃𝟎
𝟐+𝒃𝟏
𝟐𝒙𝒋𝟐
𝟐𝒃𝟎𝒚𝒋+𝟐𝒃𝒐𝒃𝟏𝒙𝒋𝟐𝒃𝟏𝒙𝒋𝒚𝒋
Funzione rispetto a b0
Funzione rispetto a b1
𝑛𝑏0
22𝑏0(∑𝑦𝑗𝑏1𝑥𝑗)+
𝑏12𝑥𝑗22𝑏1(∑𝑥𝑗𝑦𝑗 𝑏𝑜𝑥𝑗)+
Parabola con concavità verso l’alto: ha solo un minimo nel vertice, non ha massimi (nè flessi)
calcoliamo la derivata prima eguagliando a 0: sistema di 2 equazioni, una rispetto a b0 e l’altra rispetto
a b1sistema di equazioni normali (costruite prendendo le distanze: il segmento ej è
normale/ortogonale/perpendicolare rispetto a b0 e b1)
Equazione 1 (b0)
(𝑦𝑗𝑏𝑜𝑏1𝑥𝑗)= 0
𝑛
𝑗=1
Equazione 2 (b1)
(𝑦𝑗𝑏𝑜𝑏1𝑥𝑗)𝑥𝑗= 0
𝑛
𝑗=1
1:𝑏𝑜=𝑦𝑏1𝑥 b0 dipende da b1.
2: 𝑦=𝑏𝑜+𝑏1𝑥 la retta passa per forza per il
baricentro della nube dei punti.
3: 𝑒𝑗=0
𝑛
𝑗=1 la somma (la media) dei residui
è nulla (si compensano).
4:𝑦𝑗
𝑛
𝑗=1 =𝑦𝑗
𝑛
𝑗=1 le ordinate teoriche
sostituite a quelle osservate ne lasciano
inalterata la somma (simile alla proprietà
associativa della media).
1: 𝑏1=𝒙𝒋𝒚𝒋
𝒏
𝒋=𝟏 −𝒏𝒙𝒚
𝒙𝒋𝟐𝒏
𝒋=𝟏 −𝒏𝒙
𝟐=(𝑥𝑗−𝑥)(𝑦𝑗−𝑦
)
𝑛
𝑗=1
(𝑥𝑗−𝑥)2
𝑛
𝑗=1 =𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)
𝑑𝑒𝑣(𝑥) =
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦) 𝑛
𝑑𝑒𝑣(𝑥) 𝑛
=𝑐𝑜𝑣(𝑥,𝑦)
𝑣(𝑥) =𝒔𝒙𝒚
𝒔𝒙
𝟐 in base alla codevianza
sappiamo se le unità statistiche sono concordanti o
discordanti rispetto alle 2 variabili (se prodotti positivi
= prodotti negativi si compensano e c’è indipendenza
lineare di y da x).
2:𝑒𝑗𝑥𝑗=0
𝑛
𝑗=1 𝑒𝑡𝑥=0 il vettore e ed il vettore x
sono perpendicolari il loro prodotto scalare è pari a 0).
1.2 R2 indice di determinazione lineare
𝑅2=𝐷𝐸𝑉(𝑦)𝑟𝑒𝑔
𝐷𝐸𝑉(𝑦) =(𝑦𝑗𝑦)2
𝑛
𝑗=1
(𝑦𝑗𝑦)2
𝑛
𝑗=1 =𝐷𝐸𝑉(𝑦)𝐷𝐸𝑉(𝑦)𝑑𝑖𝑠𝑝
𝐷𝐸𝑉(𝑦) =1(𝑦𝑗𝑦𝑗)2
𝑛
𝑗=1
(𝑦𝑗𝑦)2
𝑛
𝑗=1
1 perfetta dipendenza lineare
La devianza di dispersione pari a 0, per cui i punti
sono perfettamente allineati sulla retta.
𝑫𝑬𝑽(𝒚)𝒓𝒆𝒈=(𝑦𝑗𝑦)2
𝑛
𝑗=1 =(𝑏0+𝑏1𝑥𝑗𝑏0𝑏1𝑥)2
𝑛
𝑗=1 =𝑏12(𝑥𝑗𝑥)2
𝑛
𝑗=1 =𝒃𝟏
𝟐𝑫𝑬𝑽(𝒙)=
𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)
𝑑𝑒𝑣(𝑥)22𝑑𝑒𝑣(𝑥)=𝒃𝟏𝒄𝒐𝒅𝒆𝒗(𝒙,𝒚)
1.3 Regressione con variabili espresse in forma standardizzata: r coefficiente di correlazione lineare
𝑧𝑥=𝑥−𝑥
𝑠𝑥𝑧𝑗𝑥 =𝑥𝑗−𝑥
𝑠𝑥 e 𝑧𝑦=𝑦−𝑦
𝑠𝑦𝑧𝑗𝑦 =𝑦𝑗−𝑦
𝑠𝑦
𝒓=𝑧𝑦𝑧𝑥𝑏1=(𝑧𝑗𝑥−𝑧𝑥)(𝑧𝑗𝑦−𝑧𝑦)
𝑛
𝑗=1
𝑛
𝑗=1 (𝑧𝑗𝑥−𝑧𝑥)
𝑛
𝑗=1 =1
𝑛𝑧𝑗𝑥𝑧𝑗𝑦
𝑛
𝑗=1 =1
𝑛(𝑥𝑗−𝑥)
𝑠𝑥(𝑦𝑗−𝑦
)
𝑠𝑦
𝑛
𝑗=1 =𝒔𝒙𝒚
𝒔𝒙𝒔𝒚 coefficiente di
correlazione adimensionale e simmetrico (se cambio il ruolo della x e della y l’indicatore non cambia).
Se lavoriamo con variabili standardizzate il coefficiente di regressione diventa il coefficiente di
correlazione e l’intercetta scompare (variabili standardizzate hanno media nulla).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Modelli lineari: regressione multipla e più Sbobinature in PDF di Statistica solo su Docsity!

CAPITOLO 1 MODELLO DI REGRESSIONE SEMPLICE (y=B 0

+B

1

x+ε)

1.1 sistema di equazioni normali

𝑗

𝑛 2

𝑗= 1

𝑗

𝑗

2

𝑛

𝑗= 1

𝑗

𝑜

1

𝑗

2

𝑛

𝑗= 1

Si usa il metodo dei minimi quadrati per trovare la retta che si adatta meglio ai dati: differenza al ^2 tra y

e y* (ordinata teorica=valore che avrei se il punto fosse esattamente posizionato sulla retta) pari al

quadrato del residuo e alle distanze verticali^2 tra il punto e la retta (voglio la retta che minimizza le

distanze, per cui devo lavorare con b 0

, intercetta, e b 1

, pendenza)→minimizzo 𝜑 rispetto a b 0

e b 1

𝑗

𝑜

1

𝑗

2

𝑛

𝑗= 1

𝑗

2

0

2

1

2

𝑗

2

0

𝑗

𝑜

1

𝑗

1

𝑗

𝑗

𝑛

𝑗= 1

𝒋

𝟐

𝟎

𝟐

𝟏

𝟐

𝒋

𝟐

𝟎

𝒋

𝒐

𝟏

𝒋

𝟏

𝒋

𝒋

Funzione rispetto a b 0

Funzione rispetto a b 1

0

2

0

𝑗

1

𝑗

1

2

𝑗

2

1

𝑗

𝑗

𝑜

𝑗

Parabola con concavità verso l’alto: ha solo un minimo nel vertice, non ha massimi (nè flessi)→

calcoliamo la derivata prima eguagliando a 0: sistema di 2 equazioni, una rispetto a b 0

e l’altra rispetto

a b 1

→sistema di equazioni normali (costruite prendendo le distanze: il segmento e j

è

normale/ortogonale/perpendicolare rispetto a b 0

e b 1

Equazione 1 (b 0 )

𝑗

𝑜

1

𝑗

𝑛

𝑗= 1

Equazione 2 (b 1 )

𝑗

𝑜

1

𝑗

𝑗

𝑛

𝑗= 1

𝑜

1

𝑥̅ b 0

dipende da b 1

𝑜

1

𝑥̅ la retta passa per forza per il

baricentro della nube dei punti.

𝑗

𝑛

𝑗= 1

la somma (la media) dei residui

è nulla (si compensano).

𝑗

𝑛

𝑗= 1

𝑗

𝑛 ∗

𝑗= 1

le ordinate teoriche

sostituite a quelle osservate ne lasciano

inalterata la somma (simile alla proprietà

associativa della media).

1

∑ 𝒙

𝒋

𝒚

𝒋

𝒏

𝒋=𝟏

−𝒏𝒙𝒚̅̅̅̅

∑ 𝒙

𝒋

𝒏 𝟐

𝒋=𝟏

−𝒏𝒙̅

𝟐

∑ (𝑥

𝑗

−𝑥̅ )(𝑦

𝑗

−𝑦̅ )

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥̅ )

2

𝑛

𝑗= 1

𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)

𝑑𝑒𝑣(𝑥)

𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦) ⁄𝑛

𝑑𝑒𝑣(𝑥) ⁄𝑛

𝑐𝑜𝑣(𝑥,𝑦)

𝑣(𝑥)

𝒔

𝒙𝒚

𝒔

𝒙

𝟐

in base alla codevianza

sappiamo se le unità statistiche sono concordanti o

discordanti rispetto alle 2 variabili (se prodotti positivi

= prodotti negativi→ si compensano e c’è indipendenza

lineare di y da x).

𝑗

𝑗

𝑛

𝑗= 1

𝑡

𝑥 = 0 il vettore e ed il vettore x

sono perpendicolari il loro prodotto scalare è pari a 0).

1.2 R

2

indice di determinazione lineare

2

𝑟𝑒𝑔

𝑗

2

𝑛

𝑗= 1

𝑗

2

𝑛

𝑗= 1

𝑑𝑖𝑠𝑝

𝑗

𝑗

2

𝑛

𝑗= 1

𝑗

2

𝑛

𝑗= 1

0 perfetta indipendenza lineare 1 perfetta dipendenza lineare

La devianza di regressione è pari a 0. La devianza di dispersione pari a 0, per cui i punti

sono perfettamente allineati sulla retta.

𝒓𝒆𝒈

𝑗

2

𝑛

𝑗= 1

0

1

𝑗

0

1

2

𝑛

𝑗= 1

1

2

𝑗

2

𝑛

𝑗= 1

𝟏

𝟐

𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)

𝑑𝑒𝑣(𝑥)

2

2

𝟏

1.3 Regressione con variabili espresse in forma standardizzata: r coefficiente di correlazione lineare

𝑥

𝑥−𝑥̅

𝑠 𝑥

𝑗𝑥

𝑥

𝑗

−𝑥̅

𝑠 𝑥

e 𝑧

𝑦

𝑦−𝑦̅

𝑠 𝑦

𝑗𝑦

𝑦

𝑗

−𝑦̅

𝑠 𝑦

𝑦

𝑥

1

∑ (𝑧

𝑗𝑥

−𝑧̅

𝑥

) ∑ (𝑧

𝑗𝑦

−𝑧̅

𝑦

)

𝑛

𝑗= 1

𝑛

𝑗= 1

∑ (𝑧 𝑗𝑥

−𝑧̅ 𝑥

)

𝑛

𝑗= 1

1

𝑛

𝑗𝑥

𝑗𝑦

𝑛

𝑗= 1

1

𝑛

(𝑥

𝑗

−𝑥̅ )

𝑠 𝑥

(𝑦

𝑗

−𝑦̅ )

𝑠 𝑦

𝑛

𝑗= 1

𝒔

𝒙𝒚

𝒔 𝒙

𝒔 𝒚

→coefficiente di

correlazione adimensionale e simmetrico (se cambio il ruolo della x e della y l’indicatore non cambia).

Se lavoriamo con variabili standardizzate il coefficiente di regressione diventa il coefficiente di

correlazione e l’intercetta scompare (variabili standardizzate hanno media nulla).

r in caso d’indipendenza

lineare

r=0 (r e b 1

hanno lo stesso numeratore)

r quando c’è perfetta

dipendenza lineare

∑ (𝑥

𝑗

−𝑥̅ )(𝑏

0

+𝑏

1

𝑥

𝑗

−𝑏

0

−𝑏

1

𝑥̅ )

𝑛

𝑗= 1

∑ (𝑥

𝑗

−𝑥̅ )

2

∑ (𝑏

0

+𝑏

1

𝑥

𝑗

−𝑏

0

−𝑏

1

𝑥̅ )

2

𝑛

𝑗= 1

𝑛

𝑗= 1

𝑏

1

∑ (𝒙

𝒋

−𝒙̅)

𝟐

𝒏

𝒋=𝟏

√𝒅𝒆𝒗(𝒙)𝑏

1

2

𝒅𝒆𝒗(𝒙)

𝒃 𝟏

𝒅𝒆𝒗(𝒙)

| 𝒃 𝟏

| 𝒅𝒆𝒗(𝒙)

Sempre possibile passare da r a b 1

1

𝑠 𝑦

𝑠

𝑥

1

𝑠

𝑥

𝑠

𝑦

𝟐

1

2

𝑠

𝑥

2

𝑠

𝑦

2

1

2

𝑉(𝑥)/𝑛

𝑉(𝑦)/𝑛

1

2

𝑑𝑒𝑣(𝑥)

𝑑𝑒𝑣(𝑦)

𝟐

1.4 Regressione con variabili espresse in forma di scarti dalla media

𝑗

𝑗

− 𝑥̅ e 𝑦̃ = 𝑦 − 𝑦̅ → 𝑦

𝑗

𝑗

− 𝑦̅ dunque 𝑥̃

1

∑ (𝑥

𝑗

̃ −𝑥̃

̅ )(𝑦

𝑗

̃ −𝑦̃

̅ )

𝑛

𝑗= 1

∑ (𝑥 𝑗

̃ −𝑥̃

̅

)

2

𝑛

𝑗= 1

∑ (𝑥

𝑗

̃ ∗𝑦

𝑗

̃ )

𝑛

𝑗= 1

∑ (𝑥 𝑗

̃ )

2

𝑛

𝑗= 1

∑ (𝑥

𝑗

−𝑥̅ )(𝑦

𝑗

−𝑦̅ )

𝑛

𝑗= 1

∑ (𝑥

𝑗

−𝑥̅ )

2

𝑛

𝑗= 1

𝟏

Se noi prendiamo le nostre variabili e le centriamo rispetto alla media (spostiamo l’origine degli assi:

spostiamo x ed y portando le loro medie ad essere 0) b 1

è lo stesso→ il coefficiente di regressione

rimane uguale, l’intercetta si annulla (passa per l’origine degli assi, mentre prima per il baricentro della

nube dei punti).

CAPITOLO 2 INFERENZA NEL MODELLO DI REGRESSIONE SEMPLICE

0

1

2.1 Condizioni

X deterministica (fisso la x per vedere cosa succede alla y)

  • E(ε)=0 in popolazione il modello passa attorno ai dati (fluttuano attorno al modello)
  • V(ε)=𝜎

𝜀

2

i residui hanno varianza costante (fissato un valore x e una pluralità di valori y con stessa

varianza, i residui sono omoschedastici)

- COV(𝜀

𝑗

𝑗

′ ) = 0 i residui sono incorrelati

𝑗

𝜀

2

2.2 Stima

Tutti gli stimatori dei minimi quadrati sono corretti

b 1

→β 1

b 0

→β 0

1

∑ (𝑥 𝑗

−𝑥

̅ )(𝑦 𝑗

−𝑦

̅ )

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥̅ )

2

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥

̅ )𝑦 𝑗

∑ (𝑥 𝑗

−𝑥

̅ )𝑦

̅

𝑛

𝑗= 1

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥̅ )

2

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥

̅ )𝑦 𝑗

𝑛

𝑗= 1

∑ (𝑥 𝑗

−𝑥̅ )

2

𝑛

𝑗= 1

𝒋

𝒋

𝒏

𝒋=𝟏

1

è una combinazione lineare delle y, allora si dice che è uno

stimatore lineare.

b 0

𝟏

𝟏

) = E [

∑ (

x

j

−x̅ )

y

j

n

j= 1

∑ (x j

−x

̅ )

2

n

j= 1

] =

1

dev(x)

x

j

− x̅ )

n

j= 1

E

y

j

1

dev(x)

x

j

n

j= 1

x̅ ) E(β

0

  • β

1

x

j

  • ε

j

1

dev(x)

(x

j

− x̅ )

n

j= 1

0

  • β

1

x

j

1

dev(x)

0

(x

j

− x̅ )

n

j= 1

  • β

1

(x

j

− x̅ )

n

j= 1

x

j

1

dev(x)

β

1

[

x

j

2

− x̅

x

j

] =

1

dev(x)

β

1

[

x

j

2

− n x̅

2

] = 𝛃

𝟏

La distribuzione a cui appartiene b 1

è centrata su β

1

0

) = 𝐸(y̅ − b

1

x̅) = 𝐸(𝛽

0

1

𝑥̅ − b

1

x̅ ) = 𝛽

0

1

x̅ E(b

1

0

1

1

𝟎

Usiamo, per calcolare la varianza, la 2° e 3° condizione che vede gli ε omoschedastici e incorrelati.

V(b 1

𝑗

𝑗

𝑛

𝑗= 1

𝑗

𝑗

𝑗

2

𝑗

𝜺

𝟐

𝒋

𝟐

𝜎 𝜀

2

𝐷𝑒𝑣(𝑥)

dove 𝑤

𝑗

(𝑥

𝑗

−𝑥̅ )

∑ (𝑥 𝑗

−𝑥̅ )

2

Più le x sono sparse, più la varianza dei coefficienti di regressione è

piccola e meno variabile→maggior stabilità della nostra retta

nell’universo dei campioni.

V(b 0

1

1

𝜺

𝟐

𝟏

𝒏

𝒙̅

𝟐

𝒅𝒆𝒗(𝒙)

La varianza di una differenza:

somma varianze e

covarianze (se

indipendenti=0).

La V(b 0

) dipende da b1→COV(b 0

,b 1

[(

0

0

1

1

)]

[(

1

0

1

1

)]

𝐸[(𝛽

0

1

1

0

1

1

)] = −𝑥̅ 𝐸[(𝛽

1

1

1

1

)] = −𝑥̅ 𝑉(𝑏

1

−𝒙̅ 𝝈

𝜺

𝟐

𝒅𝒆𝒗(𝒙)

  1. 5 Ho:B 1

=0 (coefficiente di regressione in popolazione)

1° modo: sviluppiamo la distribuzione campionaria di b 1

sotto Ho

1

1

𝜎 𝜀

2

𝑑𝑒𝑣

( 𝑥

)

𝑐

𝑏 1

−𝛽 1

𝜎

𝜀

/√𝑑𝑒𝑣(𝑥)

stimo la varianza con la varianza di dispersione per cui sotto Ho si ha 𝒕 𝒄

𝒃 𝟏

𝒔

𝒆

/√𝒅𝒆𝒗(𝒙)

𝒏−𝟐

ragioniamo poi con le soglie della t o con il p-value (probabilità di avere, sotto Ho, un valore assoluto di t,

uguale o più estremo di quello osservato) per accettare o rifiutare Ho.

2° modo: altro modo, equivalente nel modello semplice, dove si usa la distribuzione di Fisher, con al

numeratore la varianza di regressione, corretta solo se Ho vera e al denominatore la varianza di

dispersione, sempre corretta.

𝒄

𝒔 𝒓𝒆𝒈

𝟐

𝒔

𝒅𝒊𝒔𝒑

𝟐

𝟏;𝒏−𝟐

, posso fare il test F conoscendo solo l’R

2

𝑹

𝟐

(𝟏−𝑹

𝟐

)/(𝒏−𝟐)

Dev(y) reg

=R

2

*dev(y), Dev(y) disp

=dev(y)-R

2

dev(y)

  1. 6 Previsione nel modello di regressione semplice

Per poter prevedere il corrispondente valore di y su una nuova unità statistica per cui abbiamo x 0

dobbiamo immaginare che l’unità statistica sia omogenea alle altre usate per stimare il modello.

Valore vero Errore di previsione Valore previsto

0

0

1

0

0

0

0

0

0

0

1

0

per prevederlo

0

𝑛− 2 ;𝛼/ 2

𝑒

[ 1 +

1

𝑛

(𝑥

0

−𝑥̅ )

𝑑𝑒𝑣(𝑥)

2

]

𝟎

) = 𝟎 il previsore dei minimi quadrati è corretto

in media.

𝟎

) = 𝑉[𝜀

0

0

0

0

1

1

)] = 𝑉(𝜀

0

0

0

2

1

0

[(

0

0

1

1

)]

𝜀

2

𝜀

2

[

1

𝑛

𝑥̅

2

𝑑𝑒𝑣(𝑥)

] + 𝑥

0

2

𝜎

𝜀

2

𝑑𝑒𝑣(𝑥)

0

𝑥̅ 𝜎

𝜀

2

𝑑𝑒𝑣(𝑥)

𝜺

𝟐

𝟏

𝒏

(𝒙

𝟎

−𝒙̅ )

𝒅𝒆𝒗(𝒙)

𝟐

) dipende dal campione da cui

stimiamo i dati: più piccola per n grande (modello

supportato da tanti dati dà maggior efficienza di

previsione), più le x sono sparse più è piccola e se

x 0

=𝑥̅ è la varianza più piccola possibile.

0

𝑒

√[ 1 +

0

2

]

0

0

𝑒

√[ 1 +

0

2

]

Valore atteso Errore di previsione Valore previsto

0

0

1

0

0

0

0

0

0

1

0

per prevederlo

0

𝑛− 2 ;𝛼/ 2

𝑒

[

1

𝑛

(𝑥

0

−𝑥̅ )

𝑑𝑒𝑣(𝑥)

2

]

0

0

𝟑

𝟐

𝟏

𝒏

(𝒙

𝟎

−𝒙̅ )

𝒅𝒆𝒗(𝒙)

𝟐

0

𝑒

√[

0

2

]

0

0

𝑒

√[

0

2

]

CAPITOLO 3 DATI MULTIVARIATI

3.1 Matrice dei dati

11

12

1 𝑚

𝑗 1

𝑗 2

𝑗𝑚

𝑛 1

𝑛 2

𝑛𝑚

X n(unità statistiche)*m(variabili quantitative o dummies)

Xn1→ ultima unità statistica che presenta il valore della prima variabile

Lettura per riga: ciascun profilo riferito all’unità

Lettura per colonna: protocolli elementari univariati

3.2 Vettore delle medie aritmetiche delle variabili

𝑚∗ 1

= [ 1

𝑛

𝑡

1

𝑛

]

𝑡

1

𝑛

𝑡

𝑛

3.3 Matrice degli scarti dalla media

11

1

1 𝑖

𝑖

1 𝑚

𝑚

𝑗 1

1

𝑗𝑖

𝑖

𝑗𝑚

𝑚

𝑛 1

1

𝑛𝑖

𝑖

𝑛𝑚

𝑚

𝑛∗𝑚

𝒏

𝑻

𝑛

1

𝑛

𝑛

𝑡

𝑛

1

𝑛

𝑛

𝑛

𝑡

) 𝑋 = 𝑨𝑿 dove A è chiamata centering matrix (se la prendiamo e moltiplichiamo con un’altra

diventa in funzione di scarti dalla media, è centrata rispetto a ciò).

Ciascuna colonna di X

ha somma (media) nulla, con questa matrice si considera in R

m

un nuovo sistema

di assi cartesiani uguale a quello rispetto a cui è definita la matrice X, tranne che per l’origine, che nel

nuovo sistema, è nel punto che ha come coordinate le medie aritmetiche delle m variabili oggetto di

studio. La nuvola di punti presenta il medesimo aspetto, ciò che cambia è soltanto l’origine degli assi, che

subisce una traslazione.

A è quadrata (nn), simmetrica e idempotente in quanto AA=A→(𝐼 𝑛

1

𝑛

𝑛

𝑛

𝑡

𝑛

1

𝑛

𝑛

𝑛

𝑡

𝑛

1

𝑛

𝑛

𝑛

𝑡

1

𝑛

𝑛

𝑛

𝑡

1

𝑛

2

𝑛

𝑛

𝑡

𝑛

𝑛

𝑡

𝑛

1

𝑛

𝑛

𝑛

𝑡

1

𝑛

𝑛

𝑛

𝑡

1

𝑛

2

𝑛

𝑛

𝑡

3.4 Matrice dei dati standardizzati (per eliminare l’effetto dell’unità di misura sui valori assunti dalle unità

statistiche rispetto alle m variabili)

11

1 𝑖

1 𝑚

𝑗 1

𝑗𝑖

𝑗𝑚

𝑛 1

𝑛𝑖

𝑛𝑚

dove 𝑧

𝑗𝑖

𝑥

𝑗𝑖

−𝑥

𝑖

̅

𝑠

𝑖

e Z=𝐗

−𝟏 ⁄𝟐

D è la matrice che contiene sulla diagonale principale le varianze delle variabili (la radice contiene lo

scarto quadratico medio necessaria per standardizzare le variabili).

Ciascuna colonna di Z ha somma (media) nulla e varianza unitaria. Gli elementi di Z sono numeri puri

(non dipendono dall’unità di misura delle variabili oggetto di studio). Le analisi statistiche realizzate

rispetto a Z producono risultati che non sono influenzati dalle differenze esistenti tra le variabili

osservate rispetto alle unità di misura, all’ordine medio di grandezza ed alla variabilità di ognuna di esse.

3.5 Matrice di varianze e covarianze

2

1

1 𝑖

1 𝑚

𝑖 1

2

𝑖

𝑖𝑚

𝑚 1

𝑚𝑖

2

𝑚

𝑚∗𝑚

𝑖

2

∑(𝑥

𝑗𝑖

−𝑥

𝑖

̅ )

2

𝑛

𝑖𝑚

∑(𝑥

𝑗𝑖

−𝑥

𝑖

̅ )(𝑥

𝑗𝑚

−𝑥

𝑚

̅̅̅̅̅ )

𝑛

S=

𝟏

𝒏

𝒕

1

𝑛

𝑛

𝑡

𝑡

𝑛

𝑡

), è quadrata, simmetrica, la sua traccia (somma tutte le varianze sulla diagonale

principale) è pari alla varianza totale ed è semi definita positiva→bisogna calcolare il suo determinate e

quello di tutti i suoi minori, cioè di ciò che resta togliendo una riga e 1 colonna, se tutti ≥0 allora semi

definita positiva.

coordinate 𝑥̅ , 𝑦̅

0

1

1

𝑚

𝑚

4.2 Sistema di equazioni normali

Pre moltiplicando a destra e a sinistra per (x

t

x)

  • 1

, se esiste l’inversa, ottengo la soluzione del sistema.

𝒕

−𝟏

𝒕

4.3 Casi in cui non si inverte (x

t

x)

  • 1

Non sempre esiste però l’inversa: rango prodotto ≤ rango più piccolo che moltiplichiamo→implica che X

deve avere rango pieno m+1 (pari alla dimensione dello spazio colonna).

No rango colonna pieno Emergono nuovi dati (n<m+1)

Collinearità esatta (non si inverte per problema

algebrico): 1 o più colonne sono combinazione

lineare delle altre.

Multicollinearità (messaggio d’errore ma

matrici si invertono e si ottengono stime): 1

colonna è quasi combinazione lineare esatta

delle altre.

Matrici a elevata dimensione (non si invertono in

quanto l’algebra non funziona più, devo riuscire a

stimare il modello con poche unità ma tante

variabili): ho tante variabili ma poche unità, si lavora

con matrici landscape al posto di portrait, quando

andiamo a moltiplicare il r(X)=n e le matrici non si

invertono.

Se le colonne di X sono linearmente indipendenti la matrice X

t

X è singolare e il sistema normale ha

infinite soluzioni.

  1. 4 Modello per variabili espresse in forma di scarti dalla media

X=[x 1

X

2

] dove x 1

è la prima colonna di tutti 1 ( n

) e X 2

è la matrice contenente tutti i regressori.

b=(b 0

b 1

) dove b 0

è il vettore che moltiplica 1 n

Y= b 0

x 1

  • b 1

X

2

+e→AY= b 0

Ax 1

+AX

2

b 1

+Ae= AX 2

b 1

+e

Questo poiché Ax 1

=A

n

𝑛

1

𝑛

𝑛

𝑛

𝑡

𝑛

𝑛

𝑛

= 0 e Ae=(𝐼

𝑛

1

𝑛

𝑛

𝑛

𝑡

Premoltiplico per 𝑋

2

𝑡

2

𝑡

2

𝑡

A𝑋

2

1

2

𝑡

e (0 in quanto i residui sono ortogonali allo spazio colonna

di X e quindi anche di X 2 )

Usiamo la proprietà di idempotenza di A→(𝑋 2

𝑡

2

𝑡

A)A𝑋

2

1

A simmetrica e quadrata→ (𝐴𝑋

2

𝑡

2

𝑡

A𝑋

2

1

𝑡

𝑡

1

𝟏

𝒕

−𝟏

𝒕

𝒚̃ questo se esiste l’inversa.

Lavorare con variabili espresse in forma di scarto dalla media fa sparire l’intercetta e lascia inalterati i

coefficienti di regressione:b che era soluzione di 𝑥

𝑡

𝑡

𝑦 è anche soluzione di 𝑋

𝑡

𝑡

1

Modello multiplo

b 1

=dev(x)

  • 1

codev(x,y) =

1

𝑛

𝑥𝑥

− 1

𝑥𝑦

𝒙𝒙

−𝟏

𝒙𝒚

0

𝑡

1

Modello semplice o modello multiplo con

x incorrelate (covarianze nulle, Sxx

diagonale)

b 1

𝑠

𝑥𝑦

𝑠

𝑥

2

Il coefficiente di regressione di x 1

nel modello multiplo tiene conto, non solo della relazione tra y e

x 1

,ma anche delle relazioni che intercorrono tra le x e tra le x e la y: nel modello multiplo lavoriamo

con coefficienti parziali (dipende dal modello semplice ma c’è altro), in quanto tengono conto della

presenza anche di tutti gli altri regressori nel modello. Tanti modelli semplici comportano una perdita

di informazioni dovuta alle interrelazioni tra variabili: 1 variabile da sola potrebbe essere molto

importante, ma con altre variabili il suo contributo può essere irrilevante.

I coefficienti di regressione del modello multiplo coincidono con quelli di altrettanti modelli semplici

qualora i regressori siano tra loro incorrelati, o in termini geometrici, qualora le colonne della matrice

X siano tra loro ortogonali.

  1. 5 Modello di regressione per variabili standardizzate

Se le variabili sono standardizzate, le covarianze sono le correlazioni: 𝑏 1

𝑥𝑥

− 1

𝑥𝑦

So che 𝑅 𝑥𝑥

− 1

𝑥𝑥

− 1 ⁄ 2

𝑥𝑥

𝑥𝑥

− 1 ⁄ 2

− 1

e che 𝑟

𝑥𝑦

𝑥𝑥

− 1 ⁄ 2

𝑠 𝑥𝑦

𝑠

𝑦

1

𝑥𝑥

− 1 ⁄ 2

1

𝑦

e 𝑏

1

𝑥𝑥

1 / 2

𝑏

1

𝑠

𝑦

Si usano i coefficienti di regressione standardizzati per ordinarli per importanza: si elimina l’unità di

misura del coefficiente per poterli confrontare tra loro.

4. 6 R

2

nel modello multiplo

2

𝑟𝑒𝑔

𝑑𝑖𝑠𝑝

Dev(y)=

𝑗

2

2

𝒕

𝟐

Dev(y) disp

𝑗

𝑗

2

𝑗

2

𝒕

Dev(y) reg

=dev(y)-dev(y) disp

𝑡

2

𝑡

𝑡

2

𝑡

𝑡

2

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

2

𝑡

𝑡

𝑡

𝑡

2

𝑡

𝑡

𝑡

𝑡

𝑡

𝑡

2

𝒕

𝒕

𝟐

2

𝑟𝑒𝑔

𝒕

𝒕

𝟐

𝒕

𝟐

𝑑𝑖𝑠𝑝

𝒕

𝒕

𝟐

Con variabili in scarti dalla media

2

𝑑𝑒𝑣(𝑦)

𝑟𝑒𝑔

𝑑𝑒𝑣(𝑦)

𝒃

𝟏

𝒕

𝒙̃

𝒕

𝒙̃ 𝒃

𝟏

𝒚̃

𝒕

𝒚̃

analogo a

𝑏

1

2

𝑑𝑒𝑣(𝑥)

𝑑𝑒𝑣(𝑦)

nel mod semplice

𝑏

1

𝑡

𝑥̃

𝑡

𝑥̃ 𝑏 1

𝑦̃

𝑡

𝑦̃

𝑏

1

𝑡

𝑥̃

𝑡

𝑦̃

𝑦̃

𝑡

𝑦̃

𝑏

1

𝑡

𝑥̃

𝑡

(𝑦̃ +𝑒)

𝑦̃

𝑡

𝑦̃

𝑏

1

𝑡

𝑥̃

𝑡

𝑦̃ + 0

𝑦̃

𝑡

𝑦̃

𝒃

𝟏

𝒕

𝒙̃

𝒕

𝒚̃

𝒚̃

𝒕

𝒚̃

analogo a

𝑏 1

𝑐𝑜𝑑𝑒𝑣(𝑥,𝑦)

𝑑𝑒𝑣(𝑦)

2

𝑑𝑒𝑣(𝑦)

𝑑𝑖𝑠𝑝

𝑑𝑒𝑣(𝑦)

𝑒

𝑡

𝑒

𝑦̃

𝑡

𝑦̃

Con variabili standardizzate

2

𝑏

1

̂

𝑡

𝑛𝑅

𝑥𝑥

𝑏

1

̂

𝑛 (𝐷𝑒𝑣 𝑦 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑧𝑧𝑎𝑡𝑎)

1

𝑡

𝑥𝑥

1

1

𝑡

𝑥𝑥

𝑥𝑥

− 1

𝑥𝑦

1

𝑡

𝑥𝑦

Se le x sono incorrelate: R xx

=I

n

1

=I

n

r xy

2

𝑥𝑦

𝑡

𝑥𝑦

(somma

degli R

2

dei modelli di regressione semplice di Y rispetto a

ciascuna x).

CAPITOLO 5 INFERENZA NEL MODELLO DI REGRESSIONE MULTIPLA

Per fare inferenza devo sapere le seguenti condizioni:

X predeterminata, E(ε)=0, V(ε)=𝜎 𝜀

2

𝑛

(fuori dalla diagonale principale ho tutti 0, per cui i residui sono

omoschedastici e incorrelati), 𝜀~𝑁𝑀𝑉( 0 , 𝜎 𝜀

2

𝑛

5.1 Matrice cappello H

𝑡

− 1

𝑡

𝑦) , y*=xb=𝑥(𝑥

𝑡

− 1

𝑡

La matrice H proietta y sullo spazio colonna di x: è quadrata (n*n), simmetrica (H

t

=H) e idempotente in

quanto H*H= 𝑥(𝑥

𝑡

− 1

𝑡

𝑡

− 1

𝑡

𝑡

− 1

𝑡

5.2 Valore atteso e varianza b

E(b)=E[(𝑥

𝑡

− 1

𝑡

𝑦)]=(𝑥

𝑡

− 1

𝑡

)𝐸[𝑦] = (𝑥

𝑡

− 1

𝑡

E(xβ + ε) = (𝑥

𝑡

− 1

𝑡

xβ = 𝛃

Gli stimatori dei minimi quadrati sono corretti.

V(b)=V[

𝑡

− 1

𝑡

𝑦)]=

𝑡

− 1

𝑡

V

y

𝑡

− 1

𝑡

− 1

𝑡

V

xβ + ε

𝑡

− 1

𝑡

− 1

𝑡

𝜀

2

𝑛

𝑡

− 1

𝜀

2

𝑡

− 1

𝑡

𝑡

− 1

𝜺

𝟐

𝒕

−𝟏

𝜀

2

b è combinazione lineare delle y e quindi anche delle ε, per la condizione 4 (𝜀~𝑁𝑀𝑉( 0 , 𝜎 𝜀

2

𝑛

)) anche b si

distribuisce come una normale multivariata con parametri (β, 𝜎 𝜀

2

𝑡

− 1

5.3 Intervallo di confidenza per B i

e stima varianza di popolazione

𝑖

𝜀

2

𝑡

− 1

𝑏

𝑖

−𝛽

𝑖

𝜎

𝜀

𝑐

𝑖𝑖

con b i

𝛼 ⁄ 2

𝜀

𝑖𝑖

Problema varianza popolazione incognita→stimatore corretto per la varianza?

e=y-y*=(I n

  • H)y=My→M è una matrice quadrata (n*n), simmetrica (differenza di matrici simmetriche), e

idempotente M*M=(I

𝑛

− H)(I

𝑛

− H) = 𝐼

𝑛

𝑛

− 𝐻=M

e=My=M(xβ+ε)=Mxβ+Mε=Mε→𝑀𝑥 = (𝐼 − 𝐻)𝑥 = [𝐼 − 𝑥(𝑥

𝑡

− 1

𝑡

]𝑥 = 𝑥 − 𝑥(𝑥

𝑡

− 1

𝑡

DEVIANZA VALORE ATTESO

Dev(y)disp=e

t

e=ε

t

MMε=ε

t

E(ε

t

Mε), scalare coincide con la sua traccia, E(tr ε

t

Mε), posso scambiare, la

traccia è la stessa, E(tr Mεε

t

)=trME(εε

t

)=trMV(ε)=𝜎

𝜀

2

𝛆

𝟐

trM (somma diag principale)=tr(I-H)=𝑡𝑟𝐼

𝑛

𝑡

− 1

𝑡

𝑡

𝑡

− 1

𝑚+ 1

) =n-m- 1

CAPITOLO 7 DIAGNOSTICA

Per fare diagnostica si controllano delle assunzioni sui residui, necessarie per fare inferenza.

Bisogna controllare l’assunzione di omoschedasticità: mettiamo t j

sull’asse delle ordinate e y j

  • sull’asse

delle ascisse: se i residui sono omoschedastici sono centrati sullo 0 e ballano attorno all’asse delle x (noi

abbiamo fatto inferenza pensando fossero omoschedastici).

Bisogna controllare l’assunzione di linearità: se viene rifiutata (residui standardizzati non descritti

tramite funzione lineare) il nostro modello manca di qualcosa e non è in grado di spiegare la variabilità

dei residui (non spiega tutta la variabilità strutturata della y).

Infine si controlla l’assunzione di normalità, cioè di normo distribuzione dei nostri residui.

7.1 residui standardizzati: studentizzati internamente ed esternamente (controllo assunzione

omoschedasticità)

I residui dei minimi quadrati non sono omoschedastici e sono tra loro correlati: il metodo di stima

produce residui con covarianza non costante: V(e)=𝑉

[(

]

[

](

𝜀

2

(𝐼 − 𝐻) mentre

V(ε)=𝜎 𝜀

2

𝐼. I ha tutti 1 sulla diagonale principale, H dei valori qualunque sulla diagonale principale (fuori

dalla diagonale non ci sono tutti 0, i residui non sono incorrelati, H è piena).

Il residuo del campione, a causa del metodo di stima, non ha varianza costante (ma forse in popolazione

si): per poter confrontare i residui si usano i residui standardizzati.

Residui standardizzati

𝒋

𝒋

𝜺

𝒋𝒋

Residui studentizzati internamente Residui studentizzati esternamente

Stimo varianza e ottengo: 𝑡

𝑗

𝑒

𝑗

𝑠

𝑒

1 −ℎ

𝑗𝑗

𝑗

𝑒

𝑗

𝑠

𝑒

(𝑗) √

1 −ℎ

𝑗𝑗

per vedere se ci sono dei residui grandi

escludo l’unità j-esima al denominatore: un residuo grande al

numeratore fa diventare grande la varianza al denominatore.

7.2 outlier, punto di leverage, osservazione influente

Nome OUTLIER PUNTO DI LEVERAGE OSSERVAZIONE INFLUENTE

Cos’è Punto anomalo

rispetto alle y

(tira verso di sé

la retta in quanto

anche il suo

punto deve

essere

minimizzato).

Osservazione anomala rispetto

alle X.

Si guardano gli elementi che

stanno sulla diagonale principale

di H: 𝒉

𝒋𝒋

𝟏

𝒏

(𝒙

𝒋

−𝒙̅)

𝟐

𝒅𝒆𝒗(𝒙)

che fanno

diventare il numeratore (varia il

contributo di ogni unità).

È perfettamente allineata con la

retta nonostante possa sembrare

un outlier o un punto di leverage.

La sua eliminazione comporta

delle variazioni rilevanti nelle

stime dei minimi quadrati.

Come si

riconosce

t j

o t j*

(preferibile)

esterno a [-3;3]

𝒋𝒋

𝟐(𝒎+𝟏)

𝒏

dove m+1 è la traccia

di H e (m+1)/n è la media degli h jj

Distanza di cook >

𝑗

(𝑗)

𝑡

𝑡

(𝑗)

𝑒

2

Si distribuisce come una F m+1;n-m- 1

La parte che esclude b nella

formula indica la distanza euclidea

ponderata.

7.3 MULTICOLLINEARITA’

C’è almeno una variabile che è combinazione lineare quasi esatta di un’altra o di altre (se fosse esatta x

t

x

non si invertirebbe): la stima dei minimi quadrati esiste ma gli effetti sulla varianza delle stime possono

essere gravi. VIF>10 indica multicollinearità: si toglie prima quello con il VIF più alto poi si vede quello che

succede nelle altre variabili e nel caso si eliminano le altre che presentano un VIF ancora più alto di 10.

Dalle correlazioni tra coppie non è detto che si capisca la presenza di multicollinearità, il Vif è una

misura più generale.

Se c’è multicollinearità per x i

:R

io

2

diventa molto vicino ad 1→ 1 - R io

2

tende a 0 →il VIF esplode→il test di

significatività per il regressore considerato diventa molto vicino a 0 e quindi non significativo, cala la

precisione delle stime puntuali, gli intervalli di confidenza si allargano, crescono le covarianze

campionarie tra gli stimatori. Inoltre le stime di b sono molto sensibili a variazioni anche molto piccole

dei valori osservati di Y e/o dei regressori.

La correlazione è una condizione sufficiente ma non necessaria alla multicollinearità.

CAPITOLO 8 SCELTA REGRESSORI DA INSERIRE NEL MODELLO DI REGRESSIONE

Specificare un modello significa scegliere la forma della relazione e scegliere la variabile da inserire nel

modello: quanti e quali regressori considerare.

8.1 errori di specificazione

Esclusione di regressori rilevanti Inclusione di regressori irrilevanti

𝑌 = 𝑥𝛽 + 𝜀 modello vero

𝑡

− 1

𝑡

𝑦 stima OLS

𝑝

𝑚

𝑝

𝑚

, X=[Xp, Xm], Y=𝑥

𝑝

𝑝

𝑚

𝑚

Immaginiamo di considerare solo le variabili in x p

, i

coefficienti vengono stimati comunque bene?

𝑝

) = 𝐸 [(𝑥

𝑝

𝑡

𝑝

− 1

𝑝

𝑡

𝑦] = (𝑥

𝑝

𝑡

𝑝

− 1

𝑝

𝑡

𝐸[𝑦] =

𝑝

𝑡

𝑝

− 1

𝑝

𝑡

𝐸[𝑥

𝑝

𝑝

𝑚

𝑚

+ 𝜀] = (𝑥

𝑝

𝑡

𝑝

− 1

𝑝

𝑡

𝑝

𝑝

𝑝

𝑡

𝑝

− 1

𝑝

𝑡

𝑚

𝑚

𝒑

𝒑

𝒕

𝒑

−𝟏

𝒑

𝒕

𝒎

𝒎

𝒑

L’inclusione di regressori irrilevanti

conserva le proprietà di correttezza

degli stimatori dei coefficienti riferiti

alle variabili rilevanti, però la varianza

delle stime aumenta (poiché

all’aumentare dei regressori R

2

non

cala mai, aggiungere regressori

irrilevanti comporta un aumento di R

2

io

e quindi un aumento del VIF i

Nel test f parziale con modello

completo e ridotto si usa al

denominatore la varianza di

dispersione del modello completo: se

Ho vera significa che il modello

completo contiene un regressore

irrilevante, mentre se falsa il modello

ridotto avrebbe perso un regressore

rilevante quindi la varianza di

dispersione del ridotto sarebbe

distorta, mentre quella del modello

completo è corretta.

In generale, se escludo regressori rilevanti, le stime dei

coefficienti di regressione delle variabili che includo sono

distorte (coeff. parziali).

Lo stimatore 𝑏

𝑝

è corretto per β p

solo se.

  • Le variabili escluse sono irrilevanti (β m
  • Le variabili escluse sono ortogonali a quelle inclusi, e dal

punto di vista statistico sono con loro incorrelate (x

p

t

x

m

=0 le

righe di x p

sono normali alle colonne di x m

Se le stime sono distorte anche la varianza di dispersione

riferita ai soli p-regressori è distorta e quindi i test e gli

intervalli di confidenza non sono più affidabili.

8.2 perché all’aumentare del numero dei regressori R

2

non diminuisce mai? (andamento monotono

crescente)

X

1

n*(m+1) X 2

n*(m+2)

𝐼

1

𝑡

1

− 1

1

𝑡

𝑦 →(m+1)*1 𝑏

𝐼𝐼

2

𝑡

2

− 1

2

𝑡

𝑦 →(m+2)*

𝑟𝑒𝑔(𝐼)

𝐼

𝑡

1

𝑡

1

𝐼

2

𝑡

1

1

𝑡

1

− 1

1

𝑡

1

1

𝑡

1

− 1

1

𝑡

2

𝑡

1

1

𝑡

1

− 1

1

𝑡

2

𝒕

𝟏

𝟐

𝑟𝑒𝑔(𝐼𝐼)

𝒕

𝟐

𝟐

Th: 𝑅

𝐼𝐼

2

𝐼

2

𝐼𝐼

2

𝑑𝑒𝑣 𝑟𝑒𝑔(𝐼𝐼)

𝑑𝑒𝑣(𝑦)

𝑑𝑒𝑣 𝑟𝑒𝑔(𝐼)

𝑑𝑒𝑣

( 𝑦

)

𝐼

2

𝑟𝑒𝑔(𝐼𝐼)

𝑟𝑒𝑔(𝐼)

H

1

(n*n) ha rango m+1 H 2

(n*n) ha rango m+

Base per lo spazio colonna di X 1 (e di H 1 )

(a 1

,a 2

,…,a m+

Per il teorema di completamento della base,

quella per lo spazio colonna di X 2

(e di H 2

) è

(a 1

,a 2

,…,a m+

,a m+

Per il teorema spettrale reale: nel caso di matrici idempotenti gli autovalori sono solo 1 o 0

Rango autovalori non nulli m+1 Rango autovalori non nulli m+

1

1

1

1

𝑇

1

1

𝑡

𝑚+ 1

𝑚+ 1

𝑡

2

2

2

2

𝑇

1

1

𝑡

𝑚+ 1

𝑚+ 1

𝑡

𝑚+ 2

𝑚+ 2

𝑡

Dove A è la matrice di autovettori (base) e λ la matrice di autovalori (diagonale)

2

1

𝑚+ 2

𝑚+ 2

𝑡

con 2 regressori.

4 - Considero il

modello che

contiene tutti e 3 i

regressori.

In totale 2

m

modelli:

scelgo il migliore

sulla base di R

2

corretto tra i

migliori per ogni

tipo (modello

intercetta, miglior

modello 1

regressore, miglior

modello 2

regressori…)

entrare nel modello).

2 - Costruisco tutti i possibili

modelli a 2 regressori

incrementando il migliore

ad 1, scelgo il migliore e ne

controllo la significatività.

Criterio d’arresto: Mi fermo

quando ho inserito tutti i

regressori o quando per la

1° volta ottengo un test non

significativo.

eliminare un regressore

rilevante, altrimenti

continuo.

Criterio d’arresto: mi

fermo quando ho

eliminato tutti i regressori

o quando ottengo per la

prima volta un test

statisticamente

significativo.

non lo sia lo elimina

secondo la logica

backward.

Il modello ottenuto

è il miglior modello

possibile, ma al

prezzo di un

elevatissimo onere

computazionale.

Vantaggi: meno oneroso del

best subset, posso

selezionare un modello

anche quando m>n.

Warning: il metodo forward

lavora ad ogni passo con

modelli erroneamente

specificati (esclusione di

regressori rilevanti),

presenta il problema del

multiple testing.

Svantaggi: metodo instabile

(piccole variazioni portano

alla scelta di modelli

completamente diversi),

modello finale ottimo

localmente (procedura per

passi), una variabile che

entra rimane fino alla fine

(il modello finale può

contenere regressori

irrilevanti).

Vantaggi: meno oneroso

del best subset, ad ogni

passo lavora con modelli

erroneamente specificati

ma per l’inclusione di

regressori irrilevanti.

Warning: Multiple testing.

Svantaggi: il metodo è

instabile, il modello finale

è ottimo localmente,

richiede n>>m, una volta

che una variabile esce dal

modello non rientra più.

Il metodo è molto

oneroso

computazionalmente.

CAPITOLO 9 ANALISI DELLA VARIANZA (ANOVA)

9.1 test ipotesi con ANOVA

Si fa un test d’ipotesi di uguaglianza delle medie basandosi sulle varianze.

Ho:𝜇 1

2

𝑘

Per poter effettuare questo test devono valere due assunzioni: le popolazioni debbono essere

omoschedastiche (𝜎 1

2

2

2

𝑘

2

2

) e che in ciascuna popolazione Y~𝑁(𝜇

𝑖

2

Il test si basa sulla scomposizione della devianza

DEV(y) tot

DEV(y) tra

DEV(Y)

entro

𝑗𝑖

2

𝑛

𝑗= 1

𝑘

𝑖= 1

n- 1 g.d.l

𝑖

2

𝑖

𝑘

𝑖= 1

(moltiplico perché le medie

sono calcolate su un numero diverso di unità

statistiche) k- 1 g.d.l (k medie di ogni gruppo

devono sottostare alla generale)

𝑗𝑖

𝑖

2 𝑛

𝑖

𝑗= 1

𝑘

𝑖= 1

calcolo la

devianza di ogni gruppo e poi le

sommo (lavoro all’interno delle

colonne) n-k g.d.l. (∑ (𝑛

𝑖

𝑘

𝑖= 1

𝑐

𝑑𝑒𝑣

( 𝑦

)

𝑡𝑟𝑎

( 𝑘− 1

⁄ )

𝑑𝑒𝑣

( 𝑦

)

𝑒𝑛𝑡𝑟𝑜

( 𝑛−𝑘

⁄ )

𝑋

𝑘− 1

2

𝑋

𝑛−𝑘

2

𝑘− 1 ;𝑛−𝑘

Per l’ipotesi di omoschedasticità:

  • il denominatore (varianza entro) è sempre stima corretta per la varianza di popolazione.
  • il numeratore (varianza tra) è stima corretta solo se vale Ho (medie tutte uguali e pari a quella di

popolazione)→𝐸 [

𝑑𝑒𝑣(𝑦)

𝑡𝑟𝑎

𝑘− 1

]

2

1

𝑘− 1

[

𝑖

𝑘 2

𝑖= 1

]

→se Ho è falsa la varianza tra sovrastima σ

2

perché

il termine è necessariamente positivo.

Se si rifiuta Ho si fa un’analisi post-Hoc per vedere quali sono le medie significativamente diverse.

La variabile è un fattore sperimentale a k livelli.

9.2 analisi della varianza a 1 fattore

Modello in popolazione: 𝑦

𝑗𝑖

𝑖

𝑗𝑖

dove 𝑦

𝑗𝑖

è l’osservazione j-esima sottoposta al livello i-esimo del

fattore sperimentale, 𝜇

𝑖

è la media della popolazione a cui l’osservazione j-esima appartiene, 𝜀

𝑗𝑖

è il

residuo individuale casuale (quantità che mi dice quanto l’osservazione differisce dalla media del

gruppo)→𝒚

𝒋𝒊

𝒊

𝒋𝒊

dove 𝛼

𝑖

è la differenza tra 𝜇

𝑖

e μ.

È un modello lineare e di regressione multipla:

11

1 𝑖

1 𝑘

𝑗 1

𝑛

1

1

𝑗𝑖

𝑛

𝑖

𝑖

𝑗𝑘

𝑛

𝑘

𝑘

e può essere vettorizzato.

11

𝑗 1

𝑛

1

1

1 𝑖

𝑛

𝑖

𝑖

1 𝑘

𝑛

𝑘

𝑘

n*1 dove n= 𝑛

1

2

𝑖

𝑘

𝑖

𝑘

𝑖= 1

11

𝑗 1

𝑛

1

1

1 𝑖

𝑛

𝑖

𝑖

1 𝑘

𝑛

𝑘

𝑘

n*

Y=Xβ+ε: costruiamo ora la matrice disegno X: 1° colonna pari a tutti 1 per catturare μ, aggiungiamo poi

tante colonne dummy di 0 e 1 (se l’unità statistica appartiene a quel gruppo) quanti sono i livelli del

fattore sperimentale.

1

𝑖

𝑘

Nell’Anova Ho:𝜇

1

𝑘

= 𝜇 equivale a Ho:𝛼

1

𝑘

= 0 (coefficienti di regressione nel modello

multiplo, è l’ipotesi nulla di significatività del modello con il test F come rapporto tra varianza di

regressione e varianza di dispersione).

Stima di β utilizzando il metodo dei minimi quadrati

𝑡

𝑡

𝑡

11

𝑗 1

𝑛

1

1

1 𝑖

𝑛 𝑖

𝑖

1 𝑘

𝑛 𝑘

𝑘

𝑗𝑖

𝑛

𝑖

𝑗= 1

𝑛

𝑖= 1

𝑗 1

𝑛 1

𝑗= 1

𝑗𝑖

𝑛

𝑖

𝑗= 1

𝑗𝑘

𝑛

𝑘

𝑗= 1

1

1

𝑖

𝑖

𝑘

𝑘

Le colonne della matrice x dalla seconda in poi sono tra loro ortogonali: gli effetti di ciascun livello del

fattore sperimentale non influiscono sugli altri livelli del fattore sperimentale.

Problema La 1° colonna della X si ottiene come combinazione lineare di tutte le altre: ha

dimensioni n*(k+1) ma rango k→𝑥

𝑡

𝑥 (k+1)*(k+1) ha rango k e quindi non è

invertibile→il sistema di equazioni ha k equazioni ma k+1 incognite quindi infinite

soluzioni.