Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modelli Lineari Generalizzati (GLM), Sintesi del corso di Statistica Inferenziale

Desrizione ampia dei modelli lineari generalizzati,statistica inferenziale e test delle ipotesi

Tipologia: Sintesi del corso

2018/2019

Caricato il 30/04/2019

gabriella-sibillo
gabriella-sibillo 🇮🇹

5

(3)

11 documenti

1 / 85

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Il modello lineare
Luca Greco
Econometria(6 CFU)
Corso di laurea in Scienze Statistiche e Attuariali
A.A. 2015-2016
Luca Greco Modello lineare - Econometria (6 CFU) - SSA 1/ 85
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55

Anteprima parziale del testo

Scarica Modelli Lineari Generalizzati (GLM) e più Sintesi del corso in PDF di Statistica Inferenziale solo su Docsity!

Il modello lineare

Luca Greco

Econometria(6 CFU) Corso di laurea in Scienze Statistiche e Attuariali A.A. 2015-

Econometria

I (^) L’Econometria è una scienza che fornisce un contenuto quantitativo alle relazioni (principalmente di natura socio-economica) esistenti tra alcune variabili, sulla base dei dati disponibili e con l’ausilio di tecniche statistiche. I (^) L’obiettivo è quello di costruire un modello per descrivere, comprendere, controllare, prevedere fenomeni reali I (^) Un modello statistico fornisce una rappresentazione (semplificata) della realtà I (^) Problema: costruzione di un modello adatto alla natura dei dati e dei fenomeni che si vuole studiare I (^) La specificazione del modello permette di tradurre un problema reale in un problema statistico

Modello statistico

I (^) La variabile  rappresenta il termine d’errore, la variabile in cui confluisce tutto ciò che le covariate non riescono a spiegare della risposta I (^) Il termine d’errore rappresenta lo scostamento del modello dalla realtà fenomenica

I (^) La variabile  consente di trasformare un modello deterministico in un modello statistico capace di fornire una rappresentazione semplificata della realtà da utilizzare ai fini interpretativi e previsivi.

I (^) Al fine di rendere operativo il modello è necessario fare delle ipotesi sulla distribuzione della variabile  o su alcuni sui aspetti caratteristici (i momenti della distribuzione) I (^) Queste ipotesi introducono nel modello ulteriori parametri da stimare

Fasi dell’analisi

I (^) Specificazione di un modello qualitativamente compatibile con la natura dei dati e il tipo di relazione funzionale

I (^) Stima dei parametri del modello

I (^) Verifica della bontà del modello stimato: queste verifiche potranno riguardare l’adeguatezza delle scelte relative alla forma funzionale adottata, delle ipotesi sulla natura del termine d’errore, delle variabili esplicative selezionate I (^) La specificazione di un modello non è mai conclusiva ma il modello può essere modificato alla luce dei risultati delle procedure di inferenza e di diagnostica poste in essere I (^) Previsione, sulla base del modello finale selezionato

Il modello lineare

I (^) μ(X , β) è la componente sistematica del modello

I (^) μ(X , β) è funzione lineare nei coefficienti β

I (^)  è la componente d’errore o accidentale, che rappresenta gli scostamenti di natura casuale tra la risposta e la componente sistematica I (^) Se la prima colonna della matrice di disegno è costituita da un vettore i cui elementi sono tutti pari ad uno,

X 0 = ( 1 , 1 , 1 ,... , 1 )T

allora il modello prevede un termine d’intercetta

Il modello lineare

I (^) Modello di regressione lineare semplice

Y = X β +  = β 0 + β 1 X 1 + , X = [ 1 |X 1 ]

che per l’i-esima componente possiamo scrivere

Yi = β 0 + β 1 xi 1 + i

I (^) Modello di regressione lineare multipla

Y = X β +  = β 0 + β 1 X 1 + β 2 X 2 +... + βp− 1 Xp− 1 + 

con X = [ 1 |X 1 |X 2 |... |Xp− 1 ], che per l’i-esima componente possiamo scrivere

Yi = β 0 + β 1 xi 1 + β 2 xi 2 +... +... βp− 1 xi(p− 1 ) + i

Sales & GDP

1.0 1.5 2.0 2.5 3.

100

150

200

250

300

350

Scatter-plot

GDP

Sales

100

150

200

250

300

350

Box-plot

Sales

I (^) Il coefficiente di correlazione lineare è rxy = 0. 808 I (^) La specificazione di un legame lineare appare giustificata (almeno in questa prima fase dell’analisi) Sales = β 0 + β 1 GDP + 

Gasoline data

I (^) Dati sulle proprietà del petrolio greggio e della benzina che se ne produce I (^) yield: percentuale di benzina prodotta

I (^) endpoint: temperatura alla quale tutto il petrolio si vaporizza (◦F)

I (^) API: gravità del petrolio greggio (◦API)

I (^) vapor: pressione del vapore emesso dal petrolio greggio (lbs/in^2 ) I (^) ASTM: temperatura alla quale il 10% del petrolio si vaporizza (◦F) I (^) Obiettivo: spiegare le variazioni nella produzione di benzina in funzione delle covariate I (^) Cosa si può immaginare dal grafico seguente?

House prices in Canada

I (^) price: prezzi di vendita di n = 546 case vendute durante i mesi di Luglio, Agosto e Settembre 1987 a Windsor in Canada I (^) lotsize dimensione del lotto (m^2 )

I (^) bedrooms numero di camere da letto

I (^) bathrms: numero di bagni

I (^) stories: numero di piani escluso il seminterrato

I (^) driveway: presenza di un viale di accesso (Si = 1)

I (^) recroom: presenza di una sala ricreativa (Si = 1)

I (^) fullbase: presenza di un piano seminterrato (Si = 1)

I (^) gashw: utilizzo del gas per l’acqua calda (Si = 1)

I (^) airco: presenza di area condizionata centrlizzata (Si =1)

I (^) garagepl: numero di box auto

I (^) prefarea: presenza dello stabile nel quartiere preferito degli acquirenti (Si = 1)

House prices in Canada

I (^) Obiettivo: studiare le variazioni del prezzo di vendita in funzione delle covariate I (^) Tra le variabili esplicative figurano 6 variabili qualitative ciascuna con due modalità (variabili dicotomiche o dummy)

Histogram of price

price

Frequency

50000 100000 150000 200000

0

50

100

150

200

price

5000 15000 1.0 2.0 3.0 4.

50000

150000

5000

15000

lotsize

0.37 0. bedrooms 1 2

3 4

5 6

1.^ 2.^ 3.^

  1. 0.52 0.19^ 0. bathrms

50000 150000

0.38 0. 1 2 3 4 5 6

0.14 0. 0.0 1.0 2.0 3.0^ 0.

garagepl 3.

House prices in Canada

driveway

lotsize

price

50000

100000

150000

5000 10000 15000

0 5000 110000 15000

recroom

lotsize

price 50000

100000

150000

5000 10000 15000

0 5000 110000 15000

fullbase

lotsize

price 50000

100000

150000

5000 10000 15000

0 5000 110000 15000

gashw

lotsize

price

50000

100000

150000

5000 10000 15000

0 5000 110000 15000

airco

lotsize

price

50000

100000

150000

5000 10000 15000

0 5000 110000 15000

prefarea

lotsize

price

50000

100000

150000

5000 10000 15000

0 5000 110000 15000

House prices in Canada

I (^) Secondo quale relazione ed in quale misura i prezzi dipendono dalle variabili esplicative prese in esame? I (^) E’ possibile considerare un insieme più piccolo di variabili esplicative? I (^) In che modo le variabili dummy agiscono sulla relazione tra la risposta e le altre variabili esplicative?

Ipotesi del secondo ordine

I (^) Le ipotesi del secondo ordine implicano che

E (Y |X ) = X β = μ, μ = (μ 1 , μ 2 ,... , μn)T Var (Y |X ) = Var () = σ^2 In

I (^) Il valore atteso è condizionato ai valori delle covariate

I (^) Il modello di regressione lineare esprime una relazione di dipendenza in media I (^) Per la singola componente

E [Yi |X = xi ] = x iT β = μi

Interpretazione del modello lineare

Alla luce delle ipotesi del secondo ordine

I (^) β 0 esprime il valore atteso di Y quando le covariate non intervengono β 0 = E (Y |X = 0 ) I (^) βj , j = 1 ,... , p − 1 esprime la variazione attesa (variazione in media) nella risposta, corrispondente ad un incremento unitario di Xj , al netto della altre variabili, i.e. quando le altre variabili non subiscono variazioni ma assumono lo stesso valore