Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione Lineare Semplice: Modelli, Ipotesi e Validazione, Slide di Statistica Inferenziale

MODELLO REGRESSIONE INFERENZA

Tipologia: Slide

2018/2019

Caricato il 26/05/2019

2013574
2013574 🇮🇹

4

(8)

11 documenti

1 / 48

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Modulo 4
Modello di regressione
Maria Lucia Parrella
Corso di Statistica (02127)
Universit`a degli Studi di Salerno
Corso di Laurea Triennale in Economia e Management
Curriculum in Economia e Gestione delle Imprese
a.a. 2016/2017
1/45
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30

Anteprima parziale del testo

Scarica Regressione Lineare Semplice: Modelli, Ipotesi e Validazione e più Slide in PDF di Statistica Inferenziale solo su Docsity!

Modulo 4

Modello di regressione

Maria Lucia Parrella [email protected]

Corso di Statistica (02127)

Universit`a degli Studi di Salerno Corso di Laurea Triennale in Economia e Management Curriculum in Economia e Gestione delle Imprese a.a. 2016/

Relazioni tra variabili

Uno degli obiettivi della statistica e quello di studiare le relazioni esistenti tra variabili. Il primo strumento utile per identificare il tipo di relazione esistente tra due variabilie quello grafico: il diagramma a dispersione o diagramma scatter Il diagramma a dispersione, o scatter-plot, fornisce una descrizione dei dati, evidenziando: 1 i possibili valori di ogni variabile; 2 l’eventuale relazione tra le due variabili; 3 la presenza di eventuali valori anomali.

Relazione lineare

Tra i possibili legami esistenti tra due variabili, il piu semplicee quello lineare, che indica che al variare di una delle due variabili l’altra cresce (o decresce) mediamente seguendo l’andamento di una retta. Se il legame e positivo, allora all’aumentare di una variabile anche l’altra aumenta (in media). Se il legamee negativo, le due variabili si comportano in maniera opposta. Gli indici di covarianza sXY e correlazione rXY misurano la presenza e l’intensita del legame lineare esistente tra due variabili. Nota che l’indice di correlazione none una misura generale della relazione tra due variabili, ma esprime solo il grado di linearit`a della relazione in un grafico a dispersione.

Dipendenza e correlazione

Modelli statistici

Una parte rilevante della statistica e fondata sull’analisi dei fenomeni attraverso la costruzione di modelli che rappresentino una visione “semplificata” della realta.

problema reale −→ problema statistico

Un modello studia il legame esistente tra due o pi`u aspetti di un fenomeno che si intende spiegare, dei quali uno viene visto come effetto o risultato e gli altri come causa.

effetto ← causa 1, causa 2,...

Va ribadito che tutti i modelli sono intrinsecamente sbagliati: essi sono solo parzialmente e provvisoriamente utili, e sono destinati ad essere sostituiti con l’avanzare del progresso scientifico e l’affinamento della conoscenza.

Alcuni cenni storici

Il modello statistico piu longevo e piu utilizzato nella storia della statistica e il modello di regressione Il termine regressione venne coniato nel diciannovesimo secolo dal biologo e statistico Galton in occasione di una famosa applicazione in cui esaminava le altezze dei figli in funzione della media delle altezze dei due genitori, per un gran numero di famiglie inglesi. Sebbene si evidenziasse una relazione diretta tra altezze dei genitori e dei figli, Galton osservo che a genitori eccezionalmente alti/bassi non corrispondevano figli alti/bassi in modo cosı estremo, e applico il termine vagamente fuorviante di regressione verso la media. Per Galton, la regressione aveva solo questo significato biologico, ma il suo lavoro venne in seguito esteso da Yule e Pearson in un contesto statistico piu generale. Oggi il termine regressionee spesso sinonimo di relazione funzionale tra variabili.

Formulazione del modello

La “semplificazione” del modello di regressione consiste nel: quantificare in qualche modo i fenomeni, rappresentandoli e misurandoli attraverso delle variabili; ipotizzare una relazione funzionale tra la variabile dipendente (effetto o variabile risposta), indicata con Y , e le variabili indipendenti (cause o variabili esplicative), indicate con le lettere X 1 ,... , Xp ; considerare una variabile residuale  che racchiuda l’insieme delle concause non note che dovessero agire sul fenomeno analizzato. Questa variabile deve comportarsi come una componente erratica.

Y = f (X 1 , X 2 ,... , Xp ) + 

La formulazione e costruzione di un modello `e un’operazione delicata che richiede generalmente la collaborazione di esperti di varie discipline, tra cui lo statistico.

Fasi della costruzione di un modello

Mediante l’interazio- ne tra statistici ed esperti del fenomeno analizzato, il proble- ma reale va tradotto in un modello statisti- co (specificazione) il quale, formalizzato in una struttura probabi- listica, viene stimato e sottoposto ad inferen- za mediante un’inda- gine campionaria (sti- ma e verifica o valida- zione), prima di poter essere utilizzato.

Ipotesi classiche del modello di regressione semplice

Il modello di regressione, nella sua versione piu semplice, si basa sul seguente insieme di ipotesi: 1 La funzione f (·; β)e di tipo lineare e dipende da un unico regressore,

Yi = β 0 + β 1 xi + i , i = 1,... , n.

2 La variabile indipendente X `e deterministica, per cui le relative osservazioni campionarie si considerano fissate a priori (per tale motivo vengono talvolta indicate con le lettere minuscole anche quando la relazione si riferisce alla v.c. campionaria). 3 E (i ) = 0, ∀i; 4 Var (i ) = σ^2 , ∀i; 5 Cov (i , j ) = 0, ∀i 6 = j.

Il modello di regressione lineare semplice

Osservazioni generate da variabili Y e X legate da una relazione lineare causa-effetto

Commento sull’ipotesi di variabili deterministiche

L’ipotesi 2 esclude che la variabilita del regressore X sia di natura stocastica (caso a). Tuttavia, see piu realistico affermare che essae una v.c., allora il modello di regressione andrebbe esaminato condizionatamente ai valori osservati per essa. In tal caso, il modello di regressione rappresenterebbe la media condizionata E (Y |X = x ) (caso b).

Commento sull’ipotesi di omoschedasticit`a

L’ipotesi 3 sull’errore garantisce il comportamento erratico delle variabili casuali i. Data la loro funzione, e naturale assumere che queste non influenzino in media la variabile Y. L’ipotesi 4 sulla varianza degli errori costante (omoschedasticita) ha la funzione di assicurare che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile”.

Violazione delle ipotesi classiche

Una o piu delle ipotesi classiche potrebbero non valere in determinati contesti. Il modello di regressione puo essere esteso e generalizzato contesti diversi, in cui una o pi`u ipotesi classiche vengono violate modelli di regressione nonlineare o nonparametrici modelli di regressione con errori eteroschedastici modelli di regressione con errori autocorrelati modelli di regressione per dati spazialmente correlati .... Lo studio di tali estensioni del modello di regressione viene generalmente affrontato nei programmi dei corsi di Econometria

Modello di regressione: propriet`a

Dato il modello di regressione lineare semplice

Yi = β 0 + β 1 xi + i ,

sotto le ipotesi 1-5 formulate, risulta

E (Yi ) = E (β 0 + β 1 xi + i ) = β 0 + β 1 xi Var (Yi ) = Var (i ) = σ^2 ,

Nota, pero, che la distribuzione della Yi none nota, a meno che non si facciano ulteriori ipotesi sulla distribuzione degli errori. In particolare, se assumiamo che gli errori si distribuiscano normalmente, ovvero i ∼ N (0, σ^2 ) per ogni i = 1,... , n, allora

Yi ∼ N (β 0 + β 1 xi ; σ^2 )