








































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
MODELLO REGRESSIONE INFERENZA
Tipologia: Slide
1 / 48
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!









































Maria Lucia Parrella [email protected]
Corso di Statistica (02127)
Universit`a degli Studi di Salerno Corso di Laurea Triennale in Economia e Management Curriculum in Economia e Gestione delle Imprese a.a. 2016/
Uno degli obiettivi della statistica e quello di studiare le relazioni esistenti tra variabili. Il primo strumento utile per identificare il tipo di relazione esistente tra due variabilie quello grafico: il diagramma a dispersione o diagramma scatter Il diagramma a dispersione, o scatter-plot, fornisce una descrizione dei dati, evidenziando: 1 i possibili valori di ogni variabile; 2 l’eventuale relazione tra le due variabili; 3 la presenza di eventuali valori anomali.
Tra i possibili legami esistenti tra due variabili, il piu semplicee quello lineare, che indica che al variare di una delle due variabili l’altra cresce (o decresce) mediamente seguendo l’andamento di una retta. Se il legame e positivo, allora all’aumentare di una variabile anche l’altra aumenta (in media). Se il legamee negativo, le due variabili si comportano in maniera opposta. Gli indici di covarianza sXY e correlazione rXY misurano la presenza e l’intensita del legame lineare esistente tra due variabili. Nota che l’indice di correlazione none una misura generale della relazione tra due variabili, ma esprime solo il grado di linearit`a della relazione in un grafico a dispersione.
Una parte rilevante della statistica e fondata sull’analisi dei fenomeni attraverso la costruzione di modelli che rappresentino una visione “semplificata” della realta.
problema reale −→ problema statistico
Un modello studia il legame esistente tra due o pi`u aspetti di un fenomeno che si intende spiegare, dei quali uno viene visto come effetto o risultato e gli altri come causa.
effetto ← causa 1, causa 2,...
Va ribadito che tutti i modelli sono intrinsecamente sbagliati: essi sono solo parzialmente e provvisoriamente utili, e sono destinati ad essere sostituiti con l’avanzare del progresso scientifico e l’affinamento della conoscenza.
Il modello statistico piu longevo e piu utilizzato nella storia della statistica e il modello di regressione Il termine regressione venne coniato nel diciannovesimo secolo dal biologo e statistico Galton in occasione di una famosa applicazione in cui esaminava le altezze dei figli in funzione della media delle altezze dei due genitori, per un gran numero di famiglie inglesi. Sebbene si evidenziasse una relazione diretta tra altezze dei genitori e dei figli, Galton osservo che a genitori eccezionalmente alti/bassi non corrispondevano figli alti/bassi in modo cosı estremo, e applico il termine vagamente fuorviante di regressione verso la media. Per Galton, la regressione aveva solo questo significato biologico, ma il suo lavoro venne in seguito esteso da Yule e Pearson in un contesto statistico piu generale. Oggi il termine regressionee spesso sinonimo di relazione funzionale tra variabili.
La “semplificazione” del modello di regressione consiste nel: quantificare in qualche modo i fenomeni, rappresentandoli e misurandoli attraverso delle variabili; ipotizzare una relazione funzionale tra la variabile dipendente (effetto o variabile risposta), indicata con Y , e le variabili indipendenti (cause o variabili esplicative), indicate con le lettere X 1 ,... , Xp ; considerare una variabile residuale che racchiuda l’insieme delle concause non note che dovessero agire sul fenomeno analizzato. Questa variabile deve comportarsi come una componente erratica.
Y = f (X 1 , X 2 ,... , Xp ) +
La formulazione e costruzione di un modello `e un’operazione delicata che richiede generalmente la collaborazione di esperti di varie discipline, tra cui lo statistico.
Mediante l’interazio- ne tra statistici ed esperti del fenomeno analizzato, il proble- ma reale va tradotto in un modello statisti- co (specificazione) il quale, formalizzato in una struttura probabi- listica, viene stimato e sottoposto ad inferen- za mediante un’inda- gine campionaria (sti- ma e verifica o valida- zione), prima di poter essere utilizzato.
Il modello di regressione, nella sua versione piu semplice, si basa sul seguente insieme di ipotesi: 1 La funzione f (·; β)e di tipo lineare e dipende da un unico regressore,
Yi = β 0 + β 1 xi + i , i = 1,... , n.
2 La variabile indipendente X `e deterministica, per cui le relative osservazioni campionarie si considerano fissate a priori (per tale motivo vengono talvolta indicate con le lettere minuscole anche quando la relazione si riferisce alla v.c. campionaria). 3 E (i ) = 0, ∀i; 4 Var (i ) = σ^2 , ∀i; 5 Cov (i , j ) = 0, ∀i 6 = j.
Osservazioni generate da variabili Y e X legate da una relazione lineare causa-effetto
L’ipotesi 2 esclude che la variabilita del regressore X sia di natura stocastica (caso a). Tuttavia, see piu realistico affermare che essae una v.c., allora il modello di regressione andrebbe esaminato condizionatamente ai valori osservati per essa. In tal caso, il modello di regressione rappresenterebbe la media condizionata E (Y |X = x ) (caso b).
L’ipotesi 3 sull’errore garantisce il comportamento erratico delle variabili casuali i. Data la loro funzione, e naturale assumere che queste non influenzino in media la variabile Y. L’ipotesi 4 sulla varianza degli errori costante (omoschedasticita) ha la funzione di assicurare che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile”.
Una o piu delle ipotesi classiche potrebbero non valere in determinati contesti. Il modello di regressione puo essere esteso e generalizzato contesti diversi, in cui una o pi`u ipotesi classiche vengono violate modelli di regressione nonlineare o nonparametrici modelli di regressione con errori eteroschedastici modelli di regressione con errori autocorrelati modelli di regressione per dati spazialmente correlati .... Lo studio di tali estensioni del modello di regressione viene generalmente affrontato nei programmi dei corsi di Econometria
Dato il modello di regressione lineare semplice
Yi = β 0 + β 1 xi + i ,
sotto le ipotesi 1-5 formulate, risulta
E (Yi ) = E (β 0 + β 1 xi + i ) = β 0 + β 1 xi Var (Yi ) = Var (i ) = σ^2 ,
Nota, pero, che la distribuzione della Yi none nota, a meno che non si facciano ulteriori ipotesi sulla distribuzione degli errori. In particolare, se assumiamo che gli errori si distribuiscano normalmente, ovvero i ∼ N (0, σ^2 ) per ogni i = 1,... , n, allora
Yi ∼ N (β 0 + β 1 xi ; σ^2 )