

Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Sintesi lezioni e libro statistica 2
Tipologia: Appunti
1 / 2
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


Ci troviamo in un ambito bivariato, ossia abbiamo osservato due variabili; c'è stata una indagine e abbiamo una matrice di N righe (numero di unità statistiche) e K colonne (numero di variabili) su cui fare delle analisi che ci consentono di interpretare il fenomeno, per fornire delle osservazioni e , ad esempio, per fare delle previsioni.
Nelle analisi di regressione la variabile indipendente può essere il tempo: osserviamo un fenomeno qualsiasi in funzione del tempo. Ciò significa che la X è il tempo espresso in quella che è la sua unità di misura (annuale, trimestrale, mensile, a seconda di come questi dati ci vengono rilasciati). Con l'analisi della regressione diciamo che c'è una relazione funzionale di tipo lineare (una retta) tra due variabili, una dipendente e l'altra indipendente, per cui scriviamo:
y = Bo +B
▲ Bo : intercetta (valore che assume la X quando la Y = 0
▲ B1 : coefficiente angolare
*(indichiamo con B perché nella regressione multipla altrimenti avremo moltissimi coefficienti angolari)
Questa è una relazione deterministica, cioè una volta che si attribuisce un valore numerico a Bo e B1, riusciamo a trovare i valori di X (basta sostituire). Se la variabile indipendente è il tempo deve essere indicato con valori del tipo 1,2,3 e non 2001,2002,2003. Nella realtà è difficile trovare due variabili legate da una relazione deterministica, in altri termini è difficile stimare una retta su cui si collochino tutti i punti. Per fare questo si utilizza un modello (relazione statistica) che viene descritto da: y = f (x) + £
Essendo quindi presente una componente stocastica, sui parametri del modello di regressione può essere fatta inferenza ( si può fare la verifica di ipotesi e gli intervalli di confidenza sui B, ed andare a vedere se il nostro modello ha senso). Nella regressione multipla si possono inserire variabili dipendenti qualitative, ad esempio il voto alla laurea può dipendere dal corso di laurea, se uno studente è in sede o fuori sede, dal tipo di scuola di provenienza ecc.. Cambierà però la funzione, che non sarà più lineare (diventa un modello di regressione logistica; abbiamo moltissimi coefficienti angolari, uno per ogni variabile) - anche se alla fine tutte le variabili possono diventare di tipo dicotomico. Se la variabile qualitativa la metto invece come indipendente, non accade nulla. Quando stimo B devo guardare “r2” , l'indice di determinazione, che indica l'adattamento e da una valutazione di insieme: se r2 è alto i punti sono vicini alla retta di regressione. Quando le variabili sono molte di solito risulta un valore di r2 elevato, ma alcune variabili potrebbero risultare non significative per la nostra analisi.
Come facciamo a capire quali variabili sono significative? Bisogna fare inferenza su ciascuna variabile, e ciò può essere fatto proprio per la presenza della variabile stocastica.
L'inferenza si compie così come la si faceva per la media, per la varianza e per la percentuale, solo che i parametri sono quelli della regressione.
Modello di regressione lineare semplice
Dobbiamo fare delle assunzioni per ottenere il modello di regressione lineare semplice (differisce dalla retta di regressione perché qui c’è la £).
il teorema ci dice che le £i sono v.c. indipendenti che hanno un valore atteso (media) pari a zero E (£i) = 0 e varianza costante Var (£i) = o2 per ogni i = 1,2..n Dire che le £i sono indipendenti, vuol dire che sono incorrelate. L'indice di correlazione, come sappiamo, misura la concordanza o la discordanza ed ha un campo di variazione da +1 a -1 (quando è uguale a zero c'è massima discordanza). Ciò vuol dire che per valere Ø , deve essere zero il numeratore che è costituito o dalla CODEV. o dalla COV (£i ; £j ). Conclusione : dire che sono indipendenti è uguale a dire che COV ( £i ; £j ) = Ø. Se una di queste assunzioni non si verifica gli stimatori che ottengo potrebbero non avere la caratteristica degli stimatori dei minimi quadrati; se , invece, si verificano tutte allora la v.c. £i si distribuisce come una normale con media zero e varianza o2. Anche la Y sarà quindi una normale.
L’assunzione 1 implica che la funzione è lineare.
L’assunzione 2, dato che ci dice che Var (£i) = o2 (ossia che la varianza è costante), ciò implica un'ipotesi che si dice di omoschedasticità: dato che la Var (£i) è costante, si dice che gli errori sono omoschedastici; al contrario se la varianza è variabile si dirà che c'è eteroschedasticità. NON CI SI DOVREBBE TROVARE IN QUESTA SITUAZIONE Poi , siccome abbiamo detto che £i è una v.c. e quindi anche la Y è una variabile casuale, le osservazioni yi, sono realizzazioni di variabili casuali :
Succede che le assunzioni che facciamo per la £ si ripercuotono sulla Y. Perché la Y non è nient'altro che la combinazione lineare di questa componente erratica.
Non si osserva la componente stocastica, ma si osserva l'errore (il residuo): non è nient'altro che la differenza tra le Y stimate (ŷ) e le Y osservate (yi). Ci si aspetta che i residui abbiano le stesse caratteristiche della componente stocastica (£i), ossia : media zero, varianza costante e incorrelazione. Se succede questo il modello si può dire soddisfacente. Nella pratica si calcolano, si rappresentano con l'istogramma e si vede se possono essere interpolati.
STIMA PUNTUALE DEI COEFFICIENTI DI REGRESSIONE
La cosa più importante è andare a stimare i parametri, cioè dobbiamo passare dall'espressione iniziale, a questa: ŷi = 1 E 0 2o + 1 E 0 21x dove 1 E 0 2o e 1 E 0 21x sono rispettivamente le stime dell'intercetta e del coefficiente di regressione, ottenute con il metodo dei minimi quadrati, che consiste nel ricercare le stime di B1 e Bo che rendono minima la funzione di perdita (minimizzo gli scostamenti al quadrato tra i valori empirici e i valori teorici).