


Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti semplici e veloci per modelli di regressione
Tipologia: Appunti
1 / 4
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



Partiamo dalla definizione di modello statistico: e una rappresentazione sem- plificata e necessaria della realta che deriva da deduzioni logiche e osservazioni sperimentali. Un modello statistico permette di capire la interdipendenza tra diverse variabili. Per questo esplicita un legame tra i fenomeni di interesse nella seguente formula:
Y = f (X 1 , X 2 , ..., Xp) (1)
identificando Y come la variabile da spiegare (dipendente), mentre X 1 , X 2 , ..., Xp sono variabili indipendenti che servono a spiegare Y, tramite la funzione f. Si pu`o generalizzare la formula (1) se si considera un margine di errore
Y = f (X 1 , X 2 , ..., Xp) + (2)
I modelli statistici si dividono in semplici, quando la sola variabile Y e connessa ad una sola variabile X, multipli quando le variabili che spiegano Y sono piu di una. In seguito si possono avere modelli lineari, se Y `e espresso tramite una combinazione lineare delle variabili X 1 , X 2 , ..., Xp e dei paramentri β 1 , β 2 , ..., βp. Linearizzabili sono quei modelli che originariamente non erano lineari, ma pos- sono essere resi lineari tramite varie trasformazioni.
I modelli di regressione devono la loro importanza alla semplicit`a della formu- lazione e prevedono una stima del valore atteso condizionato di una variabile dipendente, o endogena Y. Prendono questo nome i modelli che presentano una relazione tra le variabili di questo tipo:
Y = β 0 + β 1 x + (3)
se semplice, nel caso in cui fosse multipla invece:
Y = β 0 + β 1 x 1 + β 2 x 2 + ... + βpxp (4)
ove β 0 , β 1 , β 2 , βp sono i parametri del modello, β 0 e l’intercetta della retta di regressione, mentre β 1e il coefficiente angolare della retta di regressione. Per- tanto se β 0 = 0 la retta passa per l’origine, ovvero X e Y sono direttamente proporzionali. Se β 1 > 0 la retta ha pendenza positiva e quindi Y cresce con X, viceversa per il contrario. Con β 1 = 0, la retta e parallela all’asse delle ascisse, per cui Ye costante al variare di X, e quindi diventa inutile nello spiegare Y.
Mentre per si pu`o considerare il valore atteso e la devianza avere tali valori:
E() = 0 (5)
poich´e rappresenta l’errore che si commette nella spiegazione della variabile dipendente, si pu`o assumere il suo valore atteso pari a 0, e la varianza σ^2 costante
V ar() = σ^2 (6)
Pertanto la media e la varianza di Y condizionata rispetto a x si scrivono:
E(Y |x) = β 0 + β 1 x V ar(Y |x) = σ^2 (6.1)
Nota La potenza maggiore di una variabile indipendente nel modello viene chiamata ordine del modello. In generale si avr`a
Yi = fi(β 0 , β 1 , β 2 ) + i (1)
Il numero dei parametri `e definito dal pedice di β, in questo caso i=0,1,2.
Per stimare i parametri β 0 , β 1 , ...βp si puo utilizzare un approccio non paramet- rico: la minimizzazione dei quadrati degli scarti tra la variabile da spiegare e una funzione dei parametri, cosicche il problema diventi analiticamente tratta- bile. Questo metodo prevede l’uso del vettore b, che minimizzi la funzione di errore. Dopo alcuni calcoli e assunzioni si giunge alla formula
δ δβj
∑n
i=
[fi(β) − yi]^2 = 0 j = 0, 1 (7)
chiamate equazioni normali, le quali assumono varie forme a seconda del tipo di regressione. Si giunge all’equazione f (x) = β 0 + β 1 x, la cosiddetta retta di regressione di y 1 , y 2 ...yn su x 1 , x 2 ...xn, che minimizza la somma dei quadrati delle distanza agli n punti (x 1 , y 1 ), (x 2 , y 2 ),... (xn, yn). Se le fi(β) sono
Questo modello introduce p > 1 variabili indipendenti, quando la spiegazione di un fenomeno Y richiede piu di una variabile esplicativa. La notazione comunamente conosciuta e usatae quella matriciale:
Y = Xβ + (12)
dove:
Yi
... Yn
1 x 11 x 12... x 1 p 1 x 21 x 22... x 2 p
............... 1 xi 1 xi 2... xip ............... 1 xn 1 xn 2... xnp
, β =
β 0 β 1 β 2
... ... βp
i
... n
Tale modello introduce nuove risoluzioni per via analitica, tramite il vettore b definito prima, ricavato attraverso il suddetto metodo dei minimi quadrati. Si definisce in seguito il coefficiente di correlazione multipla R^2 , che rappresenta la parte della devianza totale di Y.
Sono valori della risposta che si discostano fortemente dal resto della distribuzione, pari fino a quattro volte rispetto allo scarto quadratico medio. Cio che bisogna faree cercare di spiegare tali valori, poich´e molto spesso derivano da eventi inusuali ma comunque spiegabili. Si pu`o eliminarli o correggerli, il tutto sulla base di spiegazioni statistiche fondate e dimostrate, dato che spesso questi val- ori inusuali sono fondamentali per la spiegazione della distribuzione o per capire eventuali inadeguatezze del suo modello.
Calcoliamo la retta di regressione, estraendo un campione casuale