Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modelli di regressione lineari e non lineari: Introduzione e concetti chiave, Appunti di Statistica

Appunti semplici e veloci per modelli di regressione

Tipologia: Appunti

2019/2020

Caricato il 10/05/2020

vittorio-russo778
vittorio-russo778 🇮🇹

2 documenti

1 / 4

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Modelli di regressione lineari e non lineari
Enrica Grimaldi
April 20, 2020
1 Modelli di regressione
Partiamo dalla definizione di modello statistico: `e una rappresentazione sem-
plificata e necessaria della realt`a che deriva da deduzioni logiche e osservazioni
sperimentali. Un modello statistico permette di capire la interdipendenza tra
diverse variabili. Per questo esplicita un legame tra i fenomeni di interesse nella
seguente formula:
Y=f(X1, X2, ..., Xp) (1)
identificando Y come la variabile da spiegare (dipendente), mentre X1,X2, ..., Xp
sono variabili indipendenti che servono a spiegare Y, tramite la funzione f. Si
pu`o generalizzare la formula (1) se si considera un margine di errore
Y=f(X1, X2, ..., Xp) + (2)
2 Tipi di modelli
I modelli statistici si dividono in semplici, quando la sola variabile Y `e connessa
ad una sola variabile X, multipli quando le variabili che spiegano Y sono pi`u di
una. In seguito si possono avere modelli lineari, se Y `e espresso tramite una
combinazione lineare delle variabili X1,X2, ..., Xpe dei paramentri β1, β2, ..., βp.
Linearizzabili sono quei modelli che originariamente non erano lineari, ma pos-
sono essere resi lineari tramite varie trasformazioni.
3 Modelli di regressione lineare
I modelli di regressione devono la loro importanza alla semplicit`a della formu-
lazione e prevedono una stima del valore atteso condizionato di una variabile
dipendente, o endogena Y. Prendono questo nome i modelli che presentano una
relazione tra le variabili di questo tipo:
Y=β0+β1x+(3)
1
pf3
pf4

Anteprima parziale del testo

Scarica Modelli di regressione lineari e non lineari: Introduzione e concetti chiave e più Appunti in PDF di Statistica solo su Docsity!

Modelli di regressione lineari e non lineari

Enrica Grimaldi

April 20, 2020

1 Modelli di regressione

Partiamo dalla definizione di modello statistico: e una rappresentazione sem- plificata e necessaria della realta che deriva da deduzioni logiche e osservazioni sperimentali. Un modello statistico permette di capire la interdipendenza tra diverse variabili. Per questo esplicita un legame tra i fenomeni di interesse nella seguente formula:

Y = f (X 1 , X 2 , ..., Xp) (1)

identificando Y come la variabile da spiegare (dipendente), mentre X 1 , X 2 , ..., Xp sono variabili indipendenti che servono a spiegare Y, tramite la funzione f. Si pu`o generalizzare la formula (1) se si considera un margine di errore 

Y = f (X 1 , X 2 , ..., Xp) +  (2)

2 Tipi di modelli

I modelli statistici si dividono in semplici, quando la sola variabile Y e connessa ad una sola variabile X, multipli quando le variabili che spiegano Y sono piu di una. In seguito si possono avere modelli lineari, se Y `e espresso tramite una combinazione lineare delle variabili X 1 , X 2 , ..., Xp e dei paramentri β 1 , β 2 , ..., βp. Linearizzabili sono quei modelli che originariamente non erano lineari, ma pos- sono essere resi lineari tramite varie trasformazioni.

3 Modelli di regressione lineare

I modelli di regressione devono la loro importanza alla semplicit`a della formu- lazione e prevedono una stima del valore atteso condizionato di una variabile dipendente, o endogena Y. Prendono questo nome i modelli che presentano una relazione tra le variabili di questo tipo:

Y = β 0 + β 1 x +  (3)

se semplice, nel caso in cui fosse multipla invece:

Y = β 0 + β 1 x 1 + β 2 x 2 + ... + βpxp (4)

ove β 0 , β 1 , β 2 , βp sono i parametri del modello, β 0 e l’intercetta della retta di regressione, mentre β 1e il coefficiente angolare della retta di regressione. Per- tanto se β 0 = 0 la retta passa per l’origine, ovvero X e Y sono direttamente proporzionali. Se β 1 > 0 la retta ha pendenza positiva e quindi Y cresce con X, viceversa per il contrario. Con β 1 = 0, la retta e parallela all’asse delle ascisse, per cui Ye costante al variare di X, e quindi diventa inutile nello spiegare Y.

Mentre per  si pu`o considerare il valore atteso e la devianza avere tali valori:

E() = 0 (5)

poich´e  rappresenta l’errore che si commette nella spiegazione della variabile dipendente, si pu`o assumere il suo valore atteso pari a 0, e la varianza σ^2 costante

V ar() = σ^2 (6)

Pertanto la media e la varianza di Y condizionata rispetto a x si scrivono:

E(Y |x) = β 0 + β 1 x V ar(Y |x) = σ^2 (6.1)

Nota La potenza maggiore di una variabile indipendente nel modello viene chiamata ordine del modello. In generale si avr`a

Yi = fi(β 0 , β 1 , β 2 ) + i (1)

Il numero dei parametri `e definito dal pedice di β, in questo caso i=0,1,2.

4 Stimatori dei minimi quadrati dei parametri

Per stimare i parametri β 0 , β 1 , ...βp si puo utilizzare un approccio non paramet- rico: la minimizzazione dei quadrati degli scarti tra la variabile da spiegare e una funzione dei parametri, cosicche il problema diventi analiticamente tratta- bile. Questo metodo prevede l’uso del vettore b, che minimizzi la funzione di errore. Dopo alcuni calcoli e assunzioni si giunge alla formula

δ δβj

∑n

i=

[fi(β) − yi]^2 = 0 j = 0, 1 (7)

chiamate equazioni normali, le quali assumono varie forme a seconda del tipo di regressione. Si giunge all’equazione f (x) = β 0 + β 1 x, la cosiddetta retta di regressione di y 1 , y 2 ...yn su x 1 , x 2 ...xn, che minimizza la somma dei quadrati delle distanza agli n punti (x 1 , y 1 ), (x 2 , y 2 ),... (xn, yn). Se le fi(β) sono

6 Modello di regressione multipla

Questo modello introduce p > 1 variabili indipendenti, quando la spiegazione di un fenomeno Y richiede piu di una variabile esplicativa. La notazione comunamente conosciuta e usatae quella matriciale:

Y = Xβ +  (12)

dove:

Y =

Y 1

Y 2

Yi

... Yn

, X =

1 x 11 x 12... x 1 p 1 x 21 x 22... x 2 p

............... 1 xi 1 xi 2... xip ............... 1 xn 1 xn 2... xnp

, β =

β 0 β 1 β 2

... ... βp

i

... n

Tale modello introduce nuove risoluzioni per via analitica, tramite il vettore b definito prima, ricavato attraverso il suddetto metodo dei minimi quadrati. Si definisce in seguito il coefficiente di correlazione multipla R^2 , che rappresenta la parte della devianza totale di Y.

7 Valori outliers(anomali)

Sono valori della risposta che si discostano fortemente dal resto della distribuzione, pari fino a quattro volte rispetto allo scarto quadratico medio. Cio che bisogna faree cercare di spiegare tali valori, poich´e molto spesso derivano da eventi inusuali ma comunque spiegabili. Si pu`o eliminarli o correggerli, il tutto sulla base di spiegazioni statistiche fondate e dimostrate, dato che spesso questi val- ori inusuali sono fondamentali per la spiegazione della distribuzione o per capire eventuali inadeguatezze del suo modello.

8 Esempio

Calcoliamo la retta di regressione, estraendo un campione casuale