Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti sulla regressione, Sbobinature di Statistica

Appunti completi sulla regressione, ideali per la prelazione dell’esame; comprendono sia il libro di testo “introduzione alla statistica” di Anna Clara Monti sia gli appunti delle lezioni.

Tipologia: Sbobinature

2023/2024

In vendita dal 28/06/2024

myriam-distilo
myriam-distilo 🇮🇹

10 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
REGRESSIONE LINEARE
Il modello di regressione consente di rappresentare una dipendenza asimmetrica in base alla quale il
valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile; si utilizza quindi
per descrivere un legame di causa ed effetto.
Fissata la causa di un fenomeno vi è, infatti, una variabilità dell’effetto, ossia, a parità di causa vi può
essere un effetto differente; Questo tipo di relazioni causa-effetto sono appunto studiate dai modelli di
regressione.
In un modello di regressione si distinguono due variabili:
VARIABILE DIPENDENTE Y (effetto)
VARIABILE ESPLICATIVA, o indipendente, X (causa)
La finalità del modello di regressione è spiegare il valore della variabile dipendente in funzione di
quello assunto dalla variabile esplicativa. Tuttavia, in generale, il legame tra la Y e la X non è una
relazione esatta, ossia ad uno stesso valore di X non corrisponde necessariamente lo stesso valore di
Y; Di conseguenza, in termini di calcolo delle probabilità, per un dato valore x di X è possibile
considerare una distribuzione di probabilità condizionata di Y dato X (effetto data causa).
In un modello di regressione l’attenzione è posta sul valore atteso di Y dato X, ossia 𝐸[𝑌|𝑋=𝑥]; in
particolare nella teoria della regressione lineare si assume un legame lineare, ossia 𝐸[𝑌|𝑋=𝑥] è una
funzione di X, e pertanto Y si trova sulla retta di regressione:
𝐸[𝑌|𝑋=𝑥]= 𝛼 + 𝛽𝑥
retta di regressione di Y rispetto ad X con α e β come parametri (quindi costanti), dove α è
l’intercetta e β il coefficiente di regressione (pendenza della retta)
Se β = 0 il valore atteso 𝐸[𝑌|𝑋=𝑥] è = 𝛼 qualunque sia x, dunque 𝐸[𝑌|𝑋=𝑥] non dipende da x.
𝐸[𝑌|𝑋=𝑥]
= 𝛼 + 𝛽𝑥
α -> intercetta
Se β > 0 -> retta crescente
Se β < 0 -> retta decrescente
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Appunti sulla regressione e più Sbobinature in PDF di Statistica solo su Docsity!

REGRESSIONE LINEARE

Il modello di regressione consente di rappresentare una dipendenza asimmetrica in base alla quale il

valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile; si utilizza quindi

per descrivere un legame di causa ed effetto.

Fissata la causa di un fenomeno vi è, infatti, una variabilità dell’effetto, ossia, a parità di causa vi può

essere un effetto differente; Questo tipo di relazioni causa-effetto sono appunto studiate dai modelli di

regressione.

In un modello di regressione si distinguono due variabili:

VARIABILE DIPENDENTE Y (effetto)

VARIABILE ESPLICATIVA, o indipendente, X (causa)

La finalità del modello di regressione è spiegare il valore della variabile dipendente in funzione di

quello assunto dalla variabile esplicativa. Tuttavia, in generale, il legame tra la Y e la X non è una

relazione esatta, ossia ad uno stesso valore di X non corrisponde necessariamente lo stesso valore di

Y; Di conseguenza, in termini di calcolo delle probabilità, per un dato valore x di X è possibile

considerare una distribuzione di probabilità condizionata di Y dato X (effetto data causa).

In un modello di regressione l’attenzione è posta sul valore atteso di Y dato X, ossia 𝐸

[

]

; in

particolare nella teoria della regressione lineare si assume un legame lineare, ossia 𝐸

[

]

è una

funzione di X, e pertanto Y si trova sulla retta di regressione :

[

]

retta di regressione di Y rispetto ad X con α e β come parametri (quindi costanti), dove α è

l’intercetta e β il coefficiente di regressione (pendenza della retta)

Se β = 0 il valore atteso 𝐸

[

]

è = 𝛼 qualunque sia x, dunque 𝐸

[

]

non dipende da x.

[

]

α - > intercetta

Se β > 0 - > retta crescente

Se β < 0 - > retta decrescente

Poiché la relazione tra Y e X, come si è detto, non è esatta (tra le due variabili vi è un legame sono IN

MEDIA) il valore che la Y assume, quando X = x, quasi certamente non si trova sulla retta di

regressione ma in un suo intorno.

Infatti, considerando n soggetti, e indicando con Y 1

, Y

2

, …, T

n

i valori assunti dalla variabile Y e con

X

1

, X

2

, …, X

n

i valori assunti dalla variabile X, si ottiene il modello di regressione:

𝑖

𝑖

  • ԑ

𝑖

dove 𝛼 + 𝛽𝑥

𝑖

è la componente deterministica del modello, che coincide con il valore atteso di 𝑌

𝑖

mentre ԑ

𝑖

è la componente casuale del modello, definita errore , la quale spiega appunto perché ad uno

stesso valore di X possono corrispondere diversi valori di Y.

𝑖

𝑖

= ԑ

𝑖

→ ԑ 𝑖

= variabile casuale che rappresenta lo scarto tra 𝑌

𝑖

è il suo valore atteso condizionato a 𝑥

𝑖

IPOTESI DEL MODELLO DI REGRESSIONE

[

ԑ

𝑖

𝑖

]

Di conseguenza 𝐸

[

𝑖

𝑖

]

[

𝑖

  • ԑ

𝑖

𝑖

]

𝑖

[

ԑ

𝑖

𝑖

]

𝑖

Var (ԑ

𝑖

𝑖

2

  • non dipende da 𝑥

𝑖

→ OMOSCHEDASTICITÀ

Cov (ԑ

𝑖

𝑖

) = 0 , 𝑝𝑒𝑟 𝑞𝑢𝑎𝑙𝑢𝑛𝑞𝑢𝑒 𝑖≠j

  • gli errori del modello di regressione, corrispondenti a diversi valori di X, 𝑥

𝑖

𝑗

, sono

incorrelati

La variabile esplicativa (o indipendente) X è una variabile deterministica di natura matematica

Il metodo correntemente utilizzato per stimare α e β è quello dei MINIMI QUADRATI, ossia le stime

di α e β devono essere scelte in modo tale che la somma dei quadrati delle distanze (scarti) verticali

delle osservazioni (x i

, y i

) dalla retta di regressione stimata sia minima.

(si considera la somma degli scarti al quadrato poiché alcuni scarti sono positivi, altri negativi)

Le distanze (scarti) verticali delle osservazioni (x i

, y i

) dalla retta di regressione stimata a + bx sono di

tipo: 𝑌 𝑖

− (𝛼 + 𝛽𝑥

𝑖

), per i = 1, …, n.

Dunque stimo i valori α e β prendendo i valori a e b che rendono minima

𝑖

− 𝑎 + 𝑏𝑥

𝑖

2

𝑛

𝑖= 1

Stimatori dei minimi quadrati di α e β

∑ (𝑦

𝑖

−𝑦̅ )𝑥

𝑖

𝑛

𝑖= 1

∑ ( 𝑥 𝑖

−𝑥

̅ ) 𝑥 𝑖

𝑛

𝑖= 1

oppure 𝛽

∑ ( 𝑥

𝑖

−𝑥̅

) 𝑦

𝑖

𝑛

𝑖= 1

∑ ( 𝑥 𝑖

−𝑥

̅ )

2

𝑛

𝑖= 1

𝑦

𝑖

y

𝛼 + 𝛽𝑥

𝑖

𝑦

𝑖

− (𝛼 + 𝛽𝑥

𝑖

)

(𝑥

𝑖

, 𝑦

𝑖

)

𝑥

𝑖

x

Il numeratore e il denominatore di 𝛽

si possono anche scrivere in modi diversi ma equivalenti (+

dimostrazione);

NUMERATORE

𝑥

𝑖

𝑦

𝑖

𝑛

𝑖= 1

𝑖

𝑖

𝑛

𝑖= 1

𝑖

𝑖

𝑛

𝑖= 1

𝑦

𝑖

𝑥

𝑖

𝑛

𝑖= 1

DENOMINATORE

𝑥

𝑖

𝑥

𝑖

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

2

PROPRIETÀ DEGLI STIMATORI DEI MINIMI QUADRATI

CORRETTEZZA (+ dimostrazione)

LINEARITÀ (+ dimostrazione β); 𝛼̂ e 𝛽

sono stimatori lineari di Y 1

, Y

2

, …, Y

n

, ossia funzioni

lineari.

Var(𝛽

𝜎

2

∑ (𝑥

𝑖

−𝑥̅ )

2

𝑛

𝑖= 1

Var(𝛼̂ ) =𝜎

2

1

𝑛

𝑥̅

2

∑ ( 𝑥

𝑖

−𝑥̅

)

2

𝑛

𝑖= 1

𝛼̂ e 𝛽

sono dunque stimatori lineari, corretti di α e β con varianza minima.

[

]

α

In che modo Y è influenzato da X? Ossia in che misura la superficie dei punti vendita influenza il

volume delle vendite? Si deve costruire la retta di regressione di Y rispetto ad X.

Stimatori dei minimi quadrati di α e β

𝑖

𝑥

𝑖

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

2

2

Ciò significa che se aumento la superficie dei punti vendita di 1 m

2

, il volume delle vendite aumenta

in media di 1.39 migliaia di euro.

RESIDUI

Ponendo 𝑦̂

𝑖

𝑖

, ossia valore di Y sulla retta di regressione stimata, i residui 𝑒

𝑖

sono dati da

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

(𝑝𝑒𝑟 𝑖 = 1 , … , 𝑛)

DIFFERENZA TRA ERRORI E RESIDUI

  • Per gli errori si utilizzano i veri coefficienti di regressione - > ԑ

𝑖

𝑖

𝑖

  • Per i residui si utilizzano i coefficienti di regressione stimati con il metodo dei minimi quadrati - >

𝑖

𝑖

𝑖

PROPRIETÀ DEI RESIDUI

La somma dei residui è uguale a 0, ossia

∑ 𝑒

𝑖

𝑛

𝑖= 1

= 0 ; di conseguenza anche la media campionaria

dei residui, ossia 1 𝑛

⁄ ∑ 𝑒

𝑖

𝑛

𝑖= 1

, è = 0.

Se 𝑒

𝑖

𝑖

𝑖

𝑖

𝑖

, allora 0 = ∑ 𝑒

𝑖

𝑛

𝑖= 1

𝑖

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

Quindi

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

, ossia la somma dei valori di y osservati è uguale alla somma dei valori

di y stimati sulla retta di regressione (stimata).

𝑦

𝑖

y

𝑦̂

𝑖

= 𝛼̂ + 𝛽

̂

𝑥

𝑖

residuo

𝑒

𝑖

= 𝑦

𝑖

− (𝛼̂ + 𝛽

̂

𝑥

𝑖

)

(𝑥

𝑖

, 𝑦

𝑖

)

𝑥

𝑖

x

INDICE DI DETERMINAZIONE

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

2

  • 𝑅

2

= 0 quando 𝛽

2

𝑖

𝑛 2

𝑖= 1

= 0, ossia quando 𝛽

= 0 (la retta di regressione è orizzontale).

  • 𝑅

2

= 1 quando

𝑖

𝑛 2

𝑖= 1

= 0, ossia quando 𝑦

𝑖

𝑖

per ogni 1, …, n; ciò significa che i valori 𝑦

𝑖

osservati sono allineati sulla retta di regressione.

In generale 𝑅

2

misura la BONTÀ DI ADATTAMENTO della retta di regressione stimata ai dati

osservati.

2

si può scrivere anche in un altro modo:

Poniamo

𝑥𝑦

𝑖

𝑖

𝑛

𝑖= 1

𝑖

𝑛 2

𝑖= 1

𝑖

𝑛 2

𝑖= 1

Si ha

𝑥𝑦

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

E quindi 𝑅

2

𝑥𝑦

2

2

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑖

𝑛 2

𝑖= 1

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

ESEMPIO

Y = volume delle vendite = 1000 euro

X = superficie del punto vendita

N = 9

𝑖

𝑛 2

𝑖= 1

= devianza residua = 70.

2

𝑖

2

𝑛

𝑖= 1

= devianza spiegata dalla regressione = 775.

𝑖

𝑛 2

𝑖= 1

= devianza totale = 846 (anche 70.38 + 775.62)

2

REGIONE DI RIFIUTO E DI ACCETTAZIONE

Intuitivamente si rifiuta l’ipotesi nulla se 𝛽

è “molto più grande” o “molto più piccolo” di 𝛽

0

; equivale

a dire che si rifiuta l’ipotesi nulla se

𝛽

̂

−𝛽

0

ES(𝛽

̂

)

è “molto grande” in positivo o “molto piccolo” in negativo,

cioè se:

0

ES(𝛽

0

ES(𝛽

Il valore di soglia c è determinato in modo tale che il test di ipotesi abbia livello di significatività

prefissato pari a α; dunque c è determinato in modo tale che:

Pr (|

0

0

Ma quando 𝐻 0

è vera, |

𝛽

̂

−𝛽

0

𝐸𝑆(𝛽

̂

)

| = 𝑇 ha distribuzione t di student con n-2 gradi di libertà, T n- 2.

Pr (|

0

0

𝑣𝑒𝑟𝑎) = Pr

𝑛− 2

= 2 Pr(𝑇

𝑛− 2

2 Pr(𝑇

𝑛− 2

𝑐) è la probabilità di errore di I specie, dunque deve essere uguale a α:

2 Pr(𝑇

𝑛− 2

𝑐) = 𝛼 → Pr(𝑇

𝑛− 2

Dunque c è il valore della distribuzione che si lascia a destra un’area di probabilità pari a 𝛼 2

𝑛− 2 ;𝛼/ 2

(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑡𝑜𝑟𝑒 è 𝑠𝑒𝑚𝑝𝑟𝑒 > 0 )

(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑡 𝑑𝑖 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 è 𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑐𝑎)

Quindi la regione critica sarà uguale a:

0

𝑛− 2 ;𝛼/ 2

Di conseguenza la regione di accettazione sarà uguale a:

0

𝑛− 2 ;𝛼/ 2

TEST SU α

Test con ipotesi nulla semplice contro alternativa bilaterale

0

: α = α

0

1

: α ≠ α

0

Ponendo ES

2

1

𝑛

𝑥

̅

2

∑ 𝑥

𝑖

2

−𝑛𝑥̅

2 𝑛

𝑖= 1

), se l’ipotesi nulla è vera allora

𝛼̂ −α

0

𝐸𝑆(𝛼̂ )

ha distribuzione t di

student con n-2 gradi di libertà, T n- 2.

Quindi la regione critica sarà uguale a:

|

𝛼̂ − α

0

| > 𝑡

𝑛− 2 ;𝛼/ 2

Di conseguenza la regione di accettazione sarà uguale a:

|

̂ − α

0

| ≤ 𝑡

𝑛− 2 ;𝛼/ 2

CASO SPECIALE

Test di ipotesi

0

: α = 0

1

: α ≠ 0

In questo caso Y è in media proporzionale a X.

Di conseguenza, la regione di rifiuto sarà:

𝑛− 2 ;𝛼/ 2

STIMA DEL COEFFICIENTE DI CORRELAZIONE PER UNA VARIABILE

CASUALE BIVARIATA

Oggetto di interesse: legame di interdipendenza tra X e Y viste in modo simmetrico.

Sia (X, Y) una variabile casuale bivariata con covarianza tra X e Y 𝜎

𝑥𝑦

= 𝐸[

𝑥

𝑦

)], con

varianza di X 𝜎 𝑥

2

[(

𝑥

2

]

e varianza di Y 𝜎

𝑦

2

[(

𝑦

2

]

; il coefficiente di correlazione

lineare tra X e Y sarà: 𝜌

𝑥𝑦

𝜎

𝑥𝑦

𝜎

𝑥

𝜎

𝑦

, con - 1 ≤ 𝜌

𝑥𝑦

STIMA PUNTUALE DI 𝜌

𝑥𝑦

Considerato un campione casuale, di numerosità n, della popolazione (X, Y), le n variabili casuali (𝑋

1

1

2

2

𝑛

𝑛

), saranno indipendenti e tutte con stessa distribuzione di probabilità, che è

anche uguale a quella della popolazione.

STIMA DI 𝜎

𝑥

2

𝑥

2

1

𝑛− 1

𝑖

2

𝑛

𝑖= 1

STIMA DI 𝜎

𝑌

2

𝑌

2

1

𝑛− 1

𝑖

𝑛 2

𝑖= 1

STIMA DI 𝜎

𝑥𝑦

(covarianza della popolazione) → 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎

𝑥𝑦

𝑖

𝑖

𝑛

𝑖= 1

STIMA DI 𝜌

𝑥𝑦

𝑥𝑦

𝑥𝑦

𝑥

𝑦

𝑖

𝑖

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑥𝑦

Può essere scritto anche come:

𝑥𝑦

𝑖

𝑖

𝑛

𝑖= 1

𝑖

2

2

𝑛

𝑖= 1

𝑖

2

2

𝑛

𝑖= 1

Nota: - 1 ≤ 𝑟 𝑥𝑦