Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Appunti sulla regressione, Sbobinature di Statistica

Libera Università Internazionale degli Studi Sociali Guido Carli (LUISS)Statistica

Appunti completi sulla regressione, ideali per la prelazione dell’esame; comprendono sia il libro di testo “introduzione alla statistica” di Anna Clara Monti sia gli appunti delle lezioni.

Tipologia: Sbobinature

2023/2024

In vendita dal 28/06/2024

myriam-distilo 🇮🇹

10 documenti

1 / 17

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

REGRESSIONE LINEARE

Il modello di regressione consente di rappresentare una dipendenza asimmetrica in base alla quale il

valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile; si utilizza quindi

per descrivere un legame di causa ed effetto.

Fissata la causa di un fenomeno vi è, infatti, una variabilità dell’effetto, ossia, a parità di causa vi può

essere un effetto differente; Questo tipo di relazioni causa-effetto sono appunto studiate dai modelli di

regressione.

In un modello di regressione si distinguono due variabili:

VARIABILE DIPENDENTE Y (effetto)

VARIABILE ESPLICATIVA, o indipendente, X (causa)

La finalità del modello di regressione è spiegare il valore della variabile dipendente in funzione di

quello assunto dalla variabile esplicativa. Tuttavia, in generale, il legame tra la Y e la X non è una

relazione esatta, ossia ad uno stesso valore di X non corrisponde necessariamente lo stesso valore di

Y; Di conseguenza, in termini di calcolo delle probabilità, per un dato valore x di X è possibile

considerare una distribuzione di probabilità condizionata di Y dato X (effetto data causa).

In un modello di regressione l’attenzione è posta sul valore atteso di Y dato X, ossia 𝐸[𝑌|𝑋=𝑥]; in

particolare nella teoria della regressione lineare si assume un legame lineare, ossia 𝐸[𝑌|𝑋=𝑥] è una

funzione di X, e pertanto Y si trova sulla retta di regressione:

𝐸[𝑌|𝑋=𝑥]= 𝛼 + 𝛽𝑥

retta di regressione di Y rispetto ad X con α e β come parametri (quindi costanti), dove α è

l’intercetta e β il coefficiente di regressione (pendenza della retta)

Se β = 0 il valore atteso 𝐸[𝑌|𝑋=𝑥] è = 𝛼 qualunque sia x, dunque 𝐸[𝑌|𝑋=𝑥] non dipende da x.

𝐸[𝑌|𝑋=𝑥]

= 𝛼 + 𝛽𝑥

α -> intercetta

Se β > 0 -> retta crescente

Se β < 0 -> retta decrescente

Scopri Sbobinature di Statistica Libera Università Internazionale degli Studi Sociali Guido Carli (LUISS)

Documenti correlati

Appunti sull’inferenza

Appunti sulla probabilità

Appunti sulle variabili

Statistica descrittiva

esercitazione econometria regressione multipla

Appunti sul teorema del limite centrale e sul teorema di Moivre-LaPlace

Esercitazioni di Statistica: Il Modello di Regressione

Esercizi di statistica descrittiva e regressione lineare

(1)

Regressione Lineare Semplice: Modelli, Stima e Interpretazione

(1)

Esercizi di Regressione Lineare Multipla: Applicazioni e Interpretazione dei Risultati

REGRESSIONE MULTIPLA (APPUNTI NON PRESENTI SUL LIBRO)

esercizi riassuntivi sulla regressione

Anteprima parziale del testo

Scarica Appunti sulla regressione e più Sbobinature in PDF di Statistica solo su Docsity!

REGRESSIONE LINEARE

Il modello di regressione consente di rappresentare una dipendenza asimmetrica in base alla quale il

valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile; si utilizza quindi

per descrivere un legame di causa ed effetto.

Fissata la causa di un fenomeno vi è, infatti, una variabilità dell’effetto, ossia, a parità di causa vi può

essere un effetto differente; Questo tipo di relazioni causa-effetto sono appunto studiate dai modelli di

regressione.

In un modello di regressione si distinguono due variabili:

VARIABILE DIPENDENTE Y (effetto)

VARIABILE ESPLICATIVA, o indipendente, X (causa)

La finalità del modello di regressione è spiegare il valore della variabile dipendente in funzione di

quello assunto dalla variabile esplicativa. Tuttavia, in generale, il legame tra la Y e la X non è una

relazione esatta, ossia ad uno stesso valore di X non corrisponde necessariamente lo stesso valore di

Y; Di conseguenza, in termini di calcolo delle probabilità, per un dato valore x di X è possibile

considerare una distribuzione di probabilità condizionata di Y dato X (effetto data causa).

In un modello di regressione l’attenzione è posta sul valore atteso di Y dato X, ossia 𝐸

[

]

; in

particolare nella teoria della regressione lineare si assume un legame lineare, ossia 𝐸

[

]

è una

funzione di X, e pertanto Y si trova sulla retta di regressione :

[

]

retta di regressione di Y rispetto ad X con α e β come parametri (quindi costanti), dove α è

l’intercetta e β il coefficiente di regressione (pendenza della retta)

Se β = 0 il valore atteso 𝐸

[

]

è = 𝛼 qualunque sia x, dunque 𝐸

[

]

non dipende da x.

[

]

α - > intercetta

Se β > 0 - > retta crescente

Se β < 0 - > retta decrescente

Poiché la relazione tra Y e X, come si è detto, non è esatta (tra le due variabili vi è un legame sono IN

MEDIA) il valore che la Y assume, quando X = x, quasi certamente non si trova sulla retta di

regressione ma in un suo intorno.

Infatti, considerando n soggetti, e indicando con Y 1

, Y

2

, …, T

n

i valori assunti dalla variabile Y e con

X

1

, X

2

, …, X

n

i valori assunti dalla variabile X, si ottiene il modello di regressione:

𝑖

ԑ

𝑖

dove 𝛼 + 𝛽𝑥

𝑖

è la componente deterministica del modello, che coincide con il valore atteso di 𝑌

𝑖

mentre ԑ

𝑖

è la componente casuale del modello, definita errore , la quale spiega appunto perché ad uno

stesso valore di X possono corrispondere diversi valori di Y.

𝑖

= ԑ

𝑖

→ ԑ 𝑖

= variabile casuale che rappresenta lo scarto tra 𝑌

𝑖

è il suo valore atteso condizionato a 𝑥

𝑖

IPOTESI DEL MODELLO DI REGRESSIONE

[

ԑ

𝑖

]

Di conseguenza 𝐸

[

𝑖

]

[

𝑖

ԑ

𝑖

]

𝑖

[

ԑ

𝑖

]

𝑖

Var (ԑ

𝑖

2

non dipende da 𝑥

𝑖

→ OMOSCHEDASTICITÀ

Cov (ԑ

𝑖

) = 0 , 𝑝𝑒𝑟 𝑞𝑢𝑎𝑙𝑢𝑛𝑞𝑢𝑒 𝑖≠j

gli errori del modello di regressione, corrispondenti a diversi valori di X, 𝑥

𝑖

𝑗

, sono

incorrelati

La variabile esplicativa (o indipendente) X è una variabile deterministica di natura matematica

Il metodo correntemente utilizzato per stimare α e β è quello dei MINIMI QUADRATI, ossia le stime

di α e β devono essere scelte in modo tale che la somma dei quadrati delle distanze (scarti) verticali

delle osservazioni (x i

, y i

) dalla retta di regressione stimata sia minima.

(si considera la somma degli scarti al quadrato poiché alcuni scarti sono positivi, altri negativi)

Le distanze (scarti) verticali delle osservazioni (x i

, y i

) dalla retta di regressione stimata a + bx sono di

tipo: 𝑌 𝑖

− (𝛼 + 𝛽𝑥

𝑖

), per i = 1, …, n.

Dunque stimo i valori α e β prendendo i valori a e b che rendono minima

𝑖

− 𝑎 + 𝑏𝑥

𝑖

2

𝑛

𝑖= 1

Stimatori dei minimi quadrati di α e β

∑ (𝑦

𝑖

−𝑦̅ )𝑥

𝑖

𝑛

𝑖= 1

∑ ( 𝑥 𝑖

−𝑥

̅ ) 𝑥 𝑖

𝑛

𝑖= 1

oppure 𝛽

∑ ( 𝑥

𝑖

−𝑥̅

) 𝑦

𝑖

𝑛

𝑖= 1

∑ ( 𝑥 𝑖

−𝑥

̅ )

2

𝑛

𝑖= 1

𝑦

𝑖

y

𝛼 + 𝛽𝑥

𝑖

𝑦

𝑖

− (𝛼 + 𝛽𝑥

𝑖

)

(𝑥

𝑖

, 𝑦

𝑖

)

𝑥

𝑖

x

Il numeratore e il denominatore di 𝛽

si possono anche scrivere in modi diversi ma equivalenti (+

dimostrazione);

NUMERATORE

𝑥

𝑖

𝑦

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑦

𝑖

𝑥

𝑖

𝑛

𝑖= 1

DENOMINATORE

𝑥

𝑖

𝑥

𝑖

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

2

PROPRIETÀ DEGLI STIMATORI DEI MINIMI QUADRATI

CORRETTEZZA (+ dimostrazione)

LINEARITÀ (+ dimostrazione β); 𝛼̂ e 𝛽

sono stimatori lineari di Y 1

, Y

2

, …, Y

n

, ossia funzioni

lineari.

Var(𝛽

𝜎

2

∑ (𝑥

𝑖

−𝑥̅ )

2

𝑛

𝑖= 1

Var(𝛼̂ ) =𝜎

2

1

𝑛

𝑥̅

2

∑ ( 𝑥

𝑖

−𝑥̅

)

2

𝑛

𝑖= 1

𝛼̂ e 𝛽

sono dunque stimatori lineari, corretti di α e β con varianza minima.

[

]

α

In che modo Y è influenzato da X? Ossia in che misura la superficie dei punti vendita influenza il

volume delle vendite? Si deve costruire la retta di regressione di Y rispetto ad X.

Stimatori dei minimi quadrati di α e β

𝑖

𝑥

𝑖

𝑛

𝑖= 1

𝑥

𝑖

2

𝑛

𝑖= 1

2

Ciò significa che se aumento la superficie dei punti vendita di 1 m

2

, il volume delle vendite aumenta

in media di 1.39 migliaia di euro.

RESIDUI

Ponendo 𝑦̂

𝑖

, ossia valore di Y sulla retta di regressione stimata, i residui 𝑒

𝑖

sono dati da

𝑖

(𝑝𝑒𝑟 𝑖 = 1 , … , 𝑛)

DIFFERENZA TRA ERRORI E RESIDUI

Per gli errori si utilizzano i veri coefficienti di regressione - > ԑ

𝑖

Per i residui si utilizzano i coefficienti di regressione stimati con il metodo dei minimi quadrati - >

𝑖

PROPRIETÀ DEI RESIDUI

La somma dei residui è uguale a 0, ossia

∑ 𝑒

𝑖

𝑛

𝑖= 1

= 0 ; di conseguenza anche la media campionaria

dei residui, ossia 1 𝑛

⁄ ∑ 𝑒

𝑖

𝑛

𝑖= 1

, è = 0.

Se 𝑒

𝑖

, allora 0 = ∑ 𝑒

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

Quindi

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

, ossia la somma dei valori di y osservati è uguale alla somma dei valori

di y stimati sulla retta di regressione (stimata).

𝑦

𝑖

y

𝑦̂

𝑖

= 𝛼̂ + 𝛽

̂

𝑥

𝑖

residuo

𝑒

𝑖

= 𝑦

𝑖

− (𝛼̂ + 𝛽

̂

𝑥

𝑖

)

(𝑥

𝑖

, 𝑦

𝑖

)

𝑥

𝑖

x

INDICE DI DETERMINAZIONE

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

2

𝑅

2

= 0 quando 𝛽

2

𝑖

𝑛 2

𝑖= 1

= 0, ossia quando 𝛽

= 0 (la retta di regressione è orizzontale).

𝑅

2

= 1 quando

𝑖

𝑛 2

𝑖= 1

= 0, ossia quando 𝑦

𝑖

per ogni 1, …, n; ciò significa che i valori 𝑦

𝑖

osservati sono allineati sulla retta di regressione.

In generale 𝑅

2

misura la BONTÀ DI ADATTAMENTO della retta di regressione stimata ai dati

osservati.

2

si può scrivere anche in un altro modo:

Poniamo

𝑥𝑦

𝑖

𝑛

𝑖= 1

𝑖

𝑛 2

𝑖= 1

𝑖

𝑛 2

𝑖= 1

Si ha

𝑥𝑦

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

E quindi 𝑅

2

𝑥𝑦

2

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑖

𝑛 2

𝑖= 1

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

𝑛 2

𝑖= 1

𝑖

2

𝑛

𝑖= 1

ESEMPIO

Y = volume delle vendite = 1000 euro

X = superficie del punto vendita

N = 9

𝑖

𝑛 2

𝑖= 1

= devianza residua = 70.

2

𝑖

2

𝑛

𝑖= 1

= devianza spiegata dalla regressione = 775.

𝑖

𝑛 2

𝑖= 1

= devianza totale = 846 (anche 70.38 + 775.62)

2

REGIONE DI RIFIUTO E DI ACCETTAZIONE

Intuitivamente si rifiuta l’ipotesi nulla se 𝛽

è “molto più grande” o “molto più piccolo” di 𝛽

0

; equivale

a dire che si rifiuta l’ipotesi nulla se

𝛽

̂

−𝛽

0

ES(𝛽

̂

)

è “molto grande” in positivo o “molto piccolo” in negativo,

cioè se:

0

ES(𝛽

0

ES(𝛽

Il valore di soglia c è determinato in modo tale che il test di ipotesi abbia livello di significatività

prefissato pari a α; dunque c è determinato in modo tale che:

Pr (|

0

Ma quando 𝐻 0

è vera, |

𝛽

̂

−𝛽

0

𝐸𝑆(𝛽

̂

)

| = 𝑇 ha distribuzione t di student con n-2 gradi di libertà, T n- 2.

Pr (|

0

𝑣𝑒𝑟𝑎) = Pr

𝑛− 2

= 2 Pr(𝑇

𝑛− 2

2 Pr(𝑇

𝑛− 2

𝑐) è la probabilità di errore di I specie, dunque deve essere uguale a α:

2 Pr(𝑇

𝑛− 2

𝑐) = 𝛼 → Pr(𝑇

𝑛− 2

Dunque c è il valore della distribuzione che si lascia a destra un’area di probabilità pari a 𝛼 2

𝑛− 2 ;𝛼/ 2

(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑡𝑜𝑟𝑒 è 𝑠𝑒𝑚𝑝𝑟𝑒 > 0 )

(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑡 𝑑𝑖 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 è 𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑐𝑎)

Quindi la regione critica sarà uguale a:

0

𝑛− 2 ;𝛼/ 2

Di conseguenza la regione di accettazione sarà uguale a:

0

𝑛− 2 ;𝛼/ 2

TEST SU α

Test con ipotesi nulla semplice contro alternativa bilaterale

0

: α = α

0

1

: α ≠ α

0

Ponendo ES

2

1

𝑛

𝑥

̅

2

∑ 𝑥

𝑖

2

−𝑛𝑥̅

2 𝑛

𝑖= 1

), se l’ipotesi nulla è vera allora

𝛼̂ −α

0

𝐸𝑆(𝛼̂ )

ha distribuzione t di

student con n-2 gradi di libertà, T n- 2.

Quindi la regione critica sarà uguale a:

|

𝛼̂ − α

0

| > 𝑡

𝑛− 2 ;𝛼/ 2

Di conseguenza la regione di accettazione sarà uguale a:

|

̂ − α

0

| ≤ 𝑡

𝑛− 2 ;𝛼/ 2

CASO SPECIALE

Test di ipotesi

0

: α = 0

1

: α ≠ 0

In questo caso Y è in media proporzionale a X.

Di conseguenza, la regione di rifiuto sarà:

𝑛− 2 ;𝛼/ 2

STIMA DEL COEFFICIENTE DI CORRELAZIONE PER UNA VARIABILE

CASUALE BIVARIATA

Oggetto di interesse: legame di interdipendenza tra X e Y viste in modo simmetrico.

Sia (X, Y) una variabile casuale bivariata con covarianza tra X e Y 𝜎

𝑥𝑦

= 𝐸[

𝑥

𝑦

)], con

varianza di X 𝜎 𝑥

2

[(

𝑥

2

]

e varianza di Y 𝜎

𝑦

2

[(

𝑦

2

]

; il coefficiente di correlazione

lineare tra X e Y sarà: 𝜌

𝑥𝑦

𝜎

𝑥𝑦

𝜎

𝑥

𝜎

𝑦

, con - 1 ≤ 𝜌

𝑥𝑦

STIMA PUNTUALE DI 𝜌

𝑥𝑦

Considerato un campione casuale, di numerosità n, della popolazione (X, Y), le n variabili casuali (𝑋

1

2

𝑛

), saranno indipendenti e tutte con stessa distribuzione di probabilità, che è

anche uguale a quella della popolazione.

STIMA DI 𝜎

𝑥

2

𝑥

2

1

𝑛− 1

𝑖

2

𝑛

𝑖= 1

STIMA DI 𝜎

𝑌

2

𝑌

2

1

𝑛− 1

𝑖

𝑛 2

𝑖= 1

STIMA DI 𝜎

𝑥𝑦

(covarianza della popolazione) → 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎

𝑥𝑦

𝑖

𝑛

𝑖= 1

STIMA DI 𝜌

𝑥𝑦

𝑥

𝑦

𝑖

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑥𝑦

Può essere scritto anche come:

𝑥𝑦

𝑖

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

𝑖

2

𝑛

𝑖= 1

Nota: - 1 ≤ 𝑟 𝑥𝑦