









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti completi sulla regressione, ideali per la prelazione dell’esame; comprendono sia il libro di testo “introduzione alla statistica” di Anna Clara Monti sia gli appunti delle lezioni.
Tipologia: Sbobinature
1 / 17
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Il modello di regressione consente di rappresentare una dipendenza asimmetrica in base alla quale il
valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile; si utilizza quindi
per descrivere un legame di causa ed effetto.
Fissata la causa di un fenomeno vi è, infatti, una variabilità dell’effetto, ossia, a parità di causa vi può
essere un effetto differente; Questo tipo di relazioni causa-effetto sono appunto studiate dai modelli di
regressione.
In un modello di regressione si distinguono due variabili:
VARIABILE DIPENDENTE Y (effetto)
VARIABILE ESPLICATIVA, o indipendente, X (causa)
La finalità del modello di regressione è spiegare il valore della variabile dipendente in funzione di
quello assunto dalla variabile esplicativa. Tuttavia, in generale, il legame tra la Y e la X non è una
relazione esatta, ossia ad uno stesso valore di X non corrisponde necessariamente lo stesso valore di
Y; Di conseguenza, in termini di calcolo delle probabilità, per un dato valore x di X è possibile
considerare una distribuzione di probabilità condizionata di Y dato X (effetto data causa).
In un modello di regressione l’attenzione è posta sul valore atteso di Y dato X, ossia 𝐸
; in
particolare nella teoria della regressione lineare si assume un legame lineare, ossia 𝐸
è una
funzione di X, e pertanto Y si trova sulla retta di regressione :
retta di regressione di Y rispetto ad X con α e β come parametri (quindi costanti), dove α è
l’intercetta e β il coefficiente di regressione (pendenza della retta)
Se β = 0 il valore atteso 𝐸
è = 𝛼 qualunque sia x, dunque 𝐸
non dipende da x.
α - > intercetta
Se β > 0 - > retta crescente
Se β < 0 - > retta decrescente
Poiché la relazione tra Y e X, come si è detto, non è esatta (tra le due variabili vi è un legame sono IN
MEDIA) il valore che la Y assume, quando X = x, quasi certamente non si trova sulla retta di
regressione ma in un suo intorno.
Infatti, considerando n soggetti, e indicando con Y 1
2
n
i valori assunti dalla variabile Y e con
1
2
n
i valori assunti dalla variabile X, si ottiene il modello di regressione:
𝑖
𝑖
𝑖
dove 𝛼 + 𝛽𝑥
𝑖
è la componente deterministica del modello, che coincide con il valore atteso di 𝑌
𝑖
mentre ԑ
𝑖
è la componente casuale del modello, definita errore , la quale spiega appunto perché ad uno
stesso valore di X possono corrispondere diversi valori di Y.
𝑖
𝑖
= ԑ
𝑖
→ ԑ 𝑖
= variabile casuale che rappresenta lo scarto tra 𝑌
𝑖
è il suo valore atteso condizionato a 𝑥
𝑖
ԑ
𝑖
𝑖
Di conseguenza 𝐸
𝑖
𝑖
𝑖
𝑖
𝑖
𝑖
ԑ
𝑖
𝑖
𝑖
Var (ԑ
𝑖
𝑖
2
𝑖
Cov (ԑ
𝑖
𝑖
) = 0 , 𝑝𝑒𝑟 𝑞𝑢𝑎𝑙𝑢𝑛𝑞𝑢𝑒 𝑖≠j
𝑖
𝑗
, sono
incorrelati
La variabile esplicativa (o indipendente) X è una variabile deterministica di natura matematica
Il metodo correntemente utilizzato per stimare α e β è quello dei MINIMI QUADRATI, ossia le stime
di α e β devono essere scelte in modo tale che la somma dei quadrati delle distanze (scarti) verticali
delle osservazioni (x i
, y i
) dalla retta di regressione stimata sia minima.
(si considera la somma degli scarti al quadrato poiché alcuni scarti sono positivi, altri negativi)
Le distanze (scarti) verticali delle osservazioni (x i
, y i
) dalla retta di regressione stimata a + bx sono di
tipo: 𝑌 𝑖
− (𝛼 + 𝛽𝑥
𝑖
), per i = 1, …, n.
Dunque stimo i valori α e β prendendo i valori a e b che rendono minima
𝑖
− 𝑎 + 𝑏𝑥
𝑖
2
𝑛
𝑖= 1
Stimatori dei minimi quadrati di α e β
∑ (𝑦
𝑖
−𝑦̅ )𝑥
𝑖
𝑛
𝑖= 1
∑ ( 𝑥 𝑖
−𝑥
̅ ) 𝑥 𝑖
𝑛
𝑖= 1
oppure 𝛽
∑ ( 𝑥
𝑖
−𝑥̅
) 𝑦
𝑖
𝑛
𝑖= 1
∑ ( 𝑥 𝑖
−𝑥
̅ )
2
𝑛
𝑖= 1
𝑦
𝑖
y
𝛼 + 𝛽𝑥
𝑖
𝑦
𝑖
− (𝛼 + 𝛽𝑥
𝑖
)
(𝑥
𝑖
, 𝑦
𝑖
)
𝑥
𝑖
x
Il numeratore e il denominatore di 𝛽
si possono anche scrivere in modi diversi ma equivalenti (+
dimostrazione);
𝑥
𝑖
𝑦
𝑖
𝑛
𝑖= 1
𝑖
𝑖
𝑛
𝑖= 1
𝑖
𝑖
𝑛
𝑖= 1
𝑦
𝑖
𝑥
𝑖
𝑛
𝑖= 1
𝑥
𝑖
𝑥
𝑖
𝑛
𝑖= 1
𝑥
𝑖
2
𝑛
𝑖= 1
𝑥
𝑖
2
𝑛
𝑖= 1
2
CORRETTEZZA (+ dimostrazione)
LINEARITÀ (+ dimostrazione β); 𝛼̂ e 𝛽
sono stimatori lineari di Y 1
2
n
, ossia funzioni
lineari.
Var(𝛽
𝜎
2
∑ (𝑥
𝑖
−𝑥̅ )
2
𝑛
𝑖= 1
Var(𝛼̂ ) =𝜎
2
1
𝑛
𝑥̅
2
∑ ( 𝑥
𝑖
−𝑥̅
)
2
𝑛
𝑖= 1
𝛼̂ e 𝛽
sono dunque stimatori lineari, corretti di α e β con varianza minima.
α
In che modo Y è influenzato da X? Ossia in che misura la superficie dei punti vendita influenza il
volume delle vendite? Si deve costruire la retta di regressione di Y rispetto ad X.
Stimatori dei minimi quadrati di α e β
𝑖
𝑥
𝑖
𝑛
𝑖= 1
𝑥
𝑖
2
𝑛
𝑖= 1
2
2
Ciò significa che se aumento la superficie dei punti vendita di 1 m
2
, il volume delle vendite aumenta
in media di 1.39 migliaia di euro.
Ponendo 𝑦̂
𝑖
𝑖
, ossia valore di Y sulla retta di regressione stimata, i residui 𝑒
𝑖
sono dati da
𝑖
𝑖
𝑖
𝑖
𝑖
𝑖
𝑖
𝑖
(𝑝𝑒𝑟 𝑖 = 1 , … , 𝑛)
𝑖
𝑖
𝑖
𝑖
𝑖
𝑖
La somma dei residui è uguale a 0, ossia
∑ 𝑒
𝑖
𝑛
𝑖= 1
= 0 ; di conseguenza anche la media campionaria
dei residui, ossia 1 𝑛
⁄ ∑ 𝑒
𝑖
𝑛
𝑖= 1
, è = 0.
Se 𝑒
𝑖
𝑖
𝑖
𝑖
𝑖
, allora 0 = ∑ 𝑒
𝑖
𝑛
𝑖= 1
𝑖
𝑖
𝑛
𝑖= 1
𝑖
𝑛
𝑖= 1
𝑖
𝑛
𝑖= 1
Quindi
𝑖
𝑛
𝑖= 1
𝑖
𝑛
𝑖= 1
, ossia la somma dei valori di y osservati è uguale alla somma dei valori
di y stimati sulla retta di regressione (stimata).
𝑦
𝑖
y
𝑦̂
𝑖
= 𝛼̂ + 𝛽
̂
𝑥
𝑖
residuo
𝑒
𝑖
= 𝑦
𝑖
− (𝛼̂ + 𝛽
̂
𝑥
𝑖
)
(𝑥
𝑖
, 𝑦
𝑖
)
𝑥
𝑖
x
2
𝑖
𝑛 2
𝑖= 1
𝑖
2
𝑛
𝑖= 1
2
𝑖
𝑛 2
𝑖= 1
𝑖
2
𝑛
𝑖= 1
2
2
= 0 quando 𝛽
2
𝑖
𝑛 2
𝑖= 1
= 0, ossia quando 𝛽
= 0 (la retta di regressione è orizzontale).
2
= 1 quando
𝑖
𝑛 2
𝑖= 1
= 0, ossia quando 𝑦
𝑖
𝑖
per ogni 1, …, n; ciò significa che i valori 𝑦
𝑖
osservati sono allineati sulla retta di regressione.
In generale 𝑅
2
misura la BONTÀ DI ADATTAMENTO della retta di regressione stimata ai dati
osservati.
2
si può scrivere anche in un altro modo:
Poniamo
𝑥𝑦
𝑖
𝑖
𝑛
𝑖= 1
𝑖
𝑛 2
𝑖= 1
𝑖
𝑛 2
𝑖= 1
Si ha
𝑥𝑦
𝑖
2
𝑛
𝑖= 1
𝑖
2
𝑛
𝑖= 1
E quindi 𝑅
2
𝑥𝑦
2
2
2
𝑖
𝑛 2
𝑖= 1
𝑖
2
𝑛
𝑖= 1
𝑖
2
𝑖
𝑛 2
𝑖= 1
𝑛
𝑖= 1
𝑖
2
𝑛
𝑖= 1
𝑖
𝑛 2
𝑖= 1
𝑖
2
𝑛
𝑖= 1
Y = volume delle vendite = 1000 euro
X = superficie del punto vendita
𝑖
𝑛 2
𝑖= 1
= devianza residua = 70.
2
𝑖
2
𝑛
𝑖= 1
= devianza spiegata dalla regressione = 775.
𝑖
𝑛 2
𝑖= 1
= devianza totale = 846 (anche 70.38 + 775.62)
2
Intuitivamente si rifiuta l’ipotesi nulla se 𝛽
è “molto più grande” o “molto più piccolo” di 𝛽
0
; equivale
a dire che si rifiuta l’ipotesi nulla se
𝛽
̂
−𝛽
0
ES(𝛽
̂
)
è “molto grande” in positivo o “molto piccolo” in negativo,
cioè se:
0
0
Il valore di soglia c è determinato in modo tale che il test di ipotesi abbia livello di significatività
prefissato pari a α; dunque c è determinato in modo tale che:
Pr (|
0
0
Ma quando 𝐻 0
è vera, |
𝛽
̂
−𝛽
0
𝐸𝑆(𝛽
̂
)
| = 𝑇 ha distribuzione t di student con n-2 gradi di libertà, T n- 2.
Pr (|
0
0
𝑣𝑒𝑟𝑎) = Pr
𝑛− 2
= 2 Pr(𝑇
𝑛− 2
2 Pr(𝑇
𝑛− 2
𝑐) è la probabilità di errore di I specie, dunque deve essere uguale a α:
2 Pr(𝑇
𝑛− 2
𝑐) = 𝛼 → Pr(𝑇
𝑛− 2
Dunque c è il valore della distribuzione che si lascia a destra un’area di probabilità pari a 𝛼 2
𝑛− 2 ;𝛼/ 2
(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑡𝑜𝑟𝑒 è 𝑠𝑒𝑚𝑝𝑟𝑒 > 0 )
(𝑝𝑜𝑖𝑐ℎè 𝑖𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑡 𝑑𝑖 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 è 𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑐𝑎)
Quindi la regione critica sarà uguale a:
0
𝑛− 2 ;𝛼/ 2
Di conseguenza la regione di accettazione sarà uguale a:
0
𝑛− 2 ;𝛼/ 2
TEST SU α
Test con ipotesi nulla semplice contro alternativa bilaterale
0
: α = α
0
1
: α ≠ α
0
Ponendo ES
2
1
𝑛
𝑥
̅
2
∑ 𝑥
𝑖
2
−𝑛𝑥̅
2 𝑛
𝑖= 1
𝛼̂ −α
0
𝐸𝑆(𝛼̂ )
ha distribuzione t di
student con n-2 gradi di libertà, T n- 2.
Quindi la regione critica sarà uguale a:
|
𝛼̂ − α
0
| > 𝑡
𝑛− 2 ;𝛼/ 2
Di conseguenza la regione di accettazione sarà uguale a:
|
̂ − α
0
| ≤ 𝑡
𝑛− 2 ;𝛼/ 2
Test di ipotesi
0
: α = 0
1
: α ≠ 0
In questo caso Y è in media proporzionale a X.
Di conseguenza, la regione di rifiuto sarà:
𝑛− 2 ;𝛼/ 2
Oggetto di interesse: legame di interdipendenza tra X e Y viste in modo simmetrico.
Sia (X, Y) una variabile casuale bivariata con covarianza tra X e Y 𝜎
𝑥𝑦
𝑥
𝑦
)], con
varianza di X 𝜎 𝑥
2
𝑥
2
e varianza di Y 𝜎
𝑦
2
𝑦
2
; il coefficiente di correlazione
𝑥𝑦
𝜎
𝑥𝑦
𝜎
𝑥
𝜎
𝑦
𝑥𝑦
𝑥𝑦
Considerato un campione casuale, di numerosità n, della popolazione (X, Y), le n variabili casuali (𝑋
1
1
2
2
𝑛
𝑛
), saranno indipendenti e tutte con stessa distribuzione di probabilità, che è
anche uguale a quella della popolazione.
𝑥
2
𝑥
2
1
𝑛− 1
𝑖
2
𝑛
𝑖= 1
𝑌
2
𝑌
2
1
𝑛− 1
𝑖
𝑛 2
𝑖= 1
𝑥𝑦
(covarianza della popolazione) → 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎
𝑥𝑦
𝑖
𝑖
𝑛
𝑖= 1
𝑥𝑦
𝑥𝑦
𝑥𝑦
𝑥
𝑦
𝑖
𝑖
𝑛
𝑖= 1
𝑖
2
𝑛
𝑖= 1
𝑖
2
𝑛
𝑖= 1
𝑥𝑦
Può essere scritto anche come:
𝑥𝑦
𝑖
𝑖
𝑛
𝑖= 1
𝑖
2
2
𝑛
𝑖= 1
𝑖
2
2
𝑛
𝑖= 1
Nota: - 1 ≤ 𝑟 𝑥𝑦