










Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il concetto di regressione lineare e come calcolare i parametri della retta di regressione utilizzando il metodo dei minimi quadrati. Viene inoltre illustrata l'interpretazione dei risultati, compreso il coefficiente angolare, l'intercetta e la varianza residua.
Tipologia: Sintesi del corso
1 / 18
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











7 .1 Introduzione
Nella rilevazione congiunta di due variabili X e Y su n unità statistiche, l’eventuale relazione di
dipendenza fra X e Y può essere analizzata sia unilateralmente (quando si suppone che una variabile
influenza l’altra), sia bilateralmente (quando si suppone che le due variabili interagiscono fra loro).
Quando entrambe le variabili sono quantitative, il diagramma di dispersione consente di evidenziare il
tipo di legame esistente fra le variabili e di valutare approssimativamente l’intensità di tale legame.
Se si desidera analizzare il comportamento della Y al modificarsi dei valori assunti dalla X, l’analisi della
conformazione della nuvola dei punti può anche suggerire la famiglia delle possibili funzioni
matematiche che si adatta meglio ai dati, ossia il tipo di equazione che in corrispondenza dei diversi valori
della X (detta variabile esplicativa ) fornisce dei valori teorici che approssimano in modo soddisfacente i
valori osservati della variabile Y, detta variabile dipendente.
Figura 7.1. Rappresentazione dei dati riportati nella tabella 5.2.5 e di una retta passante per la nuvola dei punti
Nella figura 7.1.1, per esempio, è riportato lo scatter relativo ai valori del reddito e del consumo della
tabella 5.2.5 e il grafico di una retta che descrive in modo sintetico, ma abbastanza accurato, il tipo di
associazione esistente fra le due variabili. I punti dello scatter sono infatti distribuiti in modo irregolare
15
20
25
20 25 30 35
consumo
reddito
intorno a una retta, indicando che a incrementi di una variabile corrispondono, in media, incrementi
proporzionali dell'altra.
In questo caso l'uso di un modello lineare consente quindi di quantificare il tipo di relazione fra X e Y
perché fa corrispondere a un dato incremento x del reddito X un incremento y del consumo Y e le
ordinate della retta, calcolate in corrispondenza dei valori osservati xi di X, approssimano in modo
soddisfacente i corrispondenti valori yi della Y (per i = 1, 2, …, n ).
Un modello di questo tipo, quando risulta adeguato a descrivere sinteticamente il tipo di legame fra le due
variabili, consente di confrontare situazioni riferite a tempi o a luoghi diversi sulla base dei valori
dell’intercetta e del coefficiente angolare calcolati per le diverse situazioni.
La scelta del tipo di modello può essere effettuata analizzando la disposizione dei punti evidenziati dal
diagramma di dispersione, ma in genere questa scelta non è univoca, dato che esistono più funzioni
matematiche in grado di descrivere uno stesso insieme di dati. In altre situazioni reali le conoscenze e le
ipotesi sulla natura dei fenomeni studiati possono essere esplicitate in modo formale, in modo da
individuare il modello più adatto.
Nelle pagine seguenti la Y indicherà la variabile dipendente mentre la X indicherà la variabile esplicativa,
in accordo con la notazione usuale. Va però evidenziato che in alcuni casi i modelli teorici sono utilizzati
anche quando esiste una relazione di interdipendenza fra variabili, anziché di dipendenza unilaterale. In
ogni caso questi modelli teorici possono essere utilizzati per finalità diverse, che sono essenzialmente di
natura descrittiva, interpretativa o di previsione.
7 .2 Modelli teorici di regressione
Lo scopo dei modelli di regressione consiste nell’approssimare i valori assunti dalla Y sulle n unità
statistiche mediante il calcolo di una qualche funzione matematica in corrispondenza dei valori assunti
dalla X.
In pratica, quindi, le osservazioni y i della variabile Y saranno approssimate dai valori teorici
y ˆ i f x i
assunti dalla variabile
Yˆ^ f X ,
angolare, in modo da adattare il modello alla situazione reale, ossia in modo da individuare quella
particolare retta che descrive nel modo migliore la conformazione delle n coppie di valori effettivamente
rilevati.
7.3 Metodo dei minimi quadrati
La determinazione dei valori dell’intercetta e del coefficiente angolare della retta di regressione può
essere effettuata attraverso metodi diversi che possono dare origine a soluzioni diverse. Nelle pagine
successive si prenderà in considerazione solo uno dei possibili criteri, che è anche quello più
comunemente utilizzato.
Il metodo dei minimi quadrati consiste nel trovare quei particolari valori dei parametri del modello di
regressione per i quali risulta minima la somma dei quadrati delle differenze fra i valori osservati y i e i
la quantità
^
n
i
1
2
I valori teorici, stimati attraverso il modello di regressione lineare, sono dati da
yi xi
dove ^ ˆ e ^ ˆ rappresentano i valori assunti dai parametri e della retta di regressione per adattare il
modello ai valori effettivamente rilevati.
Nella figura 7.3.1, che mostra la differenza fra il valore osservato e il valore stimato della Y per la i - esima
i , ma è evidente che per un’unità statistica diversa questa differenza
potrebbe risultare negativa, se il valore osservato della Y si trovasse al di sotto della retta.
Dato che la retta dovrà attraversare la nuvola dei punti, ci saranno infatti sia differenze negative sia
differenze positive, e il metodo dei minimi quadrati consiste nel rendere minima la somma dei quadrati di
queste n differenze y i
Figura 7.3.
Esempio di retta di regressione
Sostituendo nella 7.3.1 i valori teorici 7.3.2, la funzione da rendere minima assume la forma
(^) (^)
n
i
i i
n
i
1
2
1
2
i e x i , date le n coppie di osservazioni, sono quantità fisse.
Il metodo dei minimi quadrati consiste quindi nel determinare quei particolari valori ^ ˆ e
i quali la funzione assume il suo valore minimo, ossia nel determinare i punti in cui si annullano le
yi
0 0
Y
X
n
i
i
n
i
i
n
i
i
n
i
i i
n
i
i i
n
i
i i
x x x
xy y x
x xx
y yx
β
1 1
2
1 1
1
.
Dividendo per 1/ n sia il numeratore sia il denominatore del termine a destra della precedente uguaglianza si ottiene
infine
2 2 2
11
1 1
2
1 1
x
xy
x
, n
i
i
n
i
i
n
i
i
n
i
i i
s
s
m x
m xy
x x x n
xy y x n β
.
I valori dei parametri della retta di regressione della Y sulla X ottenuti con il metodo dei minimi quadrati
risultano
2
x
xy
per cui l’intercetta, che fornisce il valore previsto della Y quando il regressore è uguale a 0, è pari alla
media della variabile dipendente meno il prodotto del coefficiente angolare della retta per la media della
variabile X, mentre il coefficiente angolare, che misura di quanto varia mediamente la variabile
dipendente al variare di una unità del regressore, è pari al rapporto fra la covarianza fra X e Y e la
varianza della X. La retta di regressione ha quindi un’inclinazione positiva o negativa a seconda che il
legame lineare fra X e Y è di tipo diretto oppure inverso.
L’espressione 7.3.2 consente stimare il valore previsto della variabile Y in corrispondenza di qualsiasi
valore della X, purché interno al suo campo di variazione, perché nulla assicura che la relazione resti
invariata anche per valori di X minori o maggiori di quelli effettivamente rilevati.
Il valore della Y stimato in corrispondenza della media della variabile X è pari al valore
yˆ
che, in base alla proprietà della media di una trasformazione lineare, corrisponde anche alla media di Y
y .
La retta di regressione della Y sulla X passa quindi per il punto avente per coordinate il valore medio
delle due variabili, dove tale punto viene comunemente detto baricentro.
Esempio 7.3.
Considerate le coppie di osservazioni dell’esempio 6.5. 1 si disegni il diagramma di dispersione e si determini
l’equazione della retta di regressione della Y sulla X. Si stimi infine il valore teorico della variabile Y in
corrispondenza di x=70.
Il diagramma di dispersione assume la forma seguente, dalla quale si nota come la relazione fra le due variabili può
essere approssimata da una retta con un coefficiente angolare positivo.
In base ai risultati già ottenuti nell’esercizio 6.5.1, riportati qui di seguito,
x 47.375 m 2 x
2
y 144.
m 1, = 7308.875 sxy 486_._ 875
i valori dei parametri della retta di regressione risultano
Il valore stimato della pressione per un’età pari a 70 anni risulta quindi
yˆ^ 77_._ 3331 1_._ 4072 70 175_._ 8371
100
110
120
130
140
150
160
170
180
190
200
210
220
20 30 40 50 60 70 80 90
pressione
età
Esempio 7.3.
Data la seguente distribuzione doppia, calcolare i parametri della retta di regressione della Y sulla X e stimare il
valore teorico di Y per x=1 e x=
X\Y 0 1 2 0 20 10 0 30 2 0 30 10 40 4 0 0 30 30 20 40 40 100
Dai dati riportati nella tabella si ottiene
x 2 m 2 x
2 sx .
y 1.
m 1, = 3. 4 sxy 1
I parametri della retta di regressione sono quindi
Dato il modello di regressione della Y sulla X
Yˆ^ 0_._ 36 0_._ 416 X
i valori stimati della variabile dipendente assumono i valori:
per x =1 yˆ 0_._ 36 0_._ 416 1 0.78 3
per x =3 yˆ^ 0_._ 36 0_._ 416 3 1_._ 616
L’applicazione del metodo dei minimi quadrati non dà la garanzia che il modello lineare ottenuto sia
adeguato a descrivere in modo soddisfacente la relazione fra le variabili in esame. Questa informazione è
invece fornita dal valore di rxy che misura la bontà del modello lineare e consente quindi di valutare
l’attendibilità delle valutazioni (o delle previsioni) che si possono ottenere utilizzando tale modello.
Tuttavia, in genere, la bontà di adattamento dei modelli di regressione viene misurata mediante un altro
indice, legato al coefficiente di correlazione lineare, che è descritto nel paragrafo successivo.
Nota
Tutto quello che è stato detto a proposito della retta di regressione della Y sulla X può essere ripetuto, con le
opportune modifiche, a proposito della retta di regressione della X sulla Y.
7.4 Misura della bontà di adattamento
Dai risultati 7.3.5 e 7.3.6 ottenuti nel paragrafo precedente, risulta che la retta di regressione della Y sulla
X può essere posta nella forma seguente
(^) x
x
xy
x
xy
x
xy
2 2 2
o anche, tenendo presente la formula 6.5.1 dalla quale si ottiene l’uguaglianza
sxy rxysxsy , (^) 7.4.
nella forma equivalente
x
x
y
Da quest’ultima espressione si nota che il coefficiente angolare della retta assume lo stesso segno del
coefficiente di correlazione lineare, che assume un valore positivo o negativo a seconda che le variabili
siano concordanti o discordanti. Se rxy è nullo, invece, la variabile Y stimata sotto ipotesi di linearità
assume la forma
per cui i valori stimati risultano tutti uguali fra di loro, quale che sia il valore della X, e uguali alla media
della Y. In questo caso il modello lineare risulta del tutto inutile per descrivere l’eventuale legame fra le
variabili X e Y.
In tutti gli altri casi la retta dei minimi quadrati associa a ognuno degli n valori originari y i un valore
teorico che è una funzione lineare della variabile X
x x
x
y
La varianza della variabile dipendente può essere scissa nella somma della varianza spiegata sotto ipotesi
di linearità
2
2
Dimostrazione
2
risulta
^ ^
n
i
e y i i i
n
i
i i i
n
i
i
n
i
i i
n
i
i i i
n
i
y i
y y y y n
s s
y y y y n
y y n
y y n
y y y y n
y y n
s
1
2 ˆ
2
1 1
2
1
2
1
2
1
2 2
7.4.
dove il doppio prodotto è pari a zero.
Infatti, in base alla 7.4.4, risultano verificate le seguenti uguaglianze
x x s
s x x y y r s
s y y y y r i x
y i i xy x
y i i i xy
x x s
s y y r i x
y ˆ i xy 7.4.
per cui, il doppio prodotto della 7.4.6 può essere scritto nella forma seguente
2
2
2
2 2 22
2
1 1
2
2
1 1
x
xy
x
xy x x y
xy xy x
y
xy
xy
n
i
n
i
i x
y i i xy x
y xy
n
i
i x
y i xy x
y i xy
n
i
i i i
s
s
s
s s ss
s s s
s
ss
s
x x s n
s y y x x r s n
s r
x x s
s x x r s
s y y r n
y y y y n
La scomposizione della varianza complessiva della Y nella varianza dei valori teorici più la varianza dei
residui
2 2 ˆ
2 s (^) y sy se 7.4.
rappresenta la cosiddetta scomposizione della varianza sotto ipotesi di linearità, dato che
2 s yˆ rappresenta
la parte di variabilità della Y che viene spiegata dal modello di regressione, mentre
2
variabilità degli errori di previsione.
Nella successiva figura 7.4.1 si nota come il valore della varianza residua corrisponde alla media dei
quadrati degli scarti di tipo AB, fra valori osservati e valori teorici, mentre la varianza della Y è la media
dei quadrati degli scarti di tipo AC, fra valori osservati e la media della Y.
Il criterio dei minimi quadrati equivale a individuare i parametri della retta che rende minimo il valore
della varianza residua.
Figura 7.4. Esempio di retta di regressione
È evidente che la varianza residua
2
dispersione sono esattamente allineati, ossia se fra le due variabili esiste una perfetta correlazione lineare.
In questo caso è evidente che
2 ˆ
2 s (^) y sy per cui la varianza dei valori osservati coincide con la varianza dei
valori teorici.
Il valore massimo della varianza residua, pari a
2 s y , si ha invece quando il coefficiente della retta di
regressione è parallela all’asse delle ascisse. In questo caso si ha assenza di correlazione lineare, dato che
1
C
mx
my
A
B
0 0
Y
X
che corrisponde al quadrato del coefficiente di correlazione lineare.
Dato che, come si è dimostrato in precedenza, il coefficiente di correlazione lineare assume valori
compresi nell’intervallo [-1, +1], il coefficiente di determinazione lineare è ovviamente compreso
nell’intervallo [0, 1]. Se vale 0 si ha assenza di correlazione lineare fra X e Y, mentre se è pari a 1 fra le
due variabili esiste una relazione lineare perfetta (diretta o inversa).
Esempio 7.4.
Date le seguenti coppie di osservazioni (x i , y i ) relative alle variabili X e Y rilevate su 5 individui
(-3, - 4) (-1, - 3) (1, 1) (1, 3) (2, 6)
disegnare lo scatter, determinare l’equazione della retta di regressione della Y sulla X e stimare il valore teorico di Y
per X=0. Calcolare infine il valore del coefficiente di correlazione lineare e del coefficiente di determinazione
lineare.
x 0 m 2 x
2 sx .
y 0.
m 1, = sxy 6_._ 2
I parametri della retta di regressione sono quindi
Dato il modello di regressione della Y sulla X
Yˆ^ 0_._ 6 1_._ 9375 X
il valore stimato della variabile dipendente per X = 0 è (^) yˆ (^) 0_._ 6.
Risulta inoltre
m 2 y
2 2 sy . . .
0
2
4
6
-3 -2 -1 0 1 2
Y
X
per cui
rxy
2 2 .
..
Rxy
Si può quindi concludere che per la collettività esaminata l'87% circa della variabilità totale della Y dipende, o viene
spiegata, dalla relazione lineare con la X.
Esempio 7.4.
Data la seguente distribuzione doppia determinare l’equazione della retta di regressione della Y sulla X e calcolare il
coefficiente di determinazione lineare
X\Y (^0) 3 3 5 5 10
0 0. 15 0. 12 0.03 0. 30 2 0. 25 0. 20 0.05 0. 50 4 0. 10 0. 08 0. 02 0. 20
Le variabili risultano indipendenti in senso assoluto, pertanto la loro covarianza è pari a zero. Questo implica che il
coefficiente angolare della retta di regressione e il coefficiente di correlazione lineare sono entrambi nulli. La retta di
regressione della Y sulla X è parallela quindi all’asse delle ascisse e la sua equazione risulta
Yˆ y 3.
Esempio 7.4.
Data la seguente distribuzione doppia calcolare il coefficiente di determinazione lineare fra le due variabili
X\Y 0 1 2
Dai dati riportati nella tabella si ottiene
x 0.2 m 2 x = 0.6^056
2 sx .
y 1 .3 m 2 y
2 sy .
m 1, = 0.7 sxy 0_._ 44
2 2 .
..
Rxy