Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi della regressione lineare: calcolo dei parametri e interpretazione dei risultati, Sintesi del corso di Statistica Sociale

Il concetto di regressione lineare e come calcolare i parametri della retta di regressione utilizzando il metodo dei minimi quadrati. Viene inoltre illustrata l'interpretazione dei risultati, compreso il coefficiente angolare, l'intercetta e la varianza residua.

Tipologia: Sintesi del corso

2017/2018

Caricato il 05/10/2018

Deborah106
Deborah106 🇮🇹

4 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
116
7. REGRESSIONE LINEARE
7.1 Introduzione
Nella rilevazione congiunta di due variabili X e Y su n unità statistiche, l’eventuale relazione di
dipendenza fra X e Y può essere analizzata sia unilateralmente (quando si suppone che una variabile
influenza l’altra), sia bilateralmente (quando si suppone che le due variabili interagiscono fra loro).
Quando entrambe le variabili sono quantitative, il diagramma di dispersione consente di evidenziare il
tipo di legame esistente fra le variabili e di valutare approssimativamente l’intensità di tale legame.
Se si desidera analizzare il comportamento della Y al modificarsi dei valori assunti dalla X, l’analisi della
conformazione della nuvola dei punti può anche suggerire la famiglia delle possibili funzioni
matematiche che si adatta meglio ai dati, ossia il tipo di equazione che in corrispondenza dei diversi valori
della X (detta variabile esplicativa) fornisce dei valori teorici che approssimano in modo soddisfacente i
valori osservati della variabile Y, detta variabile dipendente.
Figura 7.1.1
Rappresentazione dei dati riportati nella tabella 5.2.5 e di una retta passante per la nuvola dei punti
Nella figura 7.1.1, per esempio, è riportato lo scatter relativo ai valori del reddito e del consumo della
tabella 5.2.5 e il grafico di una retta che descrive in modo sintetico, ma abbastanza accurato, il tipo di
associazione esistente fra le due variabili. I punti dello scatter sono infatti distribuiti in modo irregolare
15
20
25
20 25 30 35
consumo
reddito
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica Analisi della regressione lineare: calcolo dei parametri e interpretazione dei risultati e più Sintesi del corso in PDF di Statistica Sociale solo su Docsity!

7. REGRESSIONE LINEARE

7 .1 Introduzione

Nella rilevazione congiunta di due variabili X e Y su n unità statistiche, l’eventuale relazione di

dipendenza fra X e Y può essere analizzata sia unilateralmente (quando si suppone che una variabile

influenza l’altra), sia bilateralmente (quando si suppone che le due variabili interagiscono fra loro).

Quando entrambe le variabili sono quantitative, il diagramma di dispersione consente di evidenziare il

tipo di legame esistente fra le variabili e di valutare approssimativamente l’intensità di tale legame.

Se si desidera analizzare il comportamento della Y al modificarsi dei valori assunti dalla X, l’analisi della

conformazione della nuvola dei punti può anche suggerire la famiglia delle possibili funzioni

matematiche che si adatta meglio ai dati, ossia il tipo di equazione che in corrispondenza dei diversi valori

della X (detta variabile esplicativa ) fornisce dei valori teorici che approssimano in modo soddisfacente i

valori osservati della variabile Y, detta variabile dipendente.

Figura 7.1. Rappresentazione dei dati riportati nella tabella 5.2.5 e di una retta passante per la nuvola dei punti

Nella figura 7.1.1, per esempio, è riportato lo scatter relativo ai valori del reddito e del consumo della

tabella 5.2.5 e il grafico di una retta che descrive in modo sintetico, ma abbastanza accurato, il tipo di

associazione esistente fra le due variabili. I punti dello scatter sono infatti distribuiti in modo irregolare

15

20

25

20 25 30 35

consumo

reddito

intorno a una retta, indicando che a incrementi di una variabile corrispondono, in media, incrementi

proporzionali dell'altra.

In questo caso l'uso di un modello lineare consente quindi di quantificare il tipo di relazione fra X e Y

perché fa corrispondere a un dato incremento  x del reddito X un incremento  y del consumo Y e le

ordinate della retta, calcolate in corrispondenza dei valori osservati xi di X, approssimano in modo

soddisfacente i corrispondenti valori yi della Y (per i = 1, 2, …, n ).

Un modello di questo tipo, quando risulta adeguato a descrivere sinteticamente il tipo di legame fra le due

variabili, consente di confrontare situazioni riferite a tempi o a luoghi diversi sulla base dei valori

dell’intercetta e del coefficiente angolare calcolati per le diverse situazioni.

La scelta del tipo di modello può essere effettuata analizzando la disposizione dei punti evidenziati dal

diagramma di dispersione, ma in genere questa scelta non è univoca, dato che esistono più funzioni

matematiche in grado di descrivere uno stesso insieme di dati. In altre situazioni reali le conoscenze e le

ipotesi sulla natura dei fenomeni studiati possono essere esplicitate in modo formale, in modo da

individuare il modello più adatto.

Nelle pagine seguenti la Y indicherà la variabile dipendente mentre la X indicherà la variabile esplicativa,

in accordo con la notazione usuale. Va però evidenziato che in alcuni casi i modelli teorici sono utilizzati

anche quando esiste una relazione di interdipendenza fra variabili, anziché di dipendenza unilaterale. In

ogni caso questi modelli teorici possono essere utilizzati per finalità diverse, che sono essenzialmente di

natura descrittiva, interpretativa o di previsione.

7 .2 Modelli teorici di regressione

Lo scopo dei modelli di regressione consiste nell’approssimare i valori assunti dalla Y sulle n unità

statistiche mediante il calcolo di una qualche funzione matematica in corrispondenza dei valori assunti

dalla X.

In pratica, quindi, le osservazioni y i della variabile Y saranno approssimate dai valori teorici

y ˆ ifx i

assunti dalla variabile

^  f  X ,

dove occorre calcolare il valore dei due parametri  e  corrispondenti all’intercetta e al coefficiente

angolare, in modo da adattare il modello alla situazione reale, ossia in modo da individuare quella

particolare retta che descrive nel modo migliore la conformazione delle n coppie di valori effettivamente

rilevati.

7.3 Metodo dei minimi quadrati

La determinazione dei valori dell’intercetta e del coefficiente angolare della retta di regressione può

essere effettuata attraverso metodi diversi che possono dare origine a soluzioni diverse. Nelle pagine

successive si prenderà in considerazione solo uno dei possibili criteri, che è anche quello più

comunemente utilizzato.

Il metodo dei minimi quadrati consiste nel trovare quei particolari valori dei parametri del modello di

regressione per i quali risulta minima la somma dei quadrati delle differenze fra i valori osservati y i e i

corrispondenti valori teorici y ˆ i , stimati mediante il modello matematico, per cui si vuole rendere minima

la quantità

^  

n

i

yi yi

1

2

I valori teorici, stimati attraverso il modello di regressione lineare, sono dati da

yi   xi

ˆ ˆ^ ˆ ( i = 1, 2, …, n ) 7.3.

dove ^ ˆ e ^ ˆ rappresentano i valori assunti dai parametri  e  della retta di regressione per adattare il

modello ai valori effettivamente rilevati.

Nella figura 7.3.1, che mostra la differenza fra il valore osservato e il valore stimato della Y per la i - esima

osservazione, y ˆ i risulta minore di y

i , ma è evidente che per un’unità statistica diversa questa differenza

potrebbe risultare negativa, se il valore osservato della Y si trovasse al di sotto della retta.

Dato che la retta dovrà attraversare la nuvola dei punti, ci saranno infatti sia differenze negative sia

differenze positive, e il metodo dei minimi quadrati consiste nel rendere minima la somma dei quadrati di

queste n differenze y i

  • (^) yˆi.

Figura 7.3.

Esempio di retta di regressione

Sostituendo nella 7.3.1 i valori teorici 7.3.2, la funzione da rendere minima assume la forma

  (^)   (^)  

 

n

i

i i

n

i

τα,β yi yi y α βx

1

2

1

2

funzione delle variabili  e , perché i valori y

i e x i , date le n coppie di osservazioni, sono quantità fisse.

Il metodo dei minimi quadrati consiste quindi nel determinare quei particolari valori ^ ˆ e

di  e  per

i quali la funzione assume il suo valore minimo, ossia nel determinare i punti in cui si annullano le

derivate parziali della 7.3.3 rispetto a  e a .

yi

0 0

Y

X

 

   

 

 

 

n

i

i

n

i

i

n

i

i

n

i

i i

n

i

i i

n

i

i i

x x x

xy y x

x xx

y yx

β

1 1

2

1 1

1

ˆ^1

.

Dividendo per 1/ n sia il numeratore sia il denominatore del termine a destra della precedente uguaglianza si ottiene

infine

2 2 2

11

1 1

2

1 1

x

xy

x

, n

i

i

n

i

i

n

i

i

n

i

i i

s

s

m x

m xy

x x x n

xy y x n β  

 

 

 

  .

I valori dei parametri della retta di regressione della Y sulla X ottenuti con il metodo dei minimi quadrati

risultano

α ˆ  y  β ˆ x 7.3.

2

x

xy

s

s

per cui l’intercetta, che fornisce il valore previsto della Y quando il regressore è uguale a 0, è pari alla

media della variabile dipendente meno il prodotto del coefficiente angolare della retta per la media della

variabile X, mentre il coefficiente angolare, che misura di quanto varia mediamente la variabile

dipendente al variare di una unità del regressore, è pari al rapporto fra la covarianza fra X e Y e la

varianza della X. La retta di regressione ha quindi un’inclinazione positiva o negativa a seconda che il

legame lineare fra X e Y è di tipo diretto oppure inverso.

L’espressione 7.3.2 consente stimare il valore previsto della variabile Y in corrispondenza di qualsiasi

valore della X, purché interno al suo campo di variazione, perché nulla assicura che la relazione resti

invariata anche per valori di X minori o maggiori di quelli effettivamente rilevati.

Il valore della Y stimato in corrispondenza della media della variabile X è pari al valore

x

 

che, in base alla proprietà della media di una trasformazione lineare, corrisponde anche alla media di Y

x

y  .

La retta di regressione della Y sulla X passa quindi per il punto avente per coordinate il valore medio

delle due variabili, dove tale punto viene comunemente detto baricentro.

Esempio 7.3.

Considerate le coppie di osservazioni dell’esempio 6.5. 1 si disegni il diagramma di dispersione e si determini

l’equazione della retta di regressione della Y sulla X. Si stimi infine il valore teorico della variabile Y in

corrispondenza di x=70.

Il diagramma di dispersione assume la forma seguente, dalla quale si nota come la relazione fra le due variabili può

essere approssimata da una retta con un coefficiente angolare positivo.

In base ai risultati già ottenuti nell’esercizio 6.5.1, riportati qui di seguito,

x  47.375 m 2 x

= 2590.375^345984375

2

sx .

y  144.

m 1, = 7308.875 sxy  486_._ 875

i valori dei parametri della retta di regressione risultano

 ˆ^   

Il valore stimato della pressione per un’età pari a 70 anni risulta quindi

^  77_._ 3331  1_._ 4072  70  175_._ 8371

100

110

120

130

140

150

160

170

180

190

200

210

220

20 30 40 50 60 70 80 90

pressione

età

Esempio 7.3.

Data la seguente distribuzione doppia, calcolare i parametri della retta di regressione della Y sulla X e stimare il

valore teorico di Y per x=1 e x=

X\Y 0 1 2 0 20 10 0 30 2 0 30 10 40 4 0 0 30 30 20 40 40 100

Dai dati riportati nella tabella si ottiene

x  2 m 2 x

2 sx.

y  1.

m 1, = 3. 4 sxy  1

I parametri della retta di regressione sono quindi

^ ˆ^  

 ˆ^  1. 2  0. 416  2  0. 36

Dato il modello di regressione della Y sulla X

^  0_._ 36  0_._ 416 X

i valori stimati della variabile dipendente assumono i valori:

per x =1  0_._ 36  0_._ 416  1 0.78 3

per x =3 ^  0_._ 36  0_._ 416  3  1_._ 616

L’applicazione del metodo dei minimi quadrati non dà la garanzia che il modello lineare ottenuto sia

adeguato a descrivere in modo soddisfacente la relazione fra le variabili in esame. Questa informazione è

invece fornita dal valore di rxy che misura la bontà del modello lineare e consente quindi di valutare

l’attendibilità delle valutazioni (o delle previsioni) che si possono ottenere utilizzando tale modello.

Tuttavia, in genere, la bontà di adattamento dei modelli di regressione viene misurata mediante un altro

indice, legato al coefficiente di correlazione lineare, che è descritto nel paragrafo successivo.

Nota

Tutto quello che è stato detto a proposito della retta di regressione della Y sulla X può essere ripetuto, con le

opportune modifiche, a proposito della retta di regressione della X sulla Y.

7.4 Misura della bontà di adattamento

Dai risultati 7.3.5 e 7.3.6 ottenuti nel paragrafo precedente, risulta che la retta di regressione della Y sulla

X può essere posta nella forma seguente

 (^) x

s

s

y

s

s

x

s

s

Y y

x

xy

x

xy

x

xy

   X   X

2 2 2

o anche, tenendo presente la formula 6.5.1 dalla quale si ottiene l’uguaglianza

sxyrxysxsy , (^) 7.4.

nella forma equivalente

x

s

s

Yˆ y r

x

y

  xy X. 7.4.

Da quest’ultima espressione si nota che il coefficiente angolare della retta assume lo stesso segno del

coefficiente di correlazione lineare, che assume un valore positivo o negativo a seconda che le variabili

siano concordanti o discordanti. Se rxy è nullo, invece, la variabile Y stimata sotto ipotesi di linearità

assume la forma

Y y

per cui i valori stimati risultano tutti uguali fra di loro, quale che sia il valore della X, e uguali alla media

della Y. In questo caso il modello lineare risulta del tutto inutile per descrivere l’eventuale legame fra le

variabili X e Y.

In tutti gli altri casi la retta dei minimi quadrati associa a ognuno degli n valori originari y i un valore

teorico che è una funzione lineare della variabile X

x x

s

s

y y r i

x

y

i   xy 

La varianza della variabile dipendente può essere scissa nella somma della varianza spiegata sotto ipotesi

di linearità

2

s yˆ più la varianza residua

2

s e.

Dimostrazione

Aggiungendo e sottraendo i valori teorici yˆi nella formula della

2

s y e sviluppando poi l’espressione così ottenuta,

risulta

     

      

^ ^ 

  

 

  

 

n

i

e y i i i

n

i

i i i

n

i

i

n

i

i i

n

i

i i i

n

i

y i

y y y y n

s s

y y y y n

y y n

y y n

y y y y n

y y n

s

1

2 ˆ

2

1 1

2

1

2

1

2

1

2 2

7.4.

dove il doppio prodotto è pari a zero.

Infatti, in base alla 7.4.4, risultano verificate le seguenti uguaglianze

       x xs

s x x y y r s

s y y y y r i x

y i i xy x

y i i i xy     

   x xs

s y y r i x

y ˆ i   xy  7.4.

per cui, il doppio prodotto della 7.4.6 può essere scritto nella forma seguente

        

    

2

2

2

2 2 22

2

1 1

2

2

1 1

 

 

 

 

x

xy

x

xy x x y

xy xy x

y

xy

xy

n

i

n

i

i x

y i i xy x

y xy

n

i

i x

y i xy x

y i xy

n

i

i i i

s

s

s

s s ss

s s s

s

ss

s

x x s n

s y y x x r s n

s r

x x s

s x x r s

s y y r n

y y y y n

La scomposizione della varianza complessiva della Y nella varianza dei valori teorici più la varianza dei

residui

2 2 ˆ

2 s (^) ysyse 7.4.

rappresenta la cosiddetta scomposizione della varianza sotto ipotesi di linearità, dato che

2 s yˆ rappresenta

la parte di variabilità della Y che viene spiegata dal modello di regressione, mentre

2

s e rappresenta la

variabilità degli errori di previsione.

Nella successiva figura 7.4.1 si nota come il valore della varianza residua corrisponde alla media dei

quadrati degli scarti di tipo AB, fra valori osservati e valori teorici, mentre la varianza della Y è la media

dei quadrati degli scarti di tipo AC, fra valori osservati e la media della Y.

Il criterio dei minimi quadrati equivale a individuare i parametri della retta che rende minimo il valore

della varianza residua.

Figura 7.4. Esempio di retta di regressione

È evidente che la varianza residua

2

s e risulta uguale a zero se e solo se tutti i punti del diagramma di

dispersione sono esattamente allineati, ossia se fra le due variabili esiste una perfetta correlazione lineare.

In questo caso è evidente che

2 ˆ

2 s (^) ysy per cui la varianza dei valori osservati coincide con la varianza dei

valori teorici.

Il valore massimo della varianza residua, pari a

2 s y , si ha invece quando il coefficiente della retta di

regressione è uguale a zero e cioè quando i valori stimati sono tutti uguali a y , per cui la retta di

regressione è parallela all’asse delle ascisse. In questo caso si ha assenza di correlazione lineare, dato che

1

C

mx

my

A

B

0 0

Y

X

che corrisponde al quadrato del coefficiente di correlazione lineare.

Dato che, come si è dimostrato in precedenza, il coefficiente di correlazione lineare assume valori

compresi nell’intervallo [-1, +1], il coefficiente di determinazione lineare è ovviamente compreso

nell’intervallo [0, 1]. Se vale 0 si ha assenza di correlazione lineare fra X e Y, mentre se è pari a 1 fra le

due variabili esiste una relazione lineare perfetta (diretta o inversa).

Esempio 7.4.

Date le seguenti coppie di osservazioni (x i , y i ) relative alle variabili X e Y rilevate su 5 individui

(-3, - 4) (-1, - 3) (1, 1) (1, 3) (2, 6)

disegnare lo scatter, determinare l’equazione della retta di regressione della Y sulla X e stimare il valore teorico di Y

per X=0. Calcolare infine il valore del coefficiente di correlazione lineare e del coefficiente di determinazione

lineare.

x  0 m 2 x

2 sx.

y  0.

m 1, = sxy  6_._ 2

I parametri della retta di regressione sono quindi

 ˆ^  

 ˆ^  0. 6  1. 9375  0  0. 6

Dato il modello di regressione della Y sulla X

^  0_._ 6  1_._ 9375 X

il valore stimato della variabile dipendente per X = 0 è (^) (^)  0_._ 6.

Risulta inoltre

m 2 y

2 2 sy...

0

2

4

6

-3 -2 -1 0 1 2

Y

X

per cui

rxy  

2 2 .

..

Rxy  

Si può quindi concludere che per la collettività esaminata l'87% circa della variabilità totale della Y dipende, o viene

spiegata, dalla relazione lineare con la X.

Esempio 7.4.

Data la seguente distribuzione doppia determinare l’equazione della retta di regressione della Y sulla X e calcolare il

coefficiente di determinazione lineare

X\Y (^0)  3 3  5 5  10

0 0. 15 0. 12 0.03 0. 30 2 0. 25 0. 20 0.05 0. 50 4 0. 10 0. 08 0. 02 0. 20

  1. 50 0. 40 0. 10 1. 00

Le variabili risultano indipendenti in senso assoluto, pertanto la loro covarianza è pari a zero. Questo implica che il

coefficiente angolare della retta di regressione e il coefficiente di correlazione lineare sono entrambi nulli. La retta di

regressione della Y sulla X è parallela quindi all’asse delle ascisse e la sua equazione risulta

y 3.

Esempio 7.4.

Data la seguente distribuzione doppia calcolare il coefficiente di determinazione lineare fra le due variabili

X\Y 0 1 2

  • 1,5 -0,5 40 0 0 40
  • 0,5  0,5 0 40 40 80 0,5  1,5 0 20 60 80 40 60 100 200

Dai dati riportati nella tabella si ottiene

x  0.2 m 2 x = 0.6^056

2 sx.

y  1 .3 m 2 y

2 sy.

m 1, = 0.7 sxy  0_._ 44

2 2 .

..

Rxy  