Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione e retta di interpolazione, Dispense di Statistica

Regressione, retta di interpolazione. Corso di Economia

Tipologia: Dispense

2019/2020

Caricato il 27/04/2020

samuel-dell-erario-1
samuel-dell-erario-1 🇮🇹

1 documento

1 / 28

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
La regressione lineare (semplice)
Finora abbiamo visto come si può interpolare una
nuvola di punti mediante una retta, al fine di
descrivere l’andamento di Y rispetto a X e allo
scopo di “prevedere” (o stimare) il valore di Y in
corrispondenza di un dato valore di X.
Adesso, ci serviremo della retta dei minimi quadrati
(m.q.) per studiare e misurare la relazione lineare
tra due caratteri X e Y, sapendo (o supponendo) a
priori che sia X a influenzare Y e non viceversa.
26
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Anteprima parziale del testo

Scarica Regressione e retta di interpolazione e più Dispense in PDF di Statistica solo su Docsity!

La regressione lineare (semplice)

  • Finora abbiamo visto come si può interpolare una

nuvola di punti mediante una retta, al fine di

descrivere l’andamento di Y rispetto a X e allo

scopo di “prevedere” (o stimare) il valore di Y in

corrispondenza di un dato valore di X.

  • Adesso, ci serviremo della retta dei minimi quadrati

(m.q.) per studiare e misurare la relazione lineare

tra due caratteri X e Y, sapendo (o supponendo) a

priori che sia X a influenzare Y e non viceversa.

Le relazioni tra caratteri quantitativi possono essere di tipo

deterministico o di tipo statistico.

Relazioni deterministiche. Due variabili X e Y sono legate

da una relazione deterministica (o funzionale) se, scelto

un valore di X, il valore di Y risulta univocamente

determinato. In altre parole, quando ad ogni dato valore

di X corrisponde uno e un solo valore di Y.

Una relazione deterministica implica una dipendenza

perfetta di Y da X, in quanto la conoscenza del valore

assunto dalla X consente di ‘prevedere’ con certezza il

valore di Y.

Relazione tra due caratteri quantitativi

Supponiamo di voler studiare la relazione fra le spese

pubblicitarie (X) sostenute da un collettivo di aziende e i loro

profitti (Y).

Ci si aspetta che esista una relazione positiva fra le due variabili,

ma non potrà accadere che una data cifra x spesa per la

pubblicità determini un unico valore y per il profitto.

Infatti ci sono altri fattori, oltre alla pubblicità, che concorrono a

determinare il profitto, quali il tipo di prodotto, il luogo in cui si

produce o si vende, le abilità imprenditoriali, ecc.

Supponiamo di effettuare il nostro studio su N aziende per

ciascuna delle quali si conoscono i valori assunti dalle due

variabili. In concreto si avranno N coppie di valori:

Relazioni statistiche

(x

1

,y

1

); (x

2

,y

2

); ... (x

N

,y

N

)

E’ possibile notare che le due variabili sono in relazione, in

quanto i punti sul grafico possono essere descritti da una retta

interpolante.

Tuttavia ad ogni valore x di spesa pubblicitaria può

corrispondere anche più di un livello y di profitto.

Esempio di relazione statististica

Esempio riadattato da Pelosi e Sandifer

Ÿ

Ÿ

Ÿ

Ÿ

Ÿ

Ÿ

Si vede come, al

crescere dell’età,

tenda a crescere

anche l’altezza

(relazione

positiva),

seguendo un

andamento di tipo

lineare.

110

115

120

125

130

135

140

145

150

155

5 6 7 8 9 10 11 12 13

Età (anni)

A

l

t

e

z

z

a

(

c

m

)

esempio 1

Riportando i valori su un diagramma di

dispersione otterremo il seguente

grafico:

Riportando i valori delle due variabili in un diagramma a

punti otteniamo il seguente grafico:

Riempite da

voi la tabella

con gli altri

risultati

parziali

Andiamo a calcolare I parametri della retta dei minimi quadrati:

X = 8 , 7 , Y = 132 , 3

Sogg.

1 -2,7 7,29 -17,3 46,

2 3 4 5 6 7 8 9

10 3,3 10,85 18,7 61,

Totale 42,31 212,

XX

( XX )

2

YY

( XX )( YY )

  • I due grafici della pagina successiva riportano due

“scatter” caratterizzati dalla medesima retta

ottima dei m.q.

  • D’altra parte vi sono evidenti differenze. Quali?
  • Come possiamo confrontare i due scatter?

Misura della "bontà" dell'adattamento:

l'indice R

2

y = 0,224x + 1,

0

1

2

3

4

5

0 2 4 6 8 10 12

y = 0,224x + 1,

0

1

2

3

4

5

0 2 4 6 8 10 12

Qui i punti

sono più

distanti dalla

retta

(maggiore

variabilità della Y)

Qui i punti

sono più

vicini alla

retta

(minore variabilità

della Y)

In entrambi i

casi, la retta

disegnata è

quella che si

adatta

meglio alla

situazione

specifica

Stessa variabilità della X, ma

diversa variabilità della Y

Scomposizione della devianza di Y

Elevando al quadrato i termini della precedente uguaglianza

e sommando membro a membro (per i = 1,…, N), dopo

alcuni passaggi si ottiene il seguente risultato:

Devianza Totale

della Y

( ) ( ) ( )

∑ ∑ ∑

= = =

− = − + −

N

i

i i

N

i

i

N

i

i

y y y y y y

1

2

1

2

1

2

ˆ ˆ

Quota di Devianza

di Y Spiegata dalla

X (tramite il

modello)

Quota di Devianza di Y

Residua (non spiegata

dal modello)

39

Osserviamo cosa succede in due situazioni estreme.

1. Se la devianza spiegata è nulla, significa che la retta dei m.q.

è orizzontale e coincide con

Infatti,

In tal caso, la X non influenza la Y à assenza di dipendenza

lineare.

2. Se è nulla la devianza residua, significa che tutti i punti

giacciono sulla retta:

e pertanto vi è perfetta dipendenza lineare di Y da X

Devianza Totale

( ) ( ) ( )

∑ ∑ ∑

= = =

− = − + −

N

i

i i

N

i

i

N

i

i

y y y y y y

1

2

1

2

1

2

ˆ ˆ

Devianza

Spiegata

Devianza Residua

Y = y

ˆ

y

i

= y ∀ i

y

i

y

i

∀ i

a = 3,07 è il valore

assunto dalla Y per X = 0

Riprendiamo i dati del primo esempio e andiamo a calcolare R

2

ˆ

Y = 3 , 07 + 1 , 03 ⋅ X

Calcoliamo l’indice di adattamento sui dati del primo

esempio:

Significa che il 76,4%

della variabilità di Y è

spiegata tramite il

modello (cioè dipende)

dalla variabilità di X

Ad esempio:

ˆ

y

1

= 3 , 07 + 1 , 03 ⋅ 1

ˆ

y

2

= 3 , 07 + 1 , 03 ⋅ 3

ecc.

y = 7 , 4

44

Esercizio :

  • X à Indice meteorologico (1= tempo pessimo, … 10 = tempo

eccellente)

  • Y à numero di tamponamenti settimanali in un certo Comune

Fonte: Pacini, Picci (2001) Introduzione alla

statistica

b = 83/72 = 1,

a = 77/8 - 1,153 * 48/8 = 2,

Disegnate da voi il diagramma

a punti e la retta dei m.q.

45

2 2

2

Dev Y

b Dev X

R

Completiamo i calcoli della tab. precedente al fine di calcolare R

2

( ) ( ) 107 , 875

2

= − =

Dev Y y y

i

La variabilità

della X (tramite il

modello) spiega

l’88,7% della

variazione totale

della Y

In altri termini, il n. di incidenti dipende in misura

abbastanza forte dalle condizioni del tempo

Commento : In effetti può apparire strano che gli incidenti aumentino al

migliorare del tempo. La spiegazione sta nel fatto che il Comune

analizzato si trova in una zona turistica di mare in cui il traffico (motorini

e biciclette inclusi) aumenta quando il tempo è buono. Pertanto è

verosimile che il n. di incidenti aumenti proprio in quanto con il bel tempo

aumenta il traffico. Pertanto non vi è dipendenza logica tra il tempo e il n.

di incidenti, ma solo associazione statistica (spuria).