Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Bivariata: Indipendenza Statistica, Associazione e Cograduazione - Prof. Sarnacchi, Dispense di Statistica Descrittiva

dispense di statistica bivariate pubblicate sul portale unitelma

Tipologia: Dispense

2018/2019

Caricato il 27/02/2019

fabriziomisseri
fabriziomisseri 🇮🇹

5

(2)

2 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Statistica descrittiva bivariata
Dispensa ad u so degli studenti
Redatta dai proff. Gian Carlo Blangiardo e Michela Cameletti
Tabelle di co ntingenz a
La statistica descrittiva bivariata si o ccupa d ell’analisi di due variabili congiuntamente considerate; in
particolare, risulta interessante s apere s e, e in qualche modo, le due variabili si influenzano o se, al
cont rario, si manifestano una indipendentemente dall’altra. A questo proposito verranno presentati, in
seguito, alcuni indici in grado di interpretare il tipo di legame esistente tra due variabili. Prima di
procedere risulta tuttavia indispensabile acquisire il concetto di distribuzione di frequenza bivariata. In
definitiva, si tratta di raccogliere i dati in una tabella a doppia entrata (o tabella di contingen za) in
grado di mostrare congiuntamente le modalità dei due caratteri.
Si ipotizzi, ad esempio, di costruire la tabella a doppia entrata per le va riabili X “sesso” e W
“gradimento”:
Tabella 3: esempio di tabella a doppia entrata
W
X
Basso
w1
Medio
w2
Alto
w3
somma
Femmina
x1
4
(n11)
3
(n12)
4
(n13)
11
n1.
Maschio
x2
4
(n21)
2
(n22)
3
(n23)
9
n2.
somma
8
n.1
5
n.2
7
n.3
20
N
La tabella a doppia entrata m ostra sulle righe le m odalità della variabile X (“femm ina” e “maschio”) e
sulle colonne le modalità di W (“basso”, “m edio” e “alto”); la tabella, inoltre, è composta dalle
seguenti distribuzioni:
1. distribuzione congiunt a di X e di W: le frequenze congiunte (assolute) nij, che si
trovano al centro della tabella, stanno ad indicare quante unità statisti che hanno m anifestato
cont emporaneamente la m odalità xi e la modalità wj (ad esempio, ci sono 4 femm ine che
hanno espresso un giudizio basso, ci sono 3 m aschi con un giudizio alto e così via). Si oss ervi
che il numero delle celle contenenti l e frequenze congiunte è dato dal prodotto del nu mero
di righe h per il numero di colonne k, per cui la scrittura corretta prevede l’utilizzo del
doppio pedice nij (i=1,2,…,k; j=1,2,…,h);
2. distribu zione marginale di X: considerando solamente la prima e l’ultim a colonna della
tabella a d oppia entrata, si ottiene la distribuzione di frequenza marginale della va riabile X,
eliminando così l’effetto della variabile W. Le frequenze (assolute) della variabile X sono
dette frequenze marginali (assolute) e si indicano con ni. (i=1,2,…,k);
3. distribuz ione marginale di W: consid erando solamente la prima e l’ultima riga della tabella a
doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile W,
eliminando così l’effetto della variabile X. Le frequenze (assolute) della variabile W sono
dette frequenze margin ali (assolute) e si indicano con n.j (j=1,2,…,h);
Fra le frequenze sopra elencate valgono le seguenti relazioni:
1.
h
jijinn
1
.
(somma per riga)
2.
k
iijjnn
1
.
(somma per colonna)
3.
(somma per riga e per colonna)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Analisi Bivariata: Indipendenza Statistica, Associazione e Cograduazione - Prof. Sarnacchi e più Dispense in PDF di Statistica Descrittiva solo su Docsity!

Statistica descrittiva bivariata

Dispensa ad uso degli studenti

Redatta dai proff. Gian Carlo Blangiardo e Michela Cameletti

Tabelle di contingenza

La statistica descrittiva bivariata si o ccupa dell’analisi di due variabili congiuntamente considerate; in

particolare, risulta interessante sapere se, e in qualche modo, le due variabili si influenzano o se, al

contrario, si manifestano una indipendentemente dall’altra. A questo proposito verranno presentati, in

seguito, alcuni indici in grado di interpretare il tipo di legame esistente tra due variabili. Prima di

pro cedere risulta tuttavia indispensabile acquisire il con cetto di distribuzione di frequenza bivariata. In

definitiva, si tratta di raccogliere i dati in una tabella a doppia entrata (o tabella di contingenza ) in

grado di mostrare congiuntamente le modalità dei due caratteri.

Si ipotizzi, ad esempio, di costruire la tabella a doppia entrata per le variabili X “sesso” e W

“gradimento”:

Tabella 3: esempio di tabella a doppia entrata

W

X

Basso w 1

Medio w 2

Alto w 3

somma 

Femmina x 1

(n 11 )

(n 12 )

(n 13 )

n1. Maschio x 2

(n 21 )

(n 22 )

(n 23 )

n2.

somma 

n.

n.

n.

N

La tabella a doppia entrata mostra sulle righe le modalità della variabile X (“femmina” e “maschio”) e

sulle colonne le modalità di W (“basso”, “medio” e “alto”); la tab ella, inoltre, è composta dalle

seguenti distribuzioni:

1. distribuzione congi unta di X e di W : le frequenze congiunte (assolute) nij , che si

trovano al centro della tabella, stanno ad indicare quante unità statistiche h anno manifestato

contemporaneamente la modalità xi e la modalità wj (ad esempio, ci sono 4 femmine che

hanno espresso un giudizio basso, ci sono 3 maschi con un giudizio alto e così via). Si osservi

ch e il numero delle celle contenenti le frequenze congiunte è dato dal prodotto del numero

di righe h per il numero di colonne k, per cui la scrittura co rretta preved e l’utilizzo del

doppio pedice nij (i=1,2,…,k; j=1,2,…,h);

2. distribuzione marginale di X: considerando solamente la prima e l’ultima colonna della

tabella a doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile X,

eliminando così l’effetto della variabile W. Le frequenze (assolute) della variabile X sono

dette frequenze margin ali (assolute) e si indicano con ni. (i=1,2,…,k);

3. distribuzione marginale di W: considerando solamente la prima e l’ultima riga della tabella a

doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile W,

eliminando così l’effetto della variabile X. Le frequ enze (assolute) della variabile W sono

dette frequenze marginali (assolute) e si indicano con n.j (j=1,2,…,h);

Fra le frequ enze sopra elen cate valgono le seguenti relazioni:

h

j

ni nij

1

. (somma per riga)

k

i

n j nij

1

. (somma per colonna)

   

k

i

h

j

ij

h

j

j

k

i

ni n n n

1 1 1

. 1

. (somma per riga e p er colonna)

Qui di seguito vengono elen cate tutte le restanti tab elle a doppia entrata costruibili con le variabili a

disposizione contenute nella Tabella 1:

Z

X (^18 19 20 21 22 23 24 25) somma 

Femmina 0 2 3 0 2 1 3 0 11

Maschio 1 3 0 2 1 0 0 2 9

somma  1 5 3 2 3 1 3 2 20

Y

X (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] (^) somma 

Femmina 2 1 1 1 3 3 11

Maschio 2 0 2 2 1 2 9

somma  4 1 3 3 4 5 20

Z

W (^18 19 20 21 22 23 24 25) somma 

Basso 0 2 0 2 2 0 1 1 8

Medio 0 2 2 0 0 0 1 0 5

Alto 1 1 1 0 1 1 1 1 7

somma  1 5 3 2 3 1 3 2 20

Y

W (^) (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma 

Basso 2 0 1 1 3 1 8

Medio 0 0 1 1 1 2 5

Alto 2 1 1 1 0 2 7

somma  4 1 3 3 4 5 20

Z

Y 18 19 20 21 22 23 24 25 somma 

(155-160] 0 0 0 0 1 0 2 1 4

(160-165] 0 0 1 0 0 0 0 0 1

(165-170] 0 1 0 1 0 1 0 0 3

(170-175] 1 1 0 0 1 0 0 0 3

(175-180] 0 2 0 0 1 0 1 0 4

(180-190] 0 1 2 1 0 0 0 1 5

somma  1 5 3 2 3 1 3 2 20

Si noti come una tabella di contingenza possa essere costruita accoppiando variabili di diversa natura:

qualitativa (nominale o o rdinale) e qualitativa (nominale o ordinale), qualitativa (nominale o ordinale) e

quantitativa (discreta o continua in classi), quantitativa (discreta o continua in classi) e quantitativa

(discreta o continua in classi). A partire da una data tabella di contingenza sarà possibile affrontare lo

studio dei seguenti legami:

Tabella delle frequenze teoriche nij*

W

X Basso Medio Alto somma 

Femmina

Maschio

somma  8 5 7 20

Poiché, già p er più di una cella, le frequenze osservate sono diverse da quelle teo riche (ad esempio, per

la prima cella della prima riga, la frequenza osservata è 4 mentre qu ella ch e si dovrebbe avere

teoricamente è 4,40) è possibile escludere l’esistenza di indipendenza statistica e affermare che esiste

conn essione. Per valutare se il livello di connessione è alto o basso, procediamo con il calco lo

dell’indice e con la sua normalizzazione:

Tabella di calcolo del Chi Quadro

W

X Basso Medio Alto

Femmina

2 /4,

2 /2,

2 /3,

Maschio

2 /3,

2 /2,

2 /3,

Somma di tutte le 9 celle=

2 =0,

L’indice Chi quadro è pari a 0,15 e, poiché è diverso da 0, conferma la presenza di un qualch e livello di

conn essione.

La sua normalizzazione:

     

0 , 01 201

0 , 15

20 min 1 , 2

0 , 15

20 min 2 1 , 3 1

~^2 0 ,^15  

   

 

porta ad affermare che il livello di connessione esistente tra X e W è molto basso.

Qui di seguito, tralasciando i passaggi svolti per il calcolo dell’indice di connessione per le altre coppie

di variabili; vengono riportati diversi valo ri standardizzati del Chi Quadro:

Tabella 4: valori dell’indice Chi quadro normalizzato p er le coppie di variabili considerate.

X Y Z W

X 0,13 0,62 0,

Y 0,13 0,37 0,

Z 0,62 0,37 0,

W 0,01 0,18 0,

Innanzitutto si noti la simmetria della tabella 4, a conferma ch e la relazione di indipendenza statistica è

bidirezionale; inoltre, dalla tabella emerge ch e tutte le variabili risultano, an ch e se con differenti

intensità, connesse le une con le altre. È pertanto possibile proced ere con analisi più approfondite che

indaghino i legame esistenti (se due variabili si fossero rivelate indipendenti, l’analisi statistica bivariata

non avrebb e potuto proseguire).

Associazione

Un indice per misurare l’associazione: l’indice di Edwards

L’asso ciazione è un particolare tipo di relazione ch e è calcolabile solamente su tabelle di contingenza

del tipo (2X2), ovvero con due righe e due colonne, situazione che si presenta nel caso in cui le due

variabili considerate manifestino ciascun a solamente due modalità, come su ccede p er la variabile X

“sesso” della Tabella 1 (variabili di questo tipo si diranno, in seguito dicotomiche ), oppure nel caso in

cui si decida di fissare l’attenzione su una coppia di modalità xa, yb lasciando tutte le altre come

residuali (“non xa ” e “non yb”), procedendo così alla dicotomizzazione delle due variabili. Si

consideri come modello la seguente tabella di contingenza riguardante due variabili dicotomiche o

dicotomizzate (quantitative o qualitative) X e Y:

Y

X O Ō somma 

A n 11 n 12 n1.

Ā n 21 n 22 n2.

somma  n.1 n.2 n

A e Ā sono le modalità d ella variabile X e, in particolare, si ha che Ā corrisponde a “non A” (si

potrebbe avere, ad esempio, A=”fumatore” e Ā=”non fumatore”); lo stesso discorso vale per le

modalità di Y, per cui Ō co rrisponde a “non O” (potrebbe essere, ad esmpio, O=”maggiorenne” e Ō

=”non maggiorenne”).

L’obiettivo dell’asso ciazione è quello di verificare se le due modalità prin cipali nell’angolo di Nord -

Ovest nella tabella 2x2, le modalità A e O tendono in qualche modo ad attrarsi o a respingersi,

appurando, quindi, l’esistenza di un legame di asso ciazione o di disso ciazione.

L’indice di Edwards è lo strumento da utilizzare per misurare il livello di asso ciazione o di

dissociazione esistente tra due variabili dicotomich e X e Y; esso è calcolabile attravers o la seguente

espressione numerica

11 22 12 21

11 22

n n n n

n n E   

  , dove i termini contenuti nella formula sono le

frequenze assolute indicate nella tabella precedente. L’indice di Edwards assume valori nell’intervallo

[0,1]: nel caso si abbia E=0 si è in presenza di asso ciazione negativa (o disso ciazione) massima (le

modalità A e O tendono a respingersi), se E=0,5 si è in presenza di indipendenza tra le due modalità e,

infine, se E=1 si è in presenza di asso ciazione positiva massima (le modalità A e O tendono ad

attrarsi). È evidente, quindi, che valori di E prossimi allo 0 segnalano una forte asso ciazione negativa

fra A e O; valori di E prossimi a 1 segnalano, al contrario, forte asso ciazione positiva tra A e O. Si

ricordi, in fine, che se l’indice Chi quadro calcolato per le due variabili X e Y dicotomiche è pari a 0

allora necessariamente si avrà ch e E=0,5.

È importante ribadire ch e an che una variabile non dicotomica (ovvero con un numero di modalità

superiore a 2) può essere resa tale puntando l’attenzione su una modalità di interesse A e

raggruppando le restanti in un’unica modalità del tipo “non A” (Ā).

Si ipotizzi, ad esempio, di voler indagare il livello di asso ciazione o disso ciazione esistente tra la

modalità “Femmina” della variabile X e la modalità “voto minore o uguale a 20” d ella la variabile Z.

La tabella di contingenza che si otterrebbe, operando una dicotimizzazione per la variabile Z, avrebbe

la seguente struttura:

Cograduazione

La cograduazione tra due variabili qualitative ordinali e il coefficiente di Spearman

Qualora si intenda approfondire l’analisi d ella connessione esistente tra due variabili qualitative

ordinali X e Y, è possibile ricorrere al con cetto di cograduazione. Si parla di cograduazione (o di

contrograduazione) quando i due fenomeni in esame tendono ad associare le rispettive modalità in

modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità crescenti (o

decrescenti) dell’altro (in relazione alla scala ordinale ch e le caratterizza). Il coefficiente rs di

Spearman , che si basa sul con cetto di rango (posto d’ordine), fornisce la formula per il calcolo della

cograduazione tra due variabili.

Il concetto di rango

Data una lista di dati circa una certa variabile statistica X (qualitativa ordinale o quantitativa) relativi a

n unità statistich e, è possibile o rdinarli e attribuire ad ogni soggetto un numero indicante la s ua

posizione nella lista.

Si ipotizzi, ad esempio, di essere in possesso dei seguenti 15 dati relativi ad una certa variabile le cui

modalità sono O=ottimo, B=buono e S=sufficiente:

unità stat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

xi B O B O S S B B O B S B B O S

E’ possibile ordinare le unità statistich e in maniera crescente (da sufficiente a ottimo) in base alla

modalità riportata:

unità stat. 5 6 11 15 1 3 7 8 10 12 13 2 4 9 14

xi S S S S B B B B B B B O O O O

È ora facile asso ciare ad ogni unità statistica il rango, ovvero quel numero che indica la posizione

dell’unità all’interno dell’o rdinamento per modalità, facendo attenzione al caso in cui più unità

presentino la stessa modalità. In questo caso, il rango sarà d efinito dalla media d elle posizioni dei

soggetti con la stessa modalità.

unità stat. 5 6 11 15 1 3 7 8 10 12 13 2 4 9 14

xi S S S S B B B B B B B O O O O

Posizione 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Rango

Riordinando le unità rispetto alla loro numerazione n aturale e asso ciando ad ognuna il proprio rango

si ottiene quanto segue:

unità stat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

rango 8 13,5 8 13,5 2,5 2,5 8 8 13,5 8 2,5 8 8 13,5 2,

Il coefficiente di cograduazione di Spearman

Una volta definito il con cetto di rango, è possibile introdurre la formula del co efficiente rs di

Spearman:

2

1

2

n n

R R

r

n

i

Xi Yi

s , dove RXi e RYi sono, rispettivamente, il rango d ella variabile

X e il rango della variabile Y per il medesimo soggetto i (i=1,2,…,n). Il coefficiente rs di Spearman

assume valori compresi nell’intervallo [-1,+1]: si ha rs uguale a -1 quando la contrograduazione è

massima – ossia quando a modalità crescenti (decrescenti) di X corrispondo modalità decrescenti

(crescenti) di Y e viceversa- e, al contrario, rs è pari a +1 quando la cograduazione è massima: allorché

a modalità crescenti (decrescenti) di X co rrispondono modalità crescenti (decrescenti) di Y. Inoltre, si

ha rs nullo quando X e Y sono indipendenti statisticamente (ma non vale il viceversa). È evidente,

quindi, ch e valori di rs prossimi allo 0 saranno sintomo di una cograduazione o di una

contrograduazione debole, valori prossimi a -1 di una contrograduazione forte e, infine, valori

prossimi a +1 di una cograduazione fo rte.

Qui di seguito vien e presentata la pro cedura per il calcolo del coefficiente di Sp earman per una data

coppia di variabili (W,L):

La p rima tabella riporta la lista di dati osservati per la variabile W e p er la variabile L:

W L

unità statistiche Gradimento Titolo di studio

1 Basso Licenza scuola media inf.

2 Medio Diploma

3 Basso Diploma

4 Alto Licenza scuola media inf.

5 Alto Licenza scuola media inf.

6 Alto Licenza scuola media inf.

7 Basso Diploma

8 Basso Diploma

9 Medio Licenza scuola media inf.

10 Basso Licenza scuola media inf.

11 Alto Diploma

12 Alto Laurea I livello

13 Medio Laurea I livello

14 Medio Diploma

15 Basso Licenza scuola media inf.

16 Basso Laurea I livello

17 Medio Diploma

18 Basso Laurea I livello

19 Alto Diploma

20 Alto Diploma

2

1

2

n n

R R

r

n

i

Xi Yi

s

2

rs   

Poiché il valore del coefficiente è prossimo allo 0, è possibile

affermare ch e tra le due variabili esiste una bassa

cograduazione.

2

2

2

=(4,5-18,5)^2

2

2

=(17-12)^2

2

somma 1254

Correlazione

La correlazione tra due variabili quantitative e il coefficiente di Bravais-Pearson

Qualora si intenda appro fondire l’analisi del legame esistente tra due variabili quantitative (continue o

discrete) X e Y così da cogliere oltre all’intensità an ch e l’eventuale natura lin eare (proporzionale) del

legame, è possibile rico rrere al con cetto di correlazione lineare. Si dice che X e Y sono correlate

positivamente (o negativamente) quando i due fenomeni in esame tendono ad associare le risp ettive

modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità

proporzionalmente crescenti (o decrescenti) dell’altro. Il coefficiente  di Bravais-Pear son , ch e si

basa sul con cetto di co varianza, fornisce la fo rmula per il calcolo della correlazione lineare tra due

variabili.

Il concetto di covarianza

La covarianza è l’attitudine di due variabili quantitative X e Y a subire delle variazioni nello stesso

senso; in particolare, la covarianza assume valori positivi quando al crescere (descrescere) di X, Y

cresce (decresce) e valori negativi quando al crescere (descrescere) di X, Y descresce (cresce). Appare

evidente ch e, qualora X e Y siano indipendenti statisticamente, la covarianza assumerà valore nullo, in

quanto i due fenomeni variano autonomamente. La formula per il calcolo della co varianza è data dalla

seguente espressione numerica

n

x y n

k

i

h

j

i X j Y ij

XY

 

1 1

cov

, nel caso si disponga

di una tabella di contingenza per X e Y, oppure da

n

x y

n

i

i X i Y

XY

1

cov

, nel caso di

disponga di una lista di n coppie di modalità per le due variabili.

Ad esempio, si ipotizzi di calcolare la covarianza per le variabili Z “voto” e Y “altezza”; per poter

applicare comodamente entrambe le formule, operiamo una modifica alla variabile Y: attribuiamo ad

ogni unità statistica l’altezza centrale yi^ d ell’intervallo di appartenenza, p er cui yi= yi.

Per l’applicazione della p rima formula è necessario utilizzare la tabella di contingenza già costruita

precedentemente e pro cedere come segue:

Tabella di contingenza delle frequenze osservate

Z (=21,3)

Y (=172,38) 18 19 20 21 22 23 24 25 somma 

157,5 0 0 0 0 1 0 2 1 4

162,5 0 0 1 0 0 0 0 0 1

167,5 0 1 0 1 0 1 0 0 3

172,5 1 1 0 0 1 0 0 0 3

177,5 0 2 0 0 1 0 1 0 4

185 0 1 2 1 0 0 0 1 5

somma  1 5 3 2 3 1 3 2 20

Inserendo la somma nella fo rmula si ottiene, come calcolato precedentemente,

7 , 71 20

154 , 25 cov 

XY ^.

Entrambe le formule portano ad un valore della covarianza tra Z e Y negativo, ciò significa ch e al

crescere (decrescere) delle modalità di Z, le modalità di Y decrescono (crescono), facendo in modo

ch e le due variabili siano legate da un rapporto di tipo inverso,

Il coefficiente  di Bravais Pearson

Il co efficiente di correlazione lineare  misura, come anticipato, l’intensità del legame lineare

(interpretabile graficamente da una retta) tra due variabili quantitative X e Y, ovvero il grado di

proporzionalità esistente tra X e Y, Il coefficiente di Bravais Pearson si calcola come rapporto tra la

co varianza tra X e Y e il rapporto degli scarti quadratici medi,

X y

XY XY  

 

cov

, In particolare, 

assume valori compresi tra -1 (perfetta co rrelazione negativa: la relazione tra X e Y è di assoluta

proporzionalità inversa e può essere perfettamente interpretata da una retta con p endenza negativa) e

+1 (perfetta co rrelazione positiva: la relazione tra X e Y è di perfetta proporzionalità diretta e può

essere p erfettamente interp retata da una retta con p endenza positiva); se =0 si dice ch e i due

fenomeni sono incorrelati (non esiste legame lineare tra X e Y), È logico pensare ch e se due variabili

X e Y sono indipendenti statisticamente (^2 =0) allo ra necessariamente si avrà che =0, mentre non

vale il contrario,

Ritornando all’esempio precedente relativo alle variabili Z e Y, è possibile ottenere con un semplice

calcolo il co efficiente di correlazione lineare: 0 , 35

4 , 81 97 , 80

cov 7 , 71  

  

Z Y

ZY ZY  

 ,

Questo valore indica che tra le due variabili esiste un legame lineare negativo (dato dal segno negativo

ch e già si ritrovava nella covarianza) piuttosto debole.

2.6 La retta di regressione

Quando si opera su variabili entrambe quantitative è possibile andare al di là delle conoscenze

sull’intensità e la eventuale natura (lin eare/proporzionale) d el legame tra X e Y sino ad identificare la

forma funzionale di tale legame. Giungendo ad affermare non solo che Y è legato a X da una perfetta

co rrelazione lineare positiva, ma anch e che l’espressione matematica di tale relazione è, ad esempio,

Y=4 X +2.

E’ evidente ch e ciò rappresenta un grande salto di qualità. Infatti, la specificazione della relazione

rende possibile estendere la conoscenza

a tutte le coppie (x,y), an che a quelle che non sono state fornite dalla rilevazione.

Ma come si arriva a tale specificazione?

Innanzitutto va tenuto presente che le informazioni da cui si parte sono le n coppie del tipo:

Unità statistica

numero.

Variabile X Variabile Y

1 x 1 y 1

2 x 2 y 2

3 x 3 y 3

4 x 4 y 4

ecc.

n xn yn

e ch e ognuna di tali coppie identifica, su un sistema di assi cartesiani, un punto di un’ipotetica

funzione y = f(x).

Ricordando che con f(x) si intende denotare qualunque forma di funzione, ad esempio: a+bx;

ax^2 +bx+c; log (x+a); a+dx, e così via.

Di solito, nel corsi elementari di matematica si parte da una funzione nota e si determinano le

coo rdinate dei punti ch e appartengono ad essa: in pratica, data l’espress ione della funzione (ad

esempio y=3x-20) si fissa x e si ottiene il corrispondente y, rip etendo di volta in volta la scelta di x e il

calcolo di y sino ad otten ere una tab ella con un appropriato insieme di coppie/punti.

In questo caso si tratta invece di muoversi nella direzione opposta: è nota la tabella delle coppie/punti

(i dati statistici di base) e si vuole determinare la funzione cui tali punti possono appartenere.

In generale si dovrebbero affrontare due problemi successivi.

1) Decid ere il “tipo” di funzione cui i punti potrebbero apparten ere (una retta, una parabola,

un’esponenziale, una logistica, e così via), sapendo ch e ogni tipo di funzione ha una forma

caratteristica che si modella in relazione ad alcuni parametri ch e ricorrono nella sua

espressione analitica. Ad esempio, ogni retta (genericamente indicata come y = a + b x )

assume andamenti diversi secondo il valore numerico dei p arametri “b” (coefficiente

angolare) e “a” (termine noto o intercetta).

2) Decid ere il valore da assegnare ai parametri della funzione che si è scelta. Tale assegnazione

deve rispondere al criterio di rendere il più possibile legittimo il ruolo della funzione come

modello di ipotetica appartenenza d ei “ punti di cui disponiamo”. Nel senso ch e, se la retta

interpreta bene i punti di cui disponiamo, allora allorch é si inserisce uno dei nostri valori di x

nella funzione/retta ci si aspetta di ottenere (o quasi) il suo co rrispondente valore di y.

Nel caso specifico, se ci si limita a dare per scontata la s celta della retta come “funzione madre”

dell’insieme di coppie/punti che si considerano, resta solo da decidern e i parametri A tale proposito,

un valido criterio guida consiste nel ritenere ch e “la migliore retta sia quella che rende minima la

somma delle differenze al quadrato tra i valo ri di yi realmente osservati e i corrispondenti valori che la

retta stessa fo rnisce per i diversi valori di xi osservati (i=1,2,3,…n; essendo n il numero di punti che si

considerano)”.

La retta che risponde a tale requisito è nota come “retta di regressione o retta dei minimi quadrati” e i

suoi parametri, “ a ” e “ b ”, si ottengono dalle relazioni:

b = xy / 

x e^ a =^ y –^ [xy /^ 

x ]^ x

(dove xy è un altro modo per indicare la covarian za Covxy)

i cui termini – covarianza tra X e Y, varianza di X, e medie di X e di Y- sono calcolati a partire dalla

matrice dei dati di base e con le usuali formule già viste.

Pertanto, l’esp ressione finale della retta di regressione è la seguente: