Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Bivariata statistica, Appunti di Matematica Generale

Università degli Studi di Milano (UNIMI)Matematica Generale

Bivariata une descrizione di questa parte di statistica

Tipologia: Appunti

2018/2019

Caricato il 03/11/2019

Nikita.Imaj 🇮🇹

5

(2)

5 documenti

1 / 26

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

1 Statistica descrittiva: analisi bivariata

Molto spesso nella pratica due o più caratteri vengono rilevati congiuntamente (con-

temporaneamente) su nunità statistiche. In questo contesto l’obiettivo principale

della statistica è indagare gli eventuali legami tra le caratteri rilevati. In questo

capitolo si considera solo il caso di due variabili (quantitative o categoriali) rileva-

te sulle stesse unità statistiche, ma gli strumenti statistici descritti possono essere

opportunamente estesi allo studio di più di due variabili.

Quando si studiano congiuntamente due caratteri il primo obiettivo è stabilire se

esiste un qualche legame tra i due. A questo scopo in letteratura sono stati proposti

svariati indici; nel Paragrafo 1.3 ci si limita a presentarne uno, l’indice X2di Pearson

normalizzato.

Appurato che esiste un legame tra le variabili studiate, vale la pena indagare

di che tipo di legame si tratti. A questo scopo nel Paragrafo 1.4 si introducono il

concetto di dipendenza in media e un indice che la misura.

Nel Paragrafo 1.7 si considera invece la dipendenza lineare tra due variabili

quantitative e si definisce l’indice di correlazione lineare atto a misurarla.

Tuttavia, come descritto nel capitolo precedente, prima di una qualsiasi analisi

statistica è necessario operare una sintesi dei dati riclassificandoli in forma tabellare;

è questo l’argomento trattato nel seguente paragrafo.

1.1 Tabelle di contingenza: frequenze assolute e relative

Siano XeYdue caratteri rilevati congiuntamente su nunità statistiche e sia

{(x1, y1),(x2, y2),...,(xi, yi), . . . (xn, yn)}

la serie di dati grezzi ottenuti con questa rilevazione. Supponiamo che i caratteri Xe

Ysi manifestino rispettivamente attraverso hekmodalità distinte: {x1, x2, . . . , xh}

e{y1, y2, . . . , hk}e che alcune coppie di valori rilevati si ripetano, allora una prima

sintesi delle informazioni contenute nei dati è la tabella di contingenza otabella

a doppia entrata:

Y

X y1... yj... ykni.

x1n11 ... n1j... n1kn1.

.

..

.

..

.

..

.

..

.

xini1... nij ... nik ni.

.

..

.

..

.

..

.

..

.

xhnh1... nhj ... nhk nh.

n.j n.1... n.j ... n.k n

Tabella 1: Tabella di contingenza h×k

La quantità nij è detta frequenza assoluta congiunta ed è il numero di

unità statistiche che presentano la coppia di modalità (xi, yj), per i= 1, . . . , h e

1

Scopri Appunti di Matematica Generale Università degli Studi di Milano (UNIMI)

Documenti correlati

STATISTICA DESCRITTIVA BIVARIATA

Riassunti statistica bivariata

inizio statistica bivariata

Statistica bivariata formule

statistica bivariata

(1)

Statistica bivariata

(1)

Statistica Descritiiva Bivariata

Statistica bivariata

Analisi bivariata statistica

statistica bivariata

APPUNTI: Statistica Bivariata

(1)

Dispensa statistica descrittiva bivariata

Anteprima parziale del testo

Scarica Bivariata statistica e più Appunti in PDF di Matematica Generale solo su Docsity!

1 Statistica descrittiva: analisi bivariata

Molto spesso nella pratica due o più caratteri vengono rilevati congiuntamente (con- temporaneamente) su n unità statistiche. In questo contesto l’obiettivo principale della statistica è indagare gli eventuali legami tra le caratteri rilevati. In questo capitolo si considera solo il caso di due variabili (quantitative o categoriali) rileva- te sulle stesse unità statistiche, ma gli strumenti statistici descritti possono essere opportunamente estesi allo studio di più di due variabili. Quando si studiano congiuntamente due caratteri il primo obiettivo è stabilire se esiste un qualche legame tra i due. A questo scopo in letteratura sono stati proposti svariati indici; nel Paragrafo 1.3 ci si limita a presentarne uno, l’indice X^2 di Pearson normalizzato. Appurato che esiste un legame tra le variabili studiate, vale la pena indagare di che tipo di legame si tratti. A questo scopo nel Paragrafo 1.4 si introducono il concetto di dipendenza in media e un indice che la misura. Nel Paragrafo 1.7 si considera invece la dipendenza lineare tra due variabili quantitative e si definisce l’indice di correlazione lineare atto a misurarla. Tuttavia, come descritto nel capitolo precedente, prima di una qualsiasi analisi statistica è necessario operare una sintesi dei dati riclassificandoli in forma tabellare; è questo l’argomento trattato nel seguente paragrafo.

1.1 Tabelle di contingenza: frequenze assolute e relative

Siano X e Y due caratteri rilevati congiuntamente su n unità statistiche e sia

{(x 1 , y 1 ), (x 2 , y 2 ),... , (xi, yi),... (xn, yn)}

la serie di dati grezzi ottenuti con questa rilevazione. Supponiamo che i caratteri X e Y si manifestino rispettivamente attraverso h e k modalità distinte: {x 1 , x 2 ,... , xh} e {y 1 , y 2 ,... , hk} e che alcune coppie di valori rilevati si ripetano, allora una prima sintesi delle informazioni contenute nei dati è la tabella di contingenza o tabella a doppia entrata:

Y X y 1... yj... yk ni. x 1 n 11... n 1 j... n 1 k n 1. .. .

xi ni 1... nij... nik ni. .. .

xh nh 1... nhj... nhk nh. n.j n. 1... n.j... n.k n

Tabella 1: Tabella di contingenza h × k

La quantità nij è detta frequenza assoluta congiunta ed è il numero di unità statistiche che presentano la coppia di modalità (xi, yj ), per i = 1,... , h e

j = 1,... , k.

Le frequenze riportate nell’ultima colonna ni. =

∑k j=1 nij^ , con^ i^ = 1,... , h, sono dette frequenze marginali di X; ni. rappresenta il numero di unità statistiche che presentano modalità xi del carattere X.

Le frequenze riportate nell’ultima riga n.j =

∑h i=1 nij^ , con^ j^ = 1,... , k, sono dette frequenze marginali di Y ; n.j rappresenta il numero di unità statistiche che pre- sentano modalità yj del carattere Y. Ovviamente la somma delle frequenze assolute congiunte è pari alla somma delle frequense assolute marginali e al totale delle unità statistiche n, ossia ∑h i=

∑k j=1 nij^ =^

∑h i=1 ni.^ =^

∑k j=1 n.j^ =^ n Un esempio numerico chiarisce immediatamente i concetti di frequenza assoluta congiunta e marginale.

Esempio 1. Supponiamo che per uno studio sul mercato del lavoro si siano inter- vistati 20 lavoratori e si siano rilevati congiuntamente i caratteri “classe stipendiale” e “grado di istruzione”, ottenendo la seguente serie di dati:

{(Bassa; Licenza media); (Bassa; Licenza media);(Bassa; Licenza media);(Media; Li- cenza media);(Alta; Licenza media);(Bassa; Licenza superiore);(Bassa; Licenza superio- re);(Media; Licenza superiore); (Media; Licenza superiore);(Media; Licenza superiore);(Media; Licenza superiore);(Alta; Licenza superiore);(Alta; Licenza superiore);(Alta; Licenza supe- riore);(Bassa; Laurea);(Media; Laurea);(Media; Laurea);(Alta; Laurea);(Alta; Laurea);(Alta; Laurea)}

Il numero di modalità distinte del carattere X=“classe stipendiale” è h = 3; il numero di modalità distinte del carattere Y =“grado di istruzione” è k = 3; la corrispondente tabella di contingenza 3 × 3 è

Classe stipendiale Grado di istruzione (Y ) (X) Licenza media Licenza superiore Laurea ni. Bassa n 11 = 3 n 12 = 2 n 13 = 1 n 1. = 3 + 2 + 1 = 6 Media n 21 = 1 n 22 = 4 n 23 = 2 n 2. = 1 + 4 + 2 = 7 Alta n 31 = 1 n 32 = 3 n 33 = 3 n 3. = 1 + 3 + 3 = 7 n.j n. 1 = 3 + 1 + 1 = 5 n. 2 = 2 + 4 + 3 = 9 n. 3 = 1 + 2 + 3 = 6 20

Tabella 2: Tabella di contingenza delle frequenze assolute

Come per l’analisi di un fenomeno univariato anche nello studio congiunto di due fenomeni possiamo ragionare in termini di proporzioni e fare riferimento alle fre- quenze relative, date dal rapporto tra le frequenze assolute e il totale delle unità

statistiche. La quantità fij = nij /n è detta frequenza relativa congiunta e in-

dica la proporzione di unità statistiche che presentano la coppia di modalità (xi, yj ), per i = 1,... , h e j = 1,... , k.

Le frequenze fi. =

∑k j=1 fij^ =^ ni./n^ , con^ i^ = 1,... , h, sono dette^ frequenze rela- tive marginali di X e rappresentano la proporzione di unità statistiche che hanno

X Frequenze condizionate a yj x 1 n 1 j .. .

xi nij .. .

xh nhj n.j

Poiché Y si manifesta attraverso k modalità distinte si possono individuare k sot- toinsiemi di unità statistiche, uno per ciascuna modalità di Y. La prima colonna della Tabella 1 unitamente a ciascuna delle colonne centrali costituiscono le k di- stribuzioni condizionate di X. Poiché le k sottopopolazioni individuate dalle varie modalità di Y hanno numerosità diversa, rispettivamente n. 1 ,... , n.k, per operare confronti (relativi al comportamento di X nei k gruppi) è necessario ragionare in termini relativi; per questa ragione si definiscono le distribuzioni condizionate relative di X come rapporto tra le frequenze assolute e il totale delle unità stati- stiche nel gruppo di appartenenza. Le colonne centrali della seguente tabella sono le frequenze relative di X, condizionate alle varie modalità di Y (ossia le frequenze relative di X all’interno delle k sottopolazioni individuate dalle diverse modalità di Y ); l’ultima colonna riporta le frequenze relative marginali di X e descrive il com- portamento di X in tutte le unità statistiche indagate (sull’intera popolazione di n unità):

Modalità del fenomeno Freq. relative condizionate a Freq. relative marginali d’interesse X y 1... yj... yk x 1 n n^11. 1... n n^1 .jj... n n^1 .kk f 1. = n n^1. .. .

xi n ni.^11... n nij.j... n nik.k fi. = n ni. .. .

xh n nh. 11... n nhj.j... n nhk.k fh. = n nh. Totali 1... 1... 1 1

Invertendo i ruoli tra X e Y , si può essere interessati a studiare il fenomeno Y marginalmente ossia su tutte le unità statistiche (a prescindere da X); in tal caso dovremmo considerare la sola distribuzione marginale di Y :

Y n.j y 1 n. 1 .. .

yj n.j .. .

yk n.k n

ottenuta dalla prima e dall’ultima riga della Tabella 1. Se invece siamo interessati a studiare il fenomeno Y nel sottoinsieme di unità statistiche che presentano modalità xi del carattere X allora dobbiamo fare riferimento alla seguente tabella di frequenze, detta distribuzione delle frequenze (assolute) di Y condizionata a xi:

Y Frequenze condizionate a xi y 1 ni 1 .. .

yj nij .. .

yk nik ni.

Poiché X si manifesta in h diverse modalità si possono individuare h distinte sottopo- polazioni, una per ciascuna modalità di X. In questo caso la prima riga unitamente alle righe centrali della Tabella 1 costituiscono le distribuzioni di frequenza condi- zionate di Y alle modalità di X. Poiché le h sottopopolazioni individuate dalle mo- dalità di X hanno numerosità diversa, rispettivamente ni.,... , nh., per confrontare il comportamento di Y nelle varie sottopopolazioni è necessario fare riferimento alle distribuzioni condizionate relative di Y , ottenute dividendo ciascuna frequen- za congiunta per il totale della sottopopolazione di riferimento. Le h distribuzioni condizionate relative di Y sono riportate nella seguente tabella:

Modalità del fenomeno Freq. relative condizionate a Freq. relative marginali d’interesse Y x 1... xi... xh y 1 n n^111.... n nii.^1... n nhh.^1 f. 1 = n n.^1 .. .

yj n n^11 j.... n niji.... n nhjh. f.j = n n.j .. .

yk n n^11 k.... n niki.... n nhkh. f.k = n n.k Totali 1... 1... 1 1

In una tabella di contingenza si possono dunque individuare più distribuzioni di frequenza:

la distribuzione delle frequenze congiunte;
due distribuzioni marginali, una per X e l’altra per Y ;
h distribuzioni condizionate di Y da xi con i = 1,... , h;
k distribuzioni condizionate di X da yj con j = 1,... , k.

Esempio 2. Ad un gruppo di 18 fumatori è stato chiesto quanti pacchetti di siga- rette hanno fumato nell’ultimo mese (fenomeno X) e quante volte hanno praticato un’attività sportiva (fenomeno Y ). I dati sono riportati di seguito:

Modalità di Y (gruppi) X (0; 7] (7; 14] (14; 21] (0; 15] 6 /12 = 0. 500 3/5=0.6 0 (15; 30] 5 /12 = 0.16¯ 6 1/5=0.2 1 (30; 45] 1 /12 = 0.08¯ 3 1/5=0.2 0 Totali 1 1 1

Distribuzioni condizionate (assolute) di Y (si ottengono leggendo per righe la tabella a doppia entrata):

Modalità di X (gruppi) Y (0; 15] (15; 30] (30; 45] (0; 7] 6 5 1 (7; 14] 3 1 1 (14; 21] 0 1 0 Dimensione gruppi 9 7 2

Distribuzioni condizionate (relative) di Y :

Modalità di X (gruppi) Y (0; 15] (15; 30] (30; 45] (0; 7] 6 /9 = 0.¯ 6 5/7=0.714 1/2=0. (7; 14] 3 /9 = 0.¯ 3 1/7=0.143 1/2=0. (14; 21] 0 1/7=0.143 0 Totali 1 1 1

1.3 Indipendenza tra due caratteri

Per semplicità espositiva, introduciamo il concetto di indipendenza tra due carat- teri attraverso un esempio.

Esempio 3. Si supponga di aver effettuato un’indagine su 210 lavoratori di età compresa tra i 30 e i 35 anni e di aver rilevato i fenomeni “titolo di studio” (X) e “reddito” (Y ). Si supponga che la classificazione dei dati abbia portato alla seguente tabella a doppia entrata:

Y X (800; 1500] (1500; 2000] (2000; 3000] ni. Media Inferiore 15 12 3 30 Media Superiore 45 36 9 90 Laurea o più 40 32 8 80 n.j 100 80 20 200

Potrebbe essere interessante stabilire se il reddito si distribuisce nello stesso modo nei tre diversi livelli d’istruzione. A questo scopo determiniamo le distribuzioni di frequenze condizionate di Y. In particolare, dovendo operare un confronto in

Modalità di X (gruppi) Y Media Inferiore Media Superiore Laurea o più fi. (800; 1500] 15 /30 = 0. 5 45 /90 = 0. 5 40 /80 = 0. 5 100 /200 = 0. 5 (1500; 2000] 12 /30 = 0. 4 36 /90 = 0. 4 32 /80 = 0. 4 80 /200 = 0. 4 (2000; 3000] 3 /30 = 0. 1 9 /90 = 0. 1 8 /80 = 0. 1 20 /200 = 0. 1 Totali 1 1 1 1

Tabella 4: Distribuzioni condizionate relative e distribuzione relativa marginale di Y

tre gruppi di dimensione diversa, facciamo riferimento alle frequenze condizionate relative. Dalla tabella precedente si evince immediatamente che per ciascun livello d’i- struzione la proporzione di lavoratori nelle tre classi di reddito è la stessa. Questo significa che avere un’istruzione diversa non comporta una distinta distribuzione del reddito. In termini statistici si dice che la distribuzione del reddito non è influenzata dal livello d’istruzione e questo concetto si esprime semplicemente affermando che il reddito è indipendente dal titolo di studio. Si noti che in caso di indipendenza tra due caratteri le distribuzioni relative condizionate coincidono con la distribuzione relativa marginale. Allo stesso modo si potrebbe essere interessati allo studio del livello d’istru- zione in ciascuna classe di reddito. A tale scopo si determinano le distribuzioni condizionate relative di X:

Modalità di Y (gruppi) X (800; 1500] (1500; 2000] (2000; 3000] f.j Media Inferiore 15 /100 = 0. 15 12 /80 = 0. 15 3 /20 = 0. 15 30 /200 = 0. 15 Media Superiore 45 /100 = 0. 45 36 /80 = 0. 45 9 /20 = 0. 45 90 /200 = 0. 45 Laurea o più 40 /100 = 0. 40 32 /80 = 0. 40 8 /20 = 0. 40 80 /200 = 0. 40 Totali 1 1 1 1

Tabella 5: Distribuzioni condizionate relative e distribuzione relativa marginale di X

Dalla tabella precedente si evince che in ciascuna classe di reddito 15% dei la- voratori ha la licenza media inferiore, il 45% è diplomato e il 40% ha un titolo di studio pari o superiore alla laurea. Poiché la distribuzione del titolo di studio è la stessa nelle tre classi di reddito si dice che X è indipendente da Y. Anche in questo caso le tre distribuzioni condizionate relative di X coincidono con la distribuzione marginale del carattere titolo di studio.

Dall’esempio precedente segue che X è indipendente da Y se e solo se tutte le distri- buzioni condizionate relative di X coincidono con la distribuzione relativa marginale

Fissate le marginali, se il “voto medio” fosse indipendente dal carattere “istituto di provenienza” allora si sarebbe ottenuta la seguente tabella teorica, in cui ciascuna

frequenza congiunta viene calcolata applicando la formula nˆij =

ni. · n.j n

, per i =

1 , 2 , 3 e j = 1, 2 , 3 :

Y X (18; 22] (22; 26] (27; 30] ni.

Istituto tecnico

Liceo 12.10 20.17 22.73 55 Altro 11.66 19.43 21.91 53 n.j 33 55 62 150

Tale tabella è quella che si sarebbe realizzata se ci fosse stata indipendenza tra X e Y. Negli esempi reali difficilmente si osservano tabelle di esatta indipendenza ma se la tabella osservata fosse “vicina” alla tabella teorica allora si potrebbe concludere che i caratteri indagati sono prossimi all’indipendenza. L’indice X^2 , descritto nel seguente paragrafo, serve proprio come misura di distanza tra la tabella osservata e quella teorica.

1.3.1 La connessione e l’indice X^2

Si dice che esiste un legame tra due caratteri X e Y se essi non sono indipendenti e la presenza di un legame è detta connessione. La condizione opposta rispetto all’indipendenza è la massima connessione. Due caratteri X e Y si dicono massimamente connessi se data una modalità di uno dei due caratteri, l’altro può assumere una ed una sola modalità. In altri termini, c’è massima connessione tra X e Y se c’è dipendenza funzionale esatta di un carattere dall’altro. Essenzialmente c’è massima connessione nei seguenti 3 casi:

per tabelle di contingenza quadrate (h = k) se c’è corrispondenza biunivoca tra le modalità dei due caratteri; ad esempio

Y X y 1 y 2 y 3 ni. x 1 n 11 0 0 n 11 x 2 0 0 n 23 n 23 x 3 0 n 32 0 n 32 n.j n 11 n 32 n 23 n

Y

X y 1 y 2 y 3 ni. x 1 n 11 0 0 n 11 x 2 0 n 22 0 n 22 x 3 0 0 n 33 n 33 n.j n 11 n 22 n 33 n

per tabelle di contingenza rettangolari con più righe che colonne (h > k), se data una modalità di X si individua una sola modalità di Y ; si dice che Y è massimamente connessa ad X (Y dipende funzionalmente da X),

Y

X y 1 y 2 y 3 ni. x 1 n 11 0 0 n 11 x 2 0 n 22 0 n 22 x 3 0 0 n 33 n 33 x 4 0 0 n 43 n 43 n.j n 11 n 22 n. 3 n

per tabelle di contingenza rettangolari con più colonne che righe k > h, se data una modalità di Y si identifica una sola modalità di X; si dice che X è massimamente connessa ad Y (X dipende funzionalmente da Y ),

Y X y 1 y 2 y 3 y 4 ni. x 1 n 11 0 0 n 14 n 1. x 2 0 n 22 0 0 n 22 x 3 0 0 n 33 0 n 33 n.j n 11 n 22 n. 3 n

Solitamente una tabella di contingenza costruita su dati reali non è nè di massima connessione nè di indipendenza. Quando non c’è indipendenza si dice che c’è con- nessione tra i due caratteri studiati ed è interessante stabilire il grado di connessione esistente. In modo semplicistico si può affermare che il legame tra X e Y è tanto è più forte quanto più la tabella osservata dei dati è lontana dalla tabella teorica di indipendenza e vicina ad una tabella di massima connessione. Quindi per misurare il grado di connessione si usa una sorta di misura di distanza tra tabella osservata e tabella teorica. La differenza nij − nˆij è detta contingenza (i, j)-esima e misura la distanza tra la frequenza osservata e quella attesa in ipotesi di indipendenza. Ov- viamente c’è indipendenza solo se tutte le h × k contingenze sono nulle ossia se si osservano le frequenze teoriche. Una misura di distanza complessiva tra la tabella osservata e la tabella teorica è l’indice X^2 di Pearson:

X^2 =

∑^ h

i=

∑^ k

j=

(nij − nˆij )^2 n ˆij

, ˆnij =

ni. · n.j n

che tiene conto di tutte le contingenze. Ovviamente il valore minimo di X^2 è lo zero, che viene assunto solo quando tutte le contingenze sono nulle ossia se c’è indipendenza. Si può dimostrare inoltre che l’indice X^2 assume il suo massimo valore (max X^2 ) solo in presenza di massima connessione e che

max X^2 = n · min{h − 1; k − 1 }.

Un’espressione di X^2 equivalente alla (1), ma più agevole dal punto di vista compu- tazionale, è la seguente:

X^2 = n

( (^) h ∑

i=

∑^ k

j=

n^2 ij ni. · n.j

Essendo X˜^2 = 0. 0406 un valore molto prossimo allo zero, possiamo concludere che sulla base dei dati analizzati sembra non esserci alcun legame tra “voto medio” e “istituto di provenienza”.

Esempio 5. In uno studio demografico/sociale si vuole stabilire se il numero di figli (carattere Y ) può dipendere dal paese di provenienza dei genitori (carattere X). A questo scopo si intervistano 200 famiglie provenienti da tre diversi paesi: A, B e C; i dati sono riportati nella seguente tabella osservata, in cui il carattere Y è stato riclassificato in: famiglie con un solo figlio, famiglie con 2 o 3 figli e famiglie numerose (con 4-5 figli).

Y X 1 2 − 3 4 − 5 ni. A 10 30 30 70 B 20 15 15 50 C 30 40 10 80 n.j 60 85 55 200

Per stabilire se il carattere Y dipende da X calcoliamo l’indice X˜^2 = X^2 / max X^2. Il valore massimo di X^2 è

max X^2 = n · min{h − 1; k − 1 } = 200 · min{2; 2} = 200 · 2 = 400.

Per determinare il valore di X^2 usiamo la formula (2) che è più facile da applicare, perché non necessita del calcolo di tutte le contingenze. La seguente tabella riporta

tutti i termini n^2 ij ni.·n.j , la cui somma compare nella formula di^ X

n^2 ij ni.·n.j 1 2 −^3 4 −^5 A 102 /(70 · 60) = 0. 024 302 /(70 · 85) = 0. 151 302 /(70 · 55) = 0. 234 B 0.133 0.053 0. C 0.188 0.235 0.

Da cui

X^2 = n

( (^) h ∑

i=

∑^ k

j=

n^2 ij ni. · n.j

e l’indice di Pearson normalizzato è

X^ ˜^2 = X

2 max X^2

Essendo X˜^2 = 0. 0615 un valore molto prossimo allo zero, possiamo concludere che sulla base dei dati analizzati sembra che il numero dei figli non dipenda dal paese di provenienza dei genitori. Tuttavia se si analizza la tabella osservata per righe, calcolando le frequenze relative di Y condizionate alle varie modalità di X (le distribuzioni del numero di figli nei 3 paesi):

Y

X 1 2 − 3 4 − 5 Somme A 0.14 0.43 0.43 1 B 0.4 0.3 0.3 1 C 0.375 0.5 0.125 1

si può notare che nei paesi A e C più del 40% delle famiglie hanno 2-3 figli ma c’è un andamento opposto per quanto riguarda la prima e l’ultima modalità di Y : circa il 40% delle famiglie provenienti da A hanno 4-5 mentre all’incirca il 37% delle famiglie provenienti da C hanno un solo figlio. Inoltre, per quanto riguarda il paese B, abbiamo un andamento completamente diverso: più o meno la stessa percentuale di coppie hanno un figlio, 2-3 figli e 4-5 figli. La diversità tra queste tre distribuzioni di frequenze relative condizionate contraddice la conclusione che Y non dipende da X. Si ricorda infatti che indipendenza significa uguaglianza tra distribuzioni condizionate, per cui se c’è un’evidente diversità tra le distribuzioni condizionate allora c’è connessione, come in questo esempio. In statistica inferenziale si introdurrà un nuovo e più accurato strumento (il test del chi-quadrato) atto a verificare la prossimità di X^2 a zero (condizione di indipendenza) e si vedrà che con tale metodologia si concluderà che i dati osservati sostengono l’ipotesi che Y dipenda da X.

1.4 La dipendenza in media

L’indice X^2 di Pearson normalizzato serve a stabilire se esiste un qualche legame tra i caratteri X e Y e a misurarne l’intensità. Qualora si possa concludere che X e Y sono connessi, si può voler indagare sul tipo di legame che intercorre tra X e Y. Il primo passo è quello di dare un ruolo specifico alle due variabili, che non possono più essere trattate in modo simmetrico. Una deve svolgere il ruolo di variabile esplicativa (che spiega) o indipendente, l’altra quello di variabile spiegata (o dipendente). É la natura del problema oggetto di studio e la logica che suggeriscono il ruolo delle due variabili. Chiamiamo Y la variabile dipendente e X quella esplicativa. Se Y è quantitativa una tipologia di legame che possiamo indagare è la dipendenza in media di Y da X. In altri termini, si vuole stabilire se la media di Y cambia significativamente a seconda delle modalità (numeriche o meno) assunte da X. Cominciamo col definire i nuovi concetti di: medie e varianze, marginali e condizionate. Si ricorda che letta per righe la tabella di contingenza dei dati riporta le h distribuzioni condizionate di Y da x 1 ,... , xh, mentre l’ultima riga riporta la distribuzione marginale di Y :

1.5 Proprietà di media e varianza marginali

Come già sottolineato si hanno h medie condizionate Y , ¯y 1 ,... , y¯h, una in ciascun gruppo individuato dalle h modalità di X:

Gruppi (X) y¯i ni. x 1 y¯ 1 n 1. .. .

x 2 y¯i ni. .. .

xh y¯h nh. Totali n

Proprietà associativa della media marginale. La media delle medie condi- zionate, pesata con la dimensione del gruppo, coincide con la media marginale di Y : ∑h i=1 y¯i^ ·^ ni. n

= ¯y

La varianza delle h medie condizionate Y , pesata con la dimensione del gruppo, è detta varianza between

s ˜^2 B =

∑h i=1(¯yi^ −^ y¯)

(^2) · ni. n

e misura il grado di diversità delle medie condizionate, quindi in un certo senso misura la diversità delle unità statistiche dovuta all’appartenenza a gruppi distinti.

Si hanno anche h varianze condizionate Y , ˜s^21 ,... , s˜^2 h, una in ciascun gruppo individuato dalle h modalità di X. La media delle varianze condizionate, indicata con ˜s^2 W ,

˜s^2 W =

∑h i=1 ˜s

2 i ·^ ni. n

è detta varianza within e non coincide con la varianza marginale Y.

Si può dimostrare che il numeratore della varianza marginale (detto devianza marginale) può essere scritto come somma di due quantità positive:

∑^ k

j=

(yj − y¯)^2 · n.j =

∑^ h

i=

(¯yi − y¯)^2 · ni. +

∑^ h

i=

∑^ k

j=

(yj − y¯i)^2 · nij

∑^ h

i=

(¯yi − y¯)^2 · ni. +

∑^ h

i=

˜s^2 i · ni.

Dividendo per n entrambi i membri della precedente equazione, si ottiene la scom- posizione della varianza marginale:

∑k j=1(yj^ −^ y¯) (^2) · n.j

n

∑h i=1(¯yi^ −^ y¯)

(^2) · ni. n

∑h i=1 ˜s

2 i ·^ ni. n

Proprietà di scomposizione della varianza marginale. La varianza margi- nale è data dalla varianza delle medie condizionate più la media delle varianze condizionate: s ˜^2 Y = ˜s^2 B + ˜s^2 W

1.6 Indipendenza in media e indice di dipendenza η^2

L’identità ˜s^2 Y = ˜s^2 B + ˜s^2 W ci dice che la varianza marginale di Y (che misura la variabilità complessiva di Y sulle n unità statistiche) è data dalla somma di due componenti positive:

la varianza between (o spiegata) che misura la variabilità delle unità statistiche dovuta all’appartenenza a gruppi distinti;
la varianza within (o residua) che, essendo la media delle varianze condizionate, misura la variabilità naturale delle unità statistiche all’interno dei vari gruppi.

Se le medie condizionate y¯ 1 ,... , ¯yh sono tutte uguali tra loro si dice che Y è indi- pendente in media da X. Si noti che se y¯ 1 = ¯y 2 = · · · = ¯yh allora la loro varianza è nulla, ossia s˜^2 B = 0; d’altra parte se ˜s^2 B = 0 significa che y¯i = ¯y per ogni i = 1,... , h. Quindi tutte le medie condizionate di Y coincidono (ossia Y è indipendente in media da X) se e solo se s ˜^2 B = 0.

Quando si lavora con dati reali non si realizza mai una condizione di esatta indi- pendenza in media di un fenomeno da un altro, solitamente le medie condizionate sono distinte. Tuttavia se le medie condizionate sono distinte ma vicine tra loro, allora c’è bisogno di un indice che misuri il grado di dipendenza in media di Y da X. L’indice di dipendenza η^2 ha proprio questo scopo:

η^2 =

˜s^2 B ˜s^2 Y

Si noti che 0 ≤ η^2 ≤ 1 , in particolare

η^2 = 0 solo quando s˜^2 B = 0 ossia se e solo se Y è indipendente in media da X. In questo caso tutte le medie condizionate di Y coincidono e c’è solo variabilità naturale nei dati.

alla variabilità naturale allora anche piccole differenze nelle medie condizionate po- trebbero non essere trascurabili e bisognerebbe concludere X influenza Y. Vedremo uno strumento di statistica inferenziale (la tecnica ANOVA) più preciso di η^2 che ci permetterà di stabilire se piccole differenze tra le medie condizionate siano da consi- dersi “significative” e quindi dovute all’appartenenza a gruppi distinti (X influenza Y ) oppure debbano essere imputate solo al caso e si possa concludere che X non influenza in media (o influenza poco) Y.

Esempio 2 (continua). Con riferimento ai dati riportati nell’Esempio 2, ci si chiede quanta “attività sportiva” svolgano mediamente i fumatori. Si risponda alla domanda dapprima senza tener conto di quanto fumino (ossia marginalmente), poi separatamante nelle tre fasce di “numero di pacchetti di sigarette fumate” (modalità di X).

A questo scopo determiniamo la media di Y per tutti i 18 fumatori a prescindere da quanto fumino, ossia usando le frequenze marginali e nei tre gruppi individuati dalle modalità di X, ossia condizionatamente alle modalità di X (queste tre medie sono le medie condizionate di Y e si calcolano usando le distribuzioni condizionate di Y ). La media marginale di Y si ottiene utilizzando le frequenze marginali del fenomeno d’interesse nell’usuale formula della media aritmetica:

y ¯ =

∑k j=1 yj^ ·^ n.j n

Organizzando i conti nella seguente tabella:

Y n.j yj (valori centrali) yj · n.j (0; 7] 12 3.5 3. 5 · 12 = 42 (7; 14] 5 10.5 10. 5 · 5 = 52. 5 (14; 21] 1 17.5 17. 5 Totali 18 112

si ottiene y¯ = 112/18 = 6.¯ 2 , ossia i fumatori svolgono un’attività sportiva circa 6 volte al mese.

Le medie condizionate di Y si ottengono utilizzando le frequenze condizionate nel- l’usuale formula della media aritmetica. La tabella dei dati letta per righe riporta le frequenze assolute condizionate di Y :

yj (valori centrali) X (Gruppi) 3. 5 10. 5 17. 5 ni. (0; 15] 6 3 0 9 (15; 30] 5 1 1 7 (30; 45] 1 1 0 2

Si noti che i tre gruppi individuati dalle modalità di X hanno numerosità diversa: 9, 7 e 2 rispettivamente. Per questa ragione il denominatore delle tre medie con- dizionate non è pari ad n ma alla numerosità del gruppo in cui stiamo facendo la

media. Poiché il carattere condizionante X presenta tre modalità si hanno tre medie condizionate di Y (indicate con y¯i per i = 1, · · · , h):

y ¯ 1 =

j=1 yj^ ·^ n^1 j n 1.

; y¯ 2 =

j=1 yj^ ·^ n^2 j n 2.

; y¯ 3 =

j=1 yj^ ·^ n^3 j n 3.

Organizzando i conti nel seguente modo:

Gruppo 1: (0; 15] Gruppo 2: (15; 30] Gruppo 3: (30; 45] yj n 1 j yj · n 1 j n 2 j yj · n 2 j n 3 j yj · n 3 j

5 6 3. 5 · 6 = 21 5 3. 5 · 5 = 17. 5 1 3.
5 3 10. 5 · 3 = 31. 5 1 10.5 1 10.
5 0 0 1 17.5 0 0 Totali 9 52.5 7 45.5 2 14

si ottengono le seguenti tre medie conzionate:

y ¯ 1 = 52. 5 /9 = 5.8¯ 3 , y¯ 2 = 45. 5 /7 = 6. 5 , y¯ 3 = 14/2 = 7.

Si noti che tre medie condizionate sono diverse tra loro, ciò permette di asserire che il comportamento medio in termini di attività sportiva è diverso nei tre gruppi di fumatori? Attraverso l’indice di dipendenza η^2 si può valutare (almeno indicativamente) se il comportamento rispetto all’attività sportiva è diverso per le tre fascie di fumatori ovvero se invece si è prossimi alla condizione di indipendenza in media per cui si può concludere che tutti i fumatori hanno le stesse abitudini sportive. Per calcolare η^2 vanno determinate s˜^2 B e ˜s^2 Y. Organizziamo i risultati in una tabella:

Gruppi y¯i ni. ¯y i^2 · ni. (0; 15] 5 .8¯ 3 9 (5.8¯3)^2 · 9 = 305. 9 (15; 30] 6.5 7 (6.5)^2 · 7 = 295. 75 (30; 45] 7 2 49 · 2 = 98 Totali 18 699.

s ˜^2 B =

∑h i=1(¯yi^ −^ y¯)

(^2) · ni. n

∑h i=1 y¯

2 i ·^ ni. n

−y¯^2 =

−(6.222)^2 = 38. 869 − 38 .713 = 0.156;

Per determinare

s ˜^2 Y =

∑k j=1 y 2 j ·^ n.j n

− y¯^2 ,

organizziamo i conti nel seguente modo:

yj n.j y^2 j · n.j 3.5 12 12. 25 · 12 = 147 10.5 5 110. 25 · 5 = 551. 25 17.5 1 306. 25 Totali 18 1004.

da cui si ottiene: ˜s^2 Y = 1004. 5 / 18 − (6.¯2)^2 = 55. 805 − 38 .713 = 17. 092. Essendo η^2 = 170.^156. 092 = 0. 009 un valore molto prossimo a zero si può concludere che il comportamento (medio) dei fumatori in termini di attività sportiva non cambia nelle tre fasce di pacchetti di sigarette fumate ossia non dipende da quanto si fuma.