1

Statistica descrittiva bivariata

Dispensa ad u so degli studenti

Redatta dai proff. Gian Carlo Blangiardo e Michela Cameletti

Tabelle di co ntingenz a

La statistica descrittiva bivariata si o ccupa d ell’analisi di due variabili congiuntamente considerate; in

particolare, risulta interessante s apere s e, e in qualche modo, le due variabili si influenzano o se, al

cont rario, si manifestano una indipendentemente dall’altra. A questo proposito verranno presentati, in

seguito, alcuni indici in grado di interpretare il tipo di legame esistente tra due variabili. Prima di

procedere risulta tuttavia indispensabile acquisire il concetto di distribuzione di frequenza bivariata. In

definitiva, si tratta di raccogliere i dati in una tabella a doppia entrata (o tabella di contingen za) in

grado di mostrare congiuntamente le modalità dei due caratteri.

Si ipotizzi, ad esempio, di costruire la tabella a doppia entrata per le va riabili X “sesso” e W

“gradimento”:

Tabella 3: esempio di tabella a doppia entrata

W

X

Basso

w1

Medio

w2

Alto

w3

somma 

Femmina

x1

4

(n11)

3

(n12)

4

(n13)

11

n1.

Maschio

x2

4

(n21)

2

(n22)

3

(n23)

9

n2.

somma 

8

n.1

5

n.2

7

n.3

20

N

La tabella a doppia entrata m ostra sulle righe le m odalità della variabile X (“femm ina” e “maschio”) e

sulle colonne le modalità di W (“basso”, “m edio” e “alto”); la tabella, inoltre, è composta dalle

seguenti distribuzioni:

1. distribuzione congiunt a di X e di W: le frequenze congiunte (assolute) nij, che si

trovano al centro della tabella, stanno ad indicare quante unità statisti che hanno m anifestato

cont emporaneamente la m odalità xi e la modalità wj (ad esempio, ci sono 4 femm ine che

hanno espresso un giudizio basso, ci sono 3 m aschi con un giudizio alto e così via). Si oss ervi

che il numero delle celle contenenti l e frequenze congiunte è dato dal prodotto del nu mero

di righe h per il numero di colonne k, per cui la scrittura corretta prevede l’utilizzo del

doppio pedice nij (i=1,2,…,k; j=1,2,…,h);

2. distribu zione marginale di X: considerando solamente la prima e l’ultim a colonna della

tabella a d oppia entrata, si ottiene la distribuzione di frequenza marginale della va riabile X,

eliminando così l’effetto della variabile W. Le frequenze (assolute) della variabile X sono

dette frequenze marginali (assolute) e si indicano con ni. (i=1,2,…,k);

3. distribuz ione marginale di W: consid erando solamente la prima e l’ultima riga della tabella a

doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile W,

eliminando così l’effetto della variabile X. Le frequenze (assolute) della variabile W sono

dette frequenze margin ali (assolute) e si indicano con n.j (j=1,2,…,h);

Fra le frequenze sopra elencate valgono le seguenti relazioni:

1.





h

jijinn

1

.

(somma per riga)

2.





k

iijjnn

1

.

(somma per colonna)

3.

  



k

i

h

jij

h

jj

k

iinnnn

1 11 .

1.

(somma per riga e per colonna)

Analisi Bivariata: Indipendenza Statistica, Associazione e Cograduazione - Prof. Sarnacchi, Dispense di Statistica Descrittiva

Documenti correlati

Anteprima parziale del testo

Scarica Analisi Bivariata: Indipendenza Statistica, Associazione e Cograduazione - Prof. Sarnacchi e più Dispense in PDF di Statistica Descrittiva solo su Docsity!

Statistica descrittiva bivariata

Dispensa ad uso degli studenti

Tabelle di contingenza

La statistica descrittiva bivariata si o ccupa dell’analisi di due variabili congiuntamente considerate; in

particolare, risulta interessante sapere se, e in qualche modo, le due variabili si influenzano o se, al

contrario, si manifestano una indipendentemente dall’altra. A questo proposito verranno presentati, in

seguito, alcuni indici in grado di interpretare il tipo di legame esistente tra due variabili. Prima di

pro cedere risulta tuttavia indispensabile acquisire il con cetto di distribuzione di frequenza bivariata. In

definitiva, si tratta di raccogliere i dati in una tabella a doppia entrata (o tabella di contingenza ) in

grado di mostrare congiuntamente le modalità dei due caratteri.

Si ipotizzi, ad esempio, di costruire la tabella a doppia entrata per le variabili X “sesso” e W

“gradimento”:

Tabella 3: esempio di tabella a doppia entrata

W

X

N

La tabella a doppia entrata mostra sulle righe le modalità della variabile X (“femmina” e “maschio”) e

sulle colonne le modalità di W (“basso”, “medio” e “alto”); la tab ella, inoltre, è composta dalle

seguenti distribuzioni:

1. distribuzione congi unta di X e di W : le frequenze congiunte (assolute) nij , che si

trovano al centro della tabella, stanno ad indicare quante unità statistiche h anno manifestato

contemporaneamente la modalità xi e la modalità wj (ad esempio, ci sono 4 femmine che

hanno espresso un giudizio basso, ci sono 3 maschi con un giudizio alto e così via). Si osservi

ch e il numero delle celle contenenti le frequenze congiunte è dato dal prodotto del numero

di righe h per il numero di colonne k, per cui la scrittura co rretta preved e l’utilizzo del

doppio pedice nij (i=1,2,…,k; j=1,2,…,h);

2. distribuzione marginale di X: considerando solamente la prima e l’ultima colonna della

tabella a doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile X,

eliminando così l’effetto della variabile W. Le frequenze (assolute) della variabile X sono

dette frequenze margin ali (assolute) e si indicano con ni. (i=1,2,…,k);

3. distribuzione marginale di W: considerando solamente la prima e l’ultima riga della tabella a

doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile W,

eliminando così l’effetto della variabile X. Le frequ enze (assolute) della variabile W sono

dette frequenze marginali (assolute) e si indicano con n.j (j=1,2,…,h);

Fra le frequ enze sopra elen cate valgono le seguenti relazioni:

ni nij

. (somma per riga)

n j nij

. (somma per colonna)

ni n n n

. (somma per riga e p er colonna)

Qui di seguito vengono elen cate tutte le restanti tab elle a doppia entrata costruibili con le variabili a

disposizione contenute nella Tabella 1:

Z

Y

Z

Y

Z

Si noti come una tabella di contingenza possa essere costruita accoppiando variabili di diversa natura:

qualitativa (nominale o o rdinale) e qualitativa (nominale o ordinale), qualitativa (nominale o ordinale) e

quantitativa (discreta o continua in classi), quantitativa (discreta o continua in classi) e quantitativa

(discreta o continua in classi). A partire da una data tabella di contingenza sarà possibile affrontare lo

studio dei seguenti legami:

Poiché, già p er più di una cella, le frequenze osservate sono diverse da quelle teo riche (ad esempio, per

la prima cella della prima riga, la frequenza osservata è 4 mentre qu ella ch e si dovrebbe avere

teoricamente è 4,40) è possibile escludere l’esistenza di indipendenza statistica e affermare che esiste

conn essione. Per valutare se il livello di connessione è alto o basso, procediamo con il calco lo

dell’indice e con la sua normalizzazione:

L’indice Chi quadro è pari a 0,15 e, poiché è diverso da 0, conferma la presenza di un qualch e livello di

conn essione.

La sua normalizzazione:

porta ad affermare che il livello di connessione esistente tra X e W è molto basso.

Qui di seguito, tralasciando i passaggi svolti per il calcolo dell’indice di connessione per le altre coppie

di variabili; vengono riportati diversi valo ri standardizzati del Chi Quadro:

Tabella 4: valori dell’indice Chi quadro normalizzato p er le coppie di variabili considerate.

X Y Z W

X 0,13 0,62 0,

Y 0,13 0,37 0,

Z 0,62 0,37 0,

W 0,01 0,18 0,

Innanzitutto si noti la simmetria della tabella 4, a conferma ch e la relazione di indipendenza statistica è

bidirezionale; inoltre, dalla tabella emerge ch e tutte le variabili risultano, an ch e se con differenti

intensità, connesse le une con le altre. È pertanto possibile proced ere con analisi più approfondite che

indaghino i legame esistenti (se due variabili si fossero rivelate indipendenti, l’analisi statistica bivariata

non avrebb e potuto proseguire).

Associazione