Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Distribuzioni Bivariate: Tabella 5.1.2 - Prof. Marcheselli, Appunti di Statistica

La sequenza delle coppie di determinazioni rilevate per due variabili X e Y. La tabella fornita mostra la frequenza assoluta di unità in cui sono state rilevate determinate coppie di determinazioni per le variabili X e Y. La distribuzione bivariata di X e Y può essere rappresentata mediante le terne (cj, dl, njl), con j = 1, 2, ..., k e l = 1, 2, ..., h.

Tipologia: Appunti

2020/2021

Caricato il 11/04/2021

Malekrh
Malekrh 🇮🇹

6 documenti

1 / 13

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
68
5. DISTRIBUZIONI BIVARIATE
5.1 Introduzione
Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere
l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. In questo capitolo si
estenderà l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili contemporaneamente.
In questa situazione si possono studiare le caratteristiche delle singole variabili anche se l’interesse
principale consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne
l’intensità.
Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle
cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X
e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili
considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e
possono essere dello stesso tipo, oppure di tipo diverso.
Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo
caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività
economica (commercio, trasporti, credito, ) e il numero di addetti, per cui si tratta di una variabile
qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il
consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate di tipo continuo.
L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di
modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Queste n coppie, indicate
genericamente nel modo seguente
(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn),
possono essere sistemate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e yi vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base
all’ordine di rilevazione.
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Anteprima parziale del testo

Scarica Distribuzioni Bivariate: Tabella 5.1.2 - Prof. Marcheselli e più Appunti in PDF di Statistica solo su Docsity!

5. DISTRIBUZIONI BIVARIATE

5.1 Introduzione Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. In questo capitolo si estenderà l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili contemporaneamente. In questa situazione si possono studiare le caratteristiche delle singole variabili anche se l’interesse principale consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità. Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle cosiddette distribuzioni bivariate. Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e possono essere dello stesso tipo, oppure di tipo diverso. Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo quantitativo e possono essere considerate di tipo continuo. L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Queste n coppie, indicate genericamente nel modo seguente

( x 1 , y 1 ), ( x 2 , y 2 ), ..., ( xi , yi ), ..., ( xn , yn ),

possono essere sistemate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e yi vengono

indicate le determinazioni delle variabili X e Y rilevate sull' i - esima unità ( i = 1, 2, …, n ) ordinate in base all’ordine di rilevazione.

Tabella 5.1. Esempio di sequenza di coppie relative a n osservazioni X x 1 x 2 ... xi ... xn Y y 1 y 2 ... yi ... yn

Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se si tratta di un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che assume valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le seguenti modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle coppie di determinazioni rilevate.

Tabella 5.1. Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità (elencate secondo l’ordine di rilevazione)

X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 Y A F V A A F V V V A F V V V A V A V A V

Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che

ha acquistato azioni, mentre il nono cliente, non è un pensionato e ha acquistato una polizza vita.

Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base della sequenza ordinate delle determinazioni assunte da una o dall'altra variabile, così come si è già visto nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.

5.2 Distribuzioni bivariate In modo analogo al caso univariato, le osservazioni relative ad una coppia di variabili qualitative o quantitative discrete possono essere sintetizzate mediante la costruzione della distribuzioni di frequenza (bivariata), che viene di solito rappresentata mediante un prospetto che si chiama tabella a doppia entrata. A questo scopo, siano c 1 , …, ck le k determinazioni distinte della variabile X e d 1 , …, dh le h determinazioni

distinte della variabile Y. Per ogni coppia di determinazioni ( cj,dl ) con j = 1, 2, ..., k e l = 1, 2, ..., h , njl ,è la

frequenza assoluta corrispondente, ovvero rappresenta il numero di unità sulle quali sono state rilevate contemporaneamente le determinazioni cj e dl rispettivamente delle variabili X e Y. La distribuzione

Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche esaminate, per cui risulta

n n n n.

k j

h l

jl

h l

.l

k ji

 j.  

= = = =

= = = 1 1 1 1

Tabella 5.2. Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007 Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi Mese\Residenza Italiani Stranieri Gennaio 2863439 1509739 4373178 Febbraio 2898551 1951340 4849891 Marzo 3518301 2660268 6178569 Aprile 4782364 3662612 8444976 Maggio 4091207 4677447 8768654 Giugno 6212762 4992022 11204784 Luglio 6566385 5963598 12529983 Agosto 7818714 5232409 13051123 Settembre 4647082 5246572 9893654 Ottobre 3318629 3718105 7036734 Novembre 2924948 1768584 4693532 Dicembre 3398903 1446432 4845335 53041285 42829128 95870413

In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri” rappresenta il numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del 2007. Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo durante il 2007. In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373 178 è il numero di arrivi negli esercizi ricettivi in Italia nel gennaio 20 07 , senza tenere conto della residenza dei clienti.

Se le variabili rilevate sono qualitative o quantitative discrete la distribuzione congiunta delle due variabili contiene le stesse informazioni della sequenza originaria.

Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di

informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, così come accadeva nel caso univariato. In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole determinazioni cj e dl ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra

e chiusi a destra, se non sarà diversamente specificato). Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con

l'intervallo cj - 1 − cj e la colonna indicata con l'intervallo dl - 1 − dl il simbolo njl rappresenta il numero di unità

su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo ( cj - 1 , cj ] e valori della

Y compresi nell’intervallo ( dl - 1 , dl ].

Esempio 5.2. Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due diversi gruppi di unità

Gruppo 1 233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325 Gruppo 2 344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213

si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle classi 130-180, 180-220, 220-250, 250-350.

La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo X\Y 130 - 180 180 - 220 220 - 250 250 - 350 1 0 5 8 7 20 2 5 7 5 3 20 5 12 13 10 40

Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori, si è utilizzato un raggruppamento in classi.

Tabella 5.2. Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT) Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola

Consumo 21. 0 21. 6 22. 2 21. 8 22. 0 23. 0 24. 0 23. 6 24. 2 22. 0 Reddito 30. 2 30. 6 31. 2 32. 0 34. 2 Consumo 23. 4 24. 2 23. 6 24. 4 25. 8

Tabella 5.2. Distribuzione sintetica ottenuta dalla tabella 5.2. reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26 22 – 25 4 2 2 0 8 25 – 27 1 3 1 0 5 27 – 29 0 2 3 1 6 29 – 35 0 1 2 3 6 5 8 8 4 25

Esempio 5.2. Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente

In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.

Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1. X\Y A F V 0 5 3 6 14 1 2 0 4 6 7 3 10 20

5.3 Frequenze relative Analogamente a quanto visto per le distribuzioni univariate, anche la distribuzione congiunta delle due variabili X e Y può essere descritta mediante le frequenze relative, anziché mediante le frequenze assolute. Queste frequenze si calcolano dividendo le frequenze assolute per il numero totale di osservazioni

n

n f (^) jl = jl ,

e indicano la frazione di unità su cui sono state osservate le determinazioni cj e dl rispettivamente della X e

della Y. Si ha evidentemente

f ,

k j

h l

jl^1 1 1

^ =

= =

mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata si ottengono rispettivamente sommando le frequenze di colonna o di riga.

.l

k j

 f^ jl = f

= 1

l = 1, 2, …, h 5.3.

j.

h l

 f^ jl = f

= 1

j = 1, 2, …, k 5.3.

con

f f.

h l

.l

k j

j.^1 1 1

= =

La distribuzione bivariata o congiunta di X e Y può essere rappresentata mediante le terne ( cj , dl , fjl ) con

j= 1, 2, ..., k e l = 1, 2, ..., h. Nella tabella 5.3.1 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2. 6 dove le frequenze assolute sono state sostituite con quelle relative.

Tabella 5.3. Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2. 6 reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26 22 – 25 0. 16 0. 08 0. 08 0. 00 0. 32 25 – 27 0. 04 0. 12 0. 04 0. 00 0. 20 27 – 29 0. 00 0. 08 0. 12 0. 04 0. 24 29 – 35 0. 00 0. 04 0. 08 0. 12 0. 24

  1. 20 0. 32 0. 32 0. 16 1. 00

Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza. Esempio 5.3. Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti frequenze relative .

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo (frequenze relative) X\Y 130 - 180 180 - 220 220 - 250 250 - 350 1 0 .000 0.125 0.200 0.175 0. 2 0.125 0.175 0.125 0.075 0. 0.125 0.300 0.325 0.250 1.

In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente, ottenendo le frequenze relative di riga , che consentono di effettuare questi confronti quale che sia la numerosità di ciascun gruppo. Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i valori riportati nella tabella successiva.

Tabella 5.3. Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3. reddito\consumo 18 – 20 20 - 22 22 – 24 24 – 26 22 – 25 0. 50 0. 25 0. 25 0. 00 1. 00 25 – 27 0. 20 0. 60 0. 20 0. 00 1. 00 27 – 29 0. 00 0.17 0. 50 0.03 1. 00

Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della Y alle diverse determinazioni (o classi di valori) della X.

Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile, condizionate alle classi di età delle pazienti.

Tabella 5.3. Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente^1

  • Femmine - Frequenze relative di riga età\tipo A B C D E F  14 0.^062 0.^019 0.^158 0.^442 0.^146 0.^173 1.^000 14 - 19 0. 060 0. 090 0. 129 0. 527 0. 050 0. 144 1. 000 20 - 29 0. 064 0. 615 0. 073 0. 164 0. 048 0. 036 1. 000 30 - 39 0. 072 0. 549 0. 054 0. 201 0. 044 0. 080 1. 000 40 - 49 0. 160 0. 363 0. 069 0. 224 0. 059 0. 125 1. 000 50 - 59 0. 208 0. 226 0. 066 0. 203 0. 091 0. 206 1. 000

(^1) Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.

65 e + 0. 371 0. 075 0. 157 0. 177 0. 049 0. 171 1. 000

A = cardiologiche, B = ginecologiche ed ostetriche, C = oculistiche, D = odontoiatriche, E = otorinolaringoiatriche, F = ortopediche

Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con un'età inferiore a 20 anni e superiore a 60. Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione cj (o alla j - esima classe) della X si utilizza indifferentemente le seguenti notazioni

Y|X= cj o Y| cj j = 1, 2, ..., k ,

mentre le frequenze relative condizionate corrispondenti si ottengono dai rapporti

j.

jl j.

jl f

f n

n = , 5.4.

dove

1 1 1

 =^ ^ =

= =

k j j.

k jl j j.

jl f

f n

n j = 1, 2, ..., k. 5.4.

Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile X condizionata ad una generica determinazione yl (o alla l - esima classe) della Y, si utilizzano ovviamente

le notazioni X|Y= dl o X| dl , l = 1, 2, ..., h.

mentre le frequenze relative condizionate corrispondenti sono date dal rapporto

.l

jl .l

jl f

f n

n = , 5.4.

dove

1 1 1

 =^ ^ =

= =

h l .l

h jl l .l

jl f

f n

n l = 1, 2, ..., h.

si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente (X). Distribuzioni relative del voto di diploma condizionate allo stato degli studenti X\Y (^)  80 81 − 90 > Abbandono 0.600 0.300 0.100 1. Iscritto 0.225 0.500 0.275 1.