





























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi a lezione di statistica bivariata.
Tipologia: Appunti
Offerta a tempo limitato
Caricato il 21/05/2021
4.2
(18)15 documenti
1 / 37
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






























In offerta
Obiettivi della lezione
Nome Studente Sesso Titolo di studio conseguito Età dello Studente Età del Fidanzato/a CODICE Andrea M maturità classica 33 31 1 Angela F maturità linguistica 19 24 2 Anna F maturità linguistica 22 20 3 Bruno M maturità Tecnico-professionale 19 18 4 Camilla F maturità scientifica 28 34 5 Carlo M maturità scientifica 31 27 6 Daniela F maturità classica 21 30 7 Daniele M maturità scientifica 21 25 8 Diana F maturità classica 26 29 9 Donata F maturità classica 30 35 10 Elena F maturità scientifica 19 21 11 Fabio M maturità scientifica 28 23 12 Federico M maturità Tecnico-professionale 23 25 13 Francesco M maturità Tecnico-professionale 19 17 14 Giovanna F maturità classica 24 21 15
Partiamo da una tabella che ci presenta una serie di informazioni su un contesto collettivo. Il collettivo è rappresentato da un gruppo di studenti universitari, 15 unità statistiche. Su queste unità statistiche è stato rilevato:
Nessuno vieta di fare il contrario, quindi Y righe e X colonne; posso anche cambiare le lettere che intestano righe e colonne. Se devo individuare un modo generale di identificare le modalità del carattere che intesta le righe e le modalità del carattere che intesta le colonne devo trovare un indice che chiameremo per esempio i, che identifica le singole modalità del carattere che intesta le righe: quindi avrò la modalità x con 1, x con 2 e cosi via. Quella generica la chiamerò x con i che prende il nome di indice di riga , tanto che i si muove da 1 a r , dove r è il numero delle righe. Se la tabella ha r righe, vuol dire che la i la farò muovere dal numero 1 al numero r. Le colonne si identificano con la lettera j, quindi avremo y con 1, y con 2 e cosi via. Quella generica la chiamerò y con j e che prende il nome di indice di riga, per si muove da 1 a s , dove s è il numero delle colonne. Nel corpo centrale ci stanno le numerosità congiunte. Ci siamo dovuti servire di due pedici, il pedice i e il pedice j. Utilizziamo due pedici perché il pedice i viene associato alla variabile che intesta le righe, mentre il pedice j viene associato alla variabile che intesta le colonne. Quindi un’altra novità importante è che adesso avremo un doppio pedice , perché abbiamo due caratteri che osserviamo congiuntamente. COME SI LEGGE LA TABELLA? Come si legge n11? —> numerosità congiunta associata alla modalità 1 del carattere X e alla modalità 1 del carattere Y Come si legge nij? —> numerosità congiunta associata alla modalità i-esima del carattere X e alla modalità j-esima del carattere Y. COSA C’E’ A MARGINE DESTRO E A MARGINE INFERIORE? Il margine destro più le numerosità ci danno la variabile statistica che abbiamo visto nella parte di univariata, quindi è come se noi potessimo identificare la nostra variabile univariata del carattere X. Qui non possiamo più mettere solo un pedice dato da una sola lettera, perché siamo in un mondo bivariato, quindi dobbiamo mettere alle n due pedici. Queste nuove numerosità le intestiamo con ni , che si ripete in tutte le celle. L’asterisco è posizionato al posto dell’indice di colonna quindi all’indice che cambia, perché il secondo indice identifica la posizione della colonna. Il margine inferiore più le numerosità ci danno la variabile statistica che abbiamo visto nella parte di univariata, quindi è come se noi potessimo identificare la nostra variabile univariata del carattere Y. Qui non possiamo mettere solo un pedice dato da una sola lettera, perché siamo in un mondo bivariato, quindi dobbiamo mettere alle n due pedici. Queste nuove numerosità le intestiamo con nj, che poi ripete in tutte le celle. L’asterisco è posizionato al posto dell’indice di riga quindi all’indice che cambia, perché il primo indice identifica la posizione della riga.
Al posto dell’asterisco puo anche esserci un punto. UNA TABELLA A DOPPIA ENTRATA… MA VARIE TIPOLOGIE DI NUMEROSITA’ nij = Numerosità congiunta : numero di unità statistiche che «possiedono» contemporaneamente la modalità i del carattere X (posizionato ad intestare le righe) e la modalità j del carattere Y (posizionato ad intestare le colonne). Esempio: n24: non va letto come «n ventiquattro» ma come numero di unità statistiche che «possiedono» la seconda modalità del carattere X e la quarta del carattere Y. ni= Numerosità marginale di riga : numero di unità statistiche che «possiedono» la modalità i del carattere X; è rappresentata dalla somma delle numerosità congiunte della riga i-esima. nj= Numerosità marginale di colonna : numero di unità statistiche che possiedono la modalità j del carattere Y; è rappresentata dalla somma delle numerosità congiunte della colonna j-esima. UNA TABELLA… TRE DIVERSE DISTRIBUZIONI
..
ni* .. nr*
Isoliamo righe e colon margini’ della tabella: n n. n. n
Per tale ragione è necessario preliminarmente riclassificare il carattere VOTO, per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2x4. La somma di tutte le unità statistiche riclassificate è 15. Che cos’è 8? È il numero delle femmine indipendentemente dal numero del voto, quindi senza stare a guardare il voto che hanno preso. Quanti maschi osservo indipendentemente dal voto che hanno preso? 7 IL DIAGRAMMA DI DISPERSIONE Prendiamo in esempio il caso della trattoria (10 unità statistiche), dove avevamo due caratteri quantitativi, il numero delle unioni e il reddito percepito. Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. La tabella riportata non è una tabella a doppia entrata, am è una tabella che riporta le coppie di valori osservati sulla variabile statistica doppia (E;U). UN ALTRO ESEMPIO Tabella con una variabile per classi Se osserviamo la distribuzione univariata del carattere VOTO all’esame di Stat. Soc. notiamo che il numero delle modalità è pari ad 11. Si tratta di un numero eccessivo che richiederebbe una tabella di difficile lettura: GENERE ( 2 modalità) x VOTO ( 11 modalità) = tabella 2 x 11. Per tale ragione è necessario preliminarmente riclassificare il carattere VOTO, per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2 x 4.
Voto I verifica (yi) n(yi) 18 2 19 1 20 1 21 2 22 1 23 1 25 2 26 1 27 1 28 1 30 2 Questa serve per capire come riclassificare il voto
0 1 2 3 4 0 2 4 6 8
Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. Ogni caso è identificato da un punto corrispondente sul piano. Il collettivo è colto sinteticamente in forma di nuvola di punti. In verticale valori di U
In orizzontale valori di E
U = N° Unioni E = Entrate N = 10 Il diagramma di dispersione 0 1 2 3 4 0 2 4 6 8 U E 3 4, 0 2, 2 3, 0 6, 4 4, 1 4, 3 1, 3 5, 2 5, 2 7, Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. Ogni caso è identificato da un punto corrispondente sul piano. Il collettivo è colto sinteticamente in forma di nuvola di punti. In verticale valori di U
In orizzontale valori di E
U = N° Unioni E = Entrate N = 10 Il diagramma di dispersione 0 1 2 3 4 0 2 4 6 8
Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. Ogni caso è identificato da un punto corrispondente sul piano. Il collettivo è colto sinteticamente in forma di nuvola di punti. In verticale valori di U
In orizzontale valori di E
U = N° Unioni E = Entrate N = 10
Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel d i a g r a m m a i p u n t i s i d i s t r i b u i s c o n o c o n u n a preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo e terzo (strategia di decelerazione nelle coppie precoci). Relazione inversa —> al crescere del primo figlio diminuisce il tempo intercorso tra il secondo e terzo figlio C’E’ CORRISPONDENZA TRA DIAGRAMMI E TABELLE I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età). I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. A NUBE DI PUNTI Un altro esempio (dati tratti da survey) n. Età al I f^ Mesi interc 1 16 56 2 16 72 3 17 66 4 19 75 5 20 48 6 22 54 7 23 66 8 25 36 9 25 42 10 26 48 11 26 36 12 27 39 13 29 36 14 30 33 15 32 36 16 33 27 Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: 25
Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel diagramma i punti si distribuiscono con una preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo terzo ( strategia di decelerazione nelle coppie precoci ) Un altro esempio (dati tratti da survey) n. Età al I f^ Mesi interc 1 16 56 2 16 72 3 17 66 4 19 75 5 20 48 6 22 54 7 23 66 8 25 36 9 25 42 10 26 48 11 26 36 12 27 39 13 29 36 14 30 33 15 32 36 16 33 27 Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: 25
Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel diagramma i punti si distribuiscono con una preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo terzo ( strategia di decelerazione nelle coppie precoci )
20 40 60 80 15 20 25 30 35 1 3 2 2 1 (^14 ) Diagrammi e tabelle non sono modi di rappresentazione prive di comunicazione tra loro!! I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. Età Interv Precoce (15-20] Bassa (20-25] Alta (25-30] Tardiva (30-35] Ampio (60 - 80] 3 1 0 0 4 Medio (40 – 60] 2 2 1 0 5 Stretto (20 – 40] 0 1 4 2 7
I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età). C’è corrispondenza tra diagrammi e tabelle 20 40 60 80 15 20 25 30 35 1 3 2 2 1 (^14 )
I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. Età Interv Precoce (15-20] Bassa (20-25] Alta (25-30] Tardiva (30-35] Ampio (60 - 80]
Medio (40 – 60]
Stretto (20 – 40]
(^5 4 5 2 16) Età Intervallo eri dicono quante osservazioni ci sono gni modalità della variabile statistica (intervallo; età).
20 40 60 80 15 20 25 30 35 1 3 2 2 1 (^14 ) Diagrammi e tabelle non sono modi di rappresentazione prive di comunicazione tra loro!! I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. Età Interv Precoce (15-20] Bassa (20-25] Alta (25-30] Tardiva (30-35] Ampio (60 - 80] 3 1 0 0 4 Medio (40 – 60] 2 2 1 0 5 Stretto (20 – 40] 0 1 4 2 7
I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età).
Obiettivi della lezione:
meno coinvolto. Potrei fare un’ipotesi che è legata al fatto che chi pratica intensamente sport ha delle capacità organizzative, sa gestire bene il suo tempo e quindi sa gestire bene nell’attività dello studio. Quindi anche in questo caso avremo due modalità: c’è il gruppo di chi pratica intensamente sport e il gruppo di chi è meno coinvolto. Quindi, esiste associazione o dipendenza, quando osservo dei cambiamenti nella distribuzione della variabile “risposta” al variare della variabile “esplicativa”. Se questo cambiamenti non li osservo vuol dire che non vi è alcun legame statistico tra le due variabili, vuol dire che le due variabili non sono connesse statisticamente e quindi si dirà che sono indipendenti. LE DISTRIBUZIONI CONDIZIONATE Per intuire i concetti di indipendenza\dipendenza (o associazione) statistica è utile considerare le distribuzioni di frequenza condizionate. Si tratta di osservare la distribuzione statistica di una delle due variabili considerate, « condizionatamente » alle modalità dell’altra variabile. Il termine condizionatamente è legato al fatto che stiamo per presentare queste distruzioni condizionate e perché vuol dire anche entro i gruppi definiti dalle modalità della variabile condizionante. Quest’ultima variabile è la variabile che per e ha un potere esplicativo. Questa variabile ha il potere di condizionare un’altra variabile, di influenzare un’altra variabile. LE FREQUENZE CONDIZIONATE O VINCOLATE (in linguaggio formale) Fj|i —> F di j dato i —> F di j condizionato a i (j identifica le colonne, i identifica le righe) —> frequenza condizionata della variabile che intesta le colonne condizionatamente a la variabile che intesta le righe i. Anche qui la somma delle frequenze condizionate deve essere pari a 1. Le frequenze condizionate si possono calcolare anche con le numerosità. Le frequenze condizionate o vincolate ( in linguaggio formale ) Yj Xi^ y^1 ..^ yj^ ..^ ys x 1 f 11 /f1* .. f1j /f1* .. f1s /f1* .. .. .. .. .. .. xi fi1 /fi* .. fij /fi* .. fis /fi* .. .. .. .. .. .. xr fr1 /fr* .. frj /fr* .. frs /fr* 1 .. 1 .. 1 Definiamo frequenza vincolata fj|i il rapporto tra la numerosità congiunta nij e la numerosità marginale di riga corrispondente ni* , o – indifferentemente - il rapporto tra la frequenza congiunta fij e la frequenza marginale di riga corrispondente fi * fj|i = nij / ni = fijN / fiN = fij / fi* ❑Per ogni riga vale la condizione di quadro 1 = (^6) j= 1 ..sfj|i ❑ Le frequenze vincolate possono essere calcolate anche per colonna, rapportando la numerosità/frequenza congiunta alla corrispondente marginale di colonna: fi|j = nij/nj = fij/fj** ❑ Ovviamente anche per ogni colonna vale la condizione di quadro 1 = (^6) i= 1 ..rfi|j Le frequenze condizionate o vincolate ( in linguaggio formale ) Yj Xi^ y^1 ..^ yj^ ..^ ys x 1 f 11 /f1* .. f1j /f1* .. f1s /f1* .. .. .. .. .. .. xi fi1 /fi* .. fij /fi* .. fis /fi* .. .. .. .. .. .. xr fr1 /fr* .. frj /fr* .. frs /fr* 1 .. 1 .. 1
❑Per ogni riga vale la condizione di quadro 1 = (^6) j= 1 ..sfj|i ❑ Le frequenze vincolate possono essere calcolate anche per colonna, rapportando la numerosità/frequenza congiunta alla corrispondente marginale di colonna: fi|j = nij/nj = fij/fj** ❑ Ovviamente anche per ogni colonna vale la condizione di quadro 1 = (^6) i= 1 ..rfi|j
Nell’esempio considerato i due gruppi sono definiti dai M (maschi) e dalle F (femmine), di numerosità rispettivamente pari a 9 e 11. LEGGERE UNA TABELLA CON LE FREQUENZE VINCOLATE Rispetto al gruppo dei maschi (o “ fatto 100 il gruppo dei maschi ” o “ considerando solo il gruppo dei maschi ») qual è il peso di 1 ragazzo con maturità classica, di 1 con maturità linguistica, di 4 con maturità scientifica e di 3 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 1/9; 1/9; 4/9; 3/9 e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. Analogamente per le femmine. Fatto 100 il gruppo delle femmine qual’è il peso di 5 ragazze con maturità classica, di 3 con maturità linguistica, di 2 con maturità scientifica e 1 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 5/11; 3/11; 2/11; 1/ e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. L’ultima colonna è la marginale della variabile che intesta le righe. Quindi è la distribuzione univariata o marginale del carattere titolo di studio. Qual’è la frequenza percentuale di osservare persone che si laureano in un liceo classico indipendentemente dal genere. Il peso percentuale di chi si diploma ad un classico è del 30%, mentre il peso di chi si diploma ad un linguistico è del 20%, di chi si diploma ad uno scientifico è del 30% ed infine di chi si diploma in u tecnico professionale è del 20%. Per fare questo calcolo basta fare: 5 (femmine che hanno conseguito una maturità classica) + 1 (maschi che hanno conseguito una maturità classica) / N (maschi più femmine quindi 20) —> ( +1) /20 = 0,3 —> per avere la forma percentuale moltiplico per 100 e ottengo il 30%. con le frequenze vincolate Genere
maturità classica 45.45% 11.11% 30.00% maturità linguistica 27.27% 11.11% 20.00% maturità scientifica 18.18% 44.44% 30.00%
Totale complessivo 100.00% 100.00% 100.00% Rispetto al gruppo dei maschi (o “ fatto 100 il gruppo dei maschi ” o “ considerando solo il gruppo dei maschi» ) qual è il peso di 1 ragazzo con maturità classica, di 1 con maturità linguistica, di 4 con maturità scientifica e di 3 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 1 / 9 ; 1 / 9 ; 4 / 9 ; 3 / 9 e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. Analogamente per le femmine. Provateci voi e verificate i risultati nella tabella seguente. Attenzione: questa è la distribuzione univariata % del carattere “titolo studio”.
Partiamo da una tabella a doppia entrata, distribuzione congiunta della variabile statistica doppia (X,Y) con: X = Grado di coinvolgimento nello sport = variabile indipendente o esplicativa= righe Y = VLT = voto di laurea triennale = variabile «risposta»/outcome= colonne N = 23 praticanti uno sport Avremmo 3 modalità, che sono basso medio e alto, che definiscono le 3 righe della tabella a doppia entrata. Ci sono 3 studenti che sono fortemente coinvolti nello sport e hanno preso un voto molto buono. Ci sono 5 studenti che sono mediamente coinvolti nello sport e hanno preso un voto buono. Ci sono 2 studenti con un basso coinvolgimento nello sport che hanno preso un voto discreto. Questo ragionamento è possibile farlo per tutte le congiunte che stanno nel copro centrale della tabella. Il margine destro ci mostre il grado di coinvolgimento nello sport indipendentemente dal voto preso, mentre invece il margine inferiore ci mostra il voto di laura triennale indipendentemente dal grado di coinvolgimento nello sport. Se voglio sapere in termini relativi quante persone hanno preso molto buono devo fare ad esempio 10/23. LE DISTRIBUZIONI CONDIZIONATE: SECONDO PASSO Per ognuno dei 3 sottogruppi identificati dalle 3 modalità della variabile statistica X = «Grado di coinvolgimento nello sport», calcoliamo le frequenze condizionate per riga : Altro esempio Partiamo da una tabella a doppia entrata, distribuzione congiunta della variabile statistica doppia (X,Y) con: X = Grado di coinvolgimento nello sport = variabile indipendente o esplicativa Y = VLT = voto di laurea triennale = variabile «risposta»/outcome N = 23 praticanti uno sport VLT (Y) Grado coinvolgimento ( X ) Discreto 88|- 100 Buono 100|- 106 Molto buono 106|- 111 Totale per riga Basso 2 0 2 4 Medio 1 5 5 11 Alto 3 2 3 8 Totale per colonna 6 7 10 23 Osserviamola, leggiamo i dati, le frequenze marginali, quelle congiunte e comprendiamo. Le distribuzioni c secondo Per ognuno dei 3 sottogruppi identificati dalle 3 = «Grado di coinvolgimento nello sport», calco riga: fj|i = nij / ni* VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Basso 2/4 = 0,5 0 Medio 1/11 = 0,1 5/11 = 0, Alto 3/8 = 0,375 2/8 = 0, 3 distribuzioni condiz Le distribuzioni condizionate: secondo passo Per ognuno dei 3 sottogruppi identificati dalle 3 modalità della variabile statistica X = «Grado di coinvolgimento nello sport», calcoliamo le frequenze condizionate per riga: fj|i = nij / ni* VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Molto buono (107|- 111 ) Totale per riga Basso 2/4 = 0,5 0 2/4 = 0,5 1 Medio 1/11 = 0,1 5/11 = 0,45 5/11 = 0,45 1 Alto 3/8 = 0,375 2/8 = 0,25 3/8 = 0,375 1 3 distribuzioni condizionate Y|X Y = variabile di risposta o variabile dipendente X = variabile «condizionante» o indipendente
C’è una lieve associazione statistica tra l’essere poco coinvolti nello sport e avere un voto di laurea buono o moto buono. Quindi più si è coinvolti meno è alto il voto di laurea triennale. Questa è già un’importante associazione identificata. LE DISTRIBUZIONI CONDIZONATE: NELL’ALTRO VERSO Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero le modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabile X: Siccome stiamo costruendo le distribuzioni condizionate per colonna devo avere come elemento condizionante, come variabile condizionante quella che sta al posto delle colonne. Quindi dirò la f di i condizionata a j. In questo caso abbiamo 3 distribuzioni condizionate X | Y Quindi X = variabile di risposta o variabile dipendente Y = variabile «condizionante» o indipendente LA NOZIONE DI INDIPENDENZA STATISTICA O STOCASTICA Vale la seguente definizione generale: “C’è indipendenza stocastica (o statistica) della variabile statistica X dalla variabile statistica Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se Vale anche il viceversa: Se sto facendo le condizionate di j rispetto ad i, quindi rispetto agli elementi di riga, le condizionate devono essere tutte uguali ma devono essere uguali anche alla marginale della variabile che sta in colonna.
Possiamo anche identificare le distribuzioni modalità di Y definiscono i gruppi entro cui si X: fi|j = nij / n*j VLT ( Grado coinvolgimento (X) Discreto (88|-100) Buono (101|- 10 Basso (2 ore sett) 2/6 = 0,33 0/7 = 0 Medio (4 ore sett.) 1/6 = 0,17 5/7 = 0, Alto (8 ore a sett.) 3/6 = 0,5 2/7 = 0, Totale per colonna 1 1 3 distribuzioni condiz X = variabile di risposta o v Y = variabile «condizionan Possiamo ripetere domande
Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero l modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabil X: fi|j = nij / n*j VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Molto buono (107|- 111 ) Basso (2 ore sett) 2/6 = 0,33 0/7 = 0 2/10 = 0, Medio (4 ore sett.) 1/6 = 0,17 5/7 = 0,71 5/10 = 0, Alto (8 ore a sett.) 3/6 = 0,5 2/7 = 0,29 3 /10 =0, Totale per colonna 1 1 1
X = variabile di risposta o variabile dipendente Y = variabile «condizionante» o indipendente Possiamo ripetere domande simili alle precedenti
Vale la seguente definizione generale: C’è indipendenza stocastica (o statistica) della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni (* i,j) Vale anche il viceversa: fi|j = fi per ogni i,j (* i,j)
Tutte le condizionate sono uguali tra di loro e uguali anche alla marginale della variabile che stiamo studiando, quindi della variabile risposta. FATTORIZZAZIONE DELLE FREQUENZE La proprietà di fattorizzazione consente di dire che data una tabella a doppia entrata l’unico caso in cui sono sicura che c’è indipendenza statistica tra X ed Y è il caso in cui le congiunte, quelle che stanno dentro il corpo centrale della tabella, devono essere date dal rapporto tra le due marginali corrispondenti divido N. CONDIZIONE NECESSARIA E SUFFICIENTE PER L’INDIPENDENZA STOCASTICA Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nij siano fattorizzabili (cioè scomponibili in fattori) nel prodotto - diviso per N– delle corrispondenti numerosità marginali, ovvero che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali. “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) b) se le frequenze sono fattorizzabili c’è indipendenza stocastica Fattorizzazione delle frequenze La proprietà di indipendenza statistica (o stocastica) è simmetrica : l’indipendenza di Y da X implica cioè quella di X da Y. Se poi formuliamo le frequenze come rapporti tra numerosità, la definizione generale ”fj|i=fj* per ogni i,j” diventa ”nij/ni=nj/N”** da cui si trae: nij = nije^ = (ni x^ nj)/N* o dividendo entrambe le parti per N: fije^ =fi x^ fj nij*^ : numerosità congiunte teoriche o «expected», «attese» (si indicano anche con nije) Ovvero: come dovrebbero essere le numerosità congiunte in un caso teorico di indipendenza stocastica
I suoi dati si riferivano alla composizione per credo religioso (X) e al tasso di suicidi x 100. abitanti (Y) in otto province (N= unità statistiche) della Baviera. X —> carattere qualitativo ordinale Y —> carattere quantitativo continuo (da riclassificare). Abbiamo 8 province, quindi 8 unità statistiche. Abbiamo una variabile statistica legata al credo religioso (X) e una variabile statistica legata al tasso di suicidi (Y). UN MODO PER COGLIERE L’ASSOCIAZIONE Noi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. Il primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che evidenzia una forte connessione (vedi valore indice chi quadrato normalizzato). Sulle righe metteremo le modalità del carattere X, utilizzerò 3 righe (minoranza, maggioranza, unanimità). Sulle colonne metteremo le modalità del carattere Y. In questo caso 8 modalità sono troppe, quindi riclassificano secondo una variabile per classi, creando 3 classi di valori. Se chi quadro fosse venuto più vicino a zero significa che non ci sarebbe stata una grande connessione tra regione e tasso di suicidi. PROVINCE X= PRESENZA CATTOLICI Y= TASSO SUICIDIO Palatino renano Minoranza (1) 167 Franconia centrale Minoranza (1) 207 Alta Franconia Minoranza (1) 204 Bassa Franconia Maggioranza (2) 157 Svezia Maggioranza (2) 118 Alto palatino Quasi totalità (3) 64 Alta Baviera Quasi totalità (3) 114 Bassa Baviera Quasi totalità (3) 49 Un modo (già noto) per cogliere l’associazione Noi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. Il primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che evidenzia una forte connessione (vedi valore indice F^2 ***** ). X Y 40 - |100^100 - |160^160 - |220^ ni* Minoranza (^) 0 0 3 3 Maggioranza (^) 0 2 0 2 Unanimità (^) 2 1 0 3 nj 2 3 3 8 nijo^ ni. n.j nijo2/nixnj* 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2, Un modo (già noto) per cogliere l’associazione oi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che videnzia una forte connessione (vedi valore indice F^2 ***** ). X Y 40 - |100^100 - |160^160 - |220^ ni* Minoranza (^) 0 0 3 3 Maggioranza (^) 0 2 0 2 Unanimità (^) 2 1 0 3 nj 2 3 3 8 nijo^ ni. n.j nijo2/nixnj* 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2,
Congiunte che vedo all’interno del copro della tabella. In questo caso incontro il 3, il 2, il 2 e l’uno. Il criterio guida è dato dal numero delle congiunte realmente osservate. UN SECONDO MODO PER COGLIERE L’ASSOCIAZIONE Conosciamo anche un secondo modo per rappresentare questi dati in modo da cogliere l’eventuale associazione. Una delle due variabili è qualitativa ordinale, l’altra è quantitativa. Se diamo a ogni modalità del carattere ordinale (X) un codice numerico in sequenza , possiamo rappresentare la distribuzione congiunta in forma di diagramma di dispersione. N e l g r a fi c o d o v r e m o a v e r e 8 p u n t i c h e rappresentano le 8 province. Certo, la metrica dell’asse orizzontale non ci dà garanzie. Ma il grafico ha comunque una sua forte capacità di parlare. Esso ci lascia l’impressione di una relazione inversa tra X e Y : al crescere della presenza di cattolici nelle province cala il tasso di suicidio. La relazione è inversa perché ricorda una retta inclinata negativamente. Al crescere della X osservo una riduzione dei valori della Y. Questo significa che più i cattolici aumenta più il tasso dei suicidi si riduce. LE MEDIE VINCOLATE O CONDIZIONATE Come mai questo grafico ci lascia questa netta impressione? Una prima risposta si ha calcolando, per ogni sub-popolazione (definita dalla quota di presenza cattolica), la media dei tassi di suicidio. questa non è una tabella a doppia entrata, è solo un modo schematico per capire come fare i calcoli. . nijo^ ni. n.j nijo2/nixnj** 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2, Un secondo modo per cogliere l’associazione Conosciamo anche un secondo modo per rappresentare questi dati in modo da cogliere l’eventu associazione. Una delle due variabili è qualitativa ordinale, l’altra è quantitativa. Se diamo a ogni modalità carattere ordinale (X) un codice numerico in sequenza , possiamo rappresentare la distribuzi congiunta in forma di diagramma di dispersione. Certo, la metrica dell’asse orizzontale non ci dà garanzie. Ma il grafico ha comunque una sua forte capacità di parlare. Esso ci lascia l’impressione di una relazione inversa tra X e Y: al crescere della presenza di cattolici nelle province cala il tasso di suicidio. 40 80 120 160 200 240 0 1 2 3 4 X Y Minoranza Maggioranza Unanimità Le medie vincolate o condizionate Come mai questo grafico ci lascia questa netta impressione? Una prima risposta si ha calcolando, per ogni sub-popolazione (definita dalla quota di presenza cattolica), la media dei tassi di suicidio: Xi Yj Y 1 Y 2 Y 3 Yj.. ni* M(Y|xi)=[ (^6) jyj]/ni* I = Minoranza 167 204 207 … 3 [167+204+207]/3= 192, II =Maggioranza 118 157 … … 2 [118+157]/2= 137, III = Unanimità 49 64 114 … 3 [49+64+114]/3= 75, La media vincolata M(Y|xi) di Y rispetto a una sub-popolazione definita dalla i-esima modalità di X {X= xi} è la media della corrispondente distribuzione vincolata o condizionata.