Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Analisi Bivariata: Dipendenza Stocastica e Dipendenza in Media - Prof. Rivellini, Appunti di Statistica

Università Cattolica del Sacro Cuore - Milano (UNICATT MI)Statistica

Prof. Giulia Rivellini

Appunti presi a lezione di statistica bivariata.

Tipologia: Appunti

2020/2021

In offerta

~~30 Punti~~

Offerta a tempo limitato

Caricato il 21/05/2021

martina.romagnoloo 🇮🇹

4.2

(18)

15 documenti

1 / 37

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

RICLASSIFICARE E LEGGERE CONGIUNTAMENTE

Obiettivi della lezione !

•Conoscere e saper leggere la «tabella a doppia entrata»!

•Formalizzare e identificare in una tabella le numerosità/frequenze congiunte e marginali.!

•Rappresentare graficamente una distribuzione congiunta !

Nell’analisi statistica bivariata si studia la variabilità di un fenomeno mediante l’associazione (o la

dipendenza) con un altro fenomeno, entrambi osservati sul medesimo collettivo di unità

statistiche. !

Esempi:#

In che relazione stanno:!

•la pratica e l’interesse per lo sport nella popolazione studentesca dell’UCSC!

•il tempo trascorso a studiare e il tipo di sport praticato; !

•le ore di studio quotidiano e il voto di laurea triennale; etc.. #

STUDIARE L’ASSOCIAZIONE O LA DIPENDENZA !

La relazione tra due fenomeni lo possiamo fare tramite: !

•Lo studio della connessione (principalmente per caratteri qualitativi, sebbene sia possibile

svolgerlo anche se uno dei due caratteri è qualitativo e l’altro è quantitativo o quando entrambi

sono quantitativi): per valutare se esiste una associazione statistica tra due caratteri;!

•Lo studio della correlazione e della regressione lineare (caratteri quantitativi): per valutare se

esiste una forma di dipendenza lineare, o per descrivere analiticamente come un carattere è

funzione dell’altro (utile per eﬀettuare previsioni).!

RIPARTIAMO DA UNA MATRICE DATI… !

Ripartiamo da una matrice dati…

Nome Studente Sesso Titolo di studio conseguito

Età dello

Studente

Età del

Fidanzato/a

CODICE

Andrea M maturità classica 33 31 1

Angela F maturità linguistica 19 24 2

Anna F maturità linguistica 22 20 3

Bruno M maturità Tecnico-professionale 19 18 4

Camilla F maturità scientifica 28 34 5

Carlo M maturità scientifica 31 27 6

Daniela F maturità classica 21 30 7

Daniele M maturità scientifica 21 25 8

Diana F maturità classica 26 29 9

Donata F maturità classica 30 35 10

Elena F maturità scientifica 19 21 11

Fabio M maturità scientifica 28 23 12

Federico M maturità Tecnico-professionale 23 25 13

Francesco M maturità Tecnico-professionale 19 17 14

Giovanna F maturità classica 24 21 15

TAB. 1: Informazioni su un gruppo di studenti dell'Università Cattolica

(sesso, titolo di studio conseguito, età propria ed età del fidanzato)

N = 15

Codice = identificativo dell’unità statistica

In offerta

Scopri Appunti di Statistica Università Cattolica del Sacro Cuore - Milano (UNICATT MI)

Documenti correlati

esercizi svolti e spiegati dell'eserciziario di Giulia Rivellini (statistica sociale)

STATISTICA SOCIALE DI GIULIA RIVELLINI

(14)

Appunti statistica prof. Rivellini

(1)

Esame Statistica - Rivellini (unicatt)

Analisi Statistica: Dipendenza e Associazione tra Variabili - Prof. Rivellini

Formule di Statistica Univariata e Bivariata: Esercizi e Spiegazione - Prof. Rivellini

Statistica sociale rivellini

Assignment di statistica (unicatt-rivellini)

(1)

Esame statistica simulazione -Rivellini (unicatt)

Libro PDF Statistica (prof. Rivellini)

Analisi Bivariata: Connessione e Dipendenza in Media

Introduzione alla Statistica: Campioni e Probabilità - Prof. Rivellini

Anteprima parziale del testo

Scarica Analisi Bivariata: Dipendenza Stocastica e Dipendenza in Media - Prof. Rivellini e più Appunti in PDF di Statistica solo su Docsity!

RICLASSIFICARE E LEGGERE CONGIUNTAMENTE

Obiettivi della lezione

Conoscere e saper leggere la «tabella a doppia entrata»
Formalizzare e identificare in una tabella le numerosità/frequenze congiunte e marginali.
Rappresentare graficamente una distribuzione congiunta Nell’analisi statistica bivariata si studia la variabilità di un fenomeno mediante l’associazione (o la dipendenza) con un altro fenomeno, entrambi osservati sul medesimo collettivo di unità statistiche. Esempi: In che relazione stanno:
la pratica e l’interesse per lo sport nella popolazione studentesca dell’UCSC
il tempo trascorso a studiare e il tipo di sport praticato;
le ore di studio quotidiano e il voto di laurea triennale; etc.. STUDIARE L’ASSOCIAZIONE O LA DIPENDENZA La relazione tra due fenomeni lo possiamo fare tramite:
Lo studio della connessione (principalmente per caratteri qualitativi, sebbene sia possibile svolgerlo anche se uno dei due caratteri è qualitativo e l’altro è quantitativo o quando entrambi sono quantitativi): per valutare se esiste una associazione statistica tra due caratteri;
Lo studio della^ correlazione^ e della^ regressione lineare^ (caratteri quantitativi): per valutare se esiste una forma di dipendenza lineare, o per descrivere analiticamente come un carattere è funzione dell’altro (utile per effettuare previsioni). RIPARTIAMO DA UNA MATRICE DATI…

Ripartiamo da una matrice dati…

Nome Studente Sesso Titolo di studio conseguito Età dello Studente Età del Fidanzato/a CODICE Andrea M maturità classica 33 31 1 Angela F maturità linguistica 19 24 2 Anna F maturità linguistica 22 20 3 Bruno M maturità Tecnico-professionale 19 18 4 Camilla F maturità scientifica 28 34 5 Carlo M maturità scientifica 31 27 6 Daniela F maturità classica 21 30 7 Daniele M maturità scientifica 21 25 8 Diana F maturità classica 26 29 9 Donata F maturità classica 30 35 10 Elena F maturità scientifica 19 21 11 Fabio M maturità scientifica 28 23 12 Federico M maturità Tecnico-professionale 23 25 13 Francesco M maturità Tecnico-professionale 19 17 14 Giovanna F maturità classica 24 21 15

TAB. 1: Informazioni su un gruppo di studenti dell'Università Cattolica

(sesso, titolo di studio conseguito, età propria ed età del fidanzato)

N = 15

Codice = identificativo dell’unità statistica

Partiamo da una tabella che ci presenta una serie di informazioni su un contesto collettivo. Il collettivo è rappresentato da un gruppo di studenti universitari, 15 unità statistiche. Su queste unità statistiche è stato rilevato:

Il sesso
Il titolo di studio conseguito
L’eta dello studente
L’eta del proprio fidanzato/a Riportiamo anche il nome e diamo un codice numerico ad ogni singola unità statistica che servirà per identificare lo studente, quindi l’unità statistica. Quindi questa matrice sarà data da 15 righe, in quanto abbiamo 15 unità statiche e 6 colonne. Di queste 15 unità statistiche andiamo a rilevare più di un carattere statistico. E GUARDIAMO A 2 CARATTERI “CONGIUNTAMENTE” Abbiamo estratto due caratteri qualitativi, nel primo caso (sesso) si tratta di una variabile qualitativa dicotomica mentre invece nel secondo caso, titolo di studio conseguito, si tratta di una variabile qualitativa sconnessa. D o b b i a m o s v i l u p p a r e i l p r o c e s s o d i riclassificazione congiunta. Tale processo è il medesimo nel caso in cui avessimo estratto due caratteri quantitativi, uno qualitativo e l’altro quantitativo o due qualitativi. Il ragionamento del processo di riclassificazione congiunta è lo stesso per qualsiasi carattere. RICLASSIFICHIAMO IN FORMA DI TABELLA A DOPPIA ENTRATA, REGISTRANDO OPPFRTUNATAMENTE I DATI OSSERVATI SUI 15 STUDENTI Per riclassificare opportunamente questi due caratteri abbiamo bisogno di una tabella a doppia entrata, ovvero un’entrata sarà dedicata a uno dei due caratteri, un’altra entrata sarà dedicata al secondo dei due caratteri. Riclassificheremo le nostre 15 unità statistiche in forma di tabella a doppia entrata, registrando opportunamente i dati osservati sui 15 studenti. Per registrare opportunamente questi dati bisogna crearsi una griglia corretta di questa tabella a doppia entrata. Per creare una griglia corretta metto sulle righe la modalità “sesso”, mentre sulle colonne mettere il carattere “titolo di studio conseguito”. iamo a 2 caratteri «congiuntamente»… Sesso Titolo di studio conseguito M maturità classica F maturità linguistica F maturità linguistica M maturità Tecnico-professionale F maturità scientifica M maturità scientifica F maturità classica M maturità scientifica F maturità classica F maturità classica F maturità scientifica M maturità scientifica M maturità Tecnico-professionale M maturità Tecnico-professionale F maturità classica tteri selezionati sono qualitativi, ma il procedimento di ne congiunta è il medesimo in caso di 2 caratteri quantitativi o e 1 quantitativo. …e riclassifichiamo in forma di tabella a doppia entrata, “registrando” opportunamente i dati osservati sui 15 studenti Titolo di studio Sesso M. CLASSICA M. LINGUISTICA M. SCIENTIFICA M. TECNICO-PROFESSIONALE Totale F xxxx xx xx xxxxxxxx M x xxx xxx xxxxxxx Totale xxxxx xx xxxxx xxx xxxxxxxxxxxxxxx Titolo di studio

Nessuno vieta di fare il contrario, quindi Y righe e X colonne; posso anche cambiare le lettere che intestano righe e colonne. Se devo individuare un modo generale di identificare le modalità del carattere che intesta le righe e le modalità del carattere che intesta le colonne devo trovare un indice che chiameremo per esempio i, che identifica le singole modalità del carattere che intesta le righe: quindi avrò la modalità x con 1, x con 2 e cosi via. Quella generica la chiamerò x con i che prende il nome di indice di riga , tanto che i si muove da 1 a r , dove r è il numero delle righe. Se la tabella ha r righe, vuol dire che la i la farò muovere dal numero 1 al numero r. Le colonne si identificano con la lettera j, quindi avremo y con 1, y con 2 e cosi via. Quella generica la chiamerò y con j e che prende il nome di indice di riga, per si muove da 1 a s , dove s è il numero delle colonne. Nel corpo centrale ci stanno le numerosità congiunte. Ci siamo dovuti servire di due pedici, il pedice i e il pedice j. Utilizziamo due pedici perché il pedice i viene associato alla variabile che intesta le righe, mentre il pedice j viene associato alla variabile che intesta le colonne. Quindi un’altra novità importante è che adesso avremo un doppio pedice , perché abbiamo due caratteri che osserviamo congiuntamente. COME SI LEGGE LA TABELLA? Come si legge n11? —> numerosità congiunta associata alla modalità 1 del carattere X e alla modalità 1 del carattere Y Come si legge nij? —> numerosità congiunta associata alla modalità i-esima del carattere X e alla modalità j-esima del carattere Y. COSA C’E’ A MARGINE DESTRO E A MARGINE INFERIORE? Il margine destro più le numerosità ci danno la variabile statistica che abbiamo visto nella parte di univariata, quindi è come se noi potessimo identificare la nostra variabile univariata del carattere X. Qui non possiamo più mettere solo un pedice dato da una sola lettera, perché siamo in un mondo bivariato, quindi dobbiamo mettere alle n due pedici. Queste nuove numerosità le intestiamo con ni , che si ripete in tutte le celle. L’asterisco è posizionato al posto dell’indice di colonna quindi all’indice che cambia, perché il secondo indice identifica la posizione della colonna. Il margine inferiore più le numerosità ci danno la variabile statistica che abbiamo visto nella parte di univariata, quindi è come se noi potessimo identificare la nostra variabile univariata del carattere Y. Qui non possiamo mettere solo un pedice dato da una sola lettera, perché siamo in un mondo bivariato, quindi dobbiamo mettere alle n due pedici. Queste nuove numerosità le intestiamo con nj, che poi ripete in tutte le celle. L’asterisco è posizionato al posto dell’indice di riga quindi all’indice che cambia, perché il primo indice identifica la posizione della riga.

Al posto dell’asterisco puo anche esserci un punto. UNA TABELLA A DOPPIA ENTRATA… MA VARIE TIPOLOGIE DI NUMEROSITA’ nij = Numerosità congiunta : numero di unità statistiche che «possiedono» contemporaneamente la modalità i del carattere X (posizionato ad intestare le righe) e la modalità j del carattere Y (posizionato ad intestare le colonne). Esempio: n24: non va letto come «n ventiquattro» ma come numero di unità statistiche che «possiedono» la seconda modalità del carattere X e la quarta del carattere Y. ni= Numerosità marginale di riga : numero di unità statistiche che «possiedono» la modalità i del carattere X; è rappresentata dalla somma delle numerosità congiunte della riga i-esima. nj= Numerosità marginale di colonna : numero di unità statistiche che possiedono la modalità j del carattere Y; è rappresentata dalla somma delle numerosità congiunte della colonna j-esima. UNA TABELLA… TRE DIVERSE DISTRIBUZIONI

Le due colonne ai margini sinistro e destro della tabella, presentate ricompattate insieme, riproducono la distribuzione ‘univariata’ di X , per la quale vale sommatoria con i che va da 1 a r di ni*=N
Le due righe ai margini alto e basso della tabella, presentate ricompattate insieme, riproducono la distribuzione ‘univariata’ di Y, per la quale vale J=1..s n*J = N
Il corpo centrale della tabella a doppia entrata (giallo) contiene la distribuzione congiunta della v.s. (X;Y). DALLE NUMEROSITA’ ALLE FREQUENZE CONGIUNTE Varie tipologie di numerosità

ni* = Numerosità marginale di riga : numero di unità statistiche che

«possiedono» la modalità i del carattere X; è rappresentata dalla somma delle

numerosità congiunte della riga i - esima.

n*j = Numerosità marginale di colonna : numero di unità statistiche che

possiedono la modalità j del carattere Y; è rappresentata dalla somma delle

numerosità congiunte della colonna j - esima.

ni* = 6 J=1..s nij

n*J = 6 i=1..r nij

N = 6 i=1..r ni* = 6 J=1..s n*j

Le nuove condizioni di ‘quadro’

Una tabell

Xi

x 1

x 2

xi

xr

ni*

n1*

n2*

ni* .. nr*

N

Isoliamo righe e colon margini’ della tabella: n n. n. n

Per tale ragione è necessario preliminarmente riclassificare il carattere VOTO, per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2x4. La somma di tutte le unità statistiche riclassificate è 15. Che cos’è 8? È il numero delle femmine indipendentemente dal numero del voto, quindi senza stare a guardare il voto che hanno preso. Quanti maschi osservo indipendentemente dal voto che hanno preso? 7 IL DIAGRAMMA DI DISPERSIONE Prendiamo in esempio il caso della trattoria (10 unità statistiche), dove avevamo due caratteri quantitativi, il numero delle unioni e il reddito percepito. Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. La tabella riportata non è una tabella a doppia entrata, am è una tabella che riporta le coppie di valori osservati sulla variabile statistica doppia (E;U). UN ALTRO ESEMPIO Tabella con una variabile per classi Se osserviamo la distribuzione univariata del carattere VOTO all’esame di Stat. Soc. notiamo che il numero delle modalità è pari ad 11. Si tratta di un numero eccessivo che richiederebbe una tabella di difficile lettura: GENERE ( 2 modalità) x VOTO ( 11 modalità) = tabella 2 x 11. Per tale ragione è necessario preliminarmente riclassificare il carattere VOTO, per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2 x 4.

Voto I Verifica (Y)

Genere (X) 18|-|20^ 21|-|24^ 25|-|27^ 28|-|30^ ni*

F 1 2 3 2 8

M 3 2 1 1 7

n*J 4 4 4 3 15

Voto I verifica (yi) n(yi) 18 2 19 1 20 1 21 2 22 1 23 1 25 2 26 1 27 1 28 1 30 2 Questa serve per capire come riclassificare il voto

Il diagramma di dispersione

0 1 2 3 4 0 2 4 6 8

U E

Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. Ogni caso è identificato da un punto corrispondente sul piano. Il collettivo è colto sinteticamente in forma di nuvola di punti. In verticale valori di U

U

In orizzontale valori di E

E

U = N° Unioni E = Entrate N = 10 Il diagramma di dispersione 0 1 2 3 4 0 2 4 6 8 U E 3 4, 0 2, 2 3, 0 6, 4 4, 1 4, 3 1, 3 5, 2 5, 2 7, Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri osservati congiuntamente in una popolazione, l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione grafica più consueta per una variabile statistica doppia è detta “diagramma di dispersione” (o scatter diagram ). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e in ordinata i valori osservati per Y. Ogni caso è identificato da un punto corrispondente sul piano. Il collettivo è colto sinteticamente in forma di nuvola di punti. In verticale valori di U

U

In orizzontale valori di E

E

U = N° Unioni E = Entrate N = 10 Il diagramma di dispersione 0 1 2 3 4 0 2 4 6 8

U E

U

In orizzontale valori di E

E

U = N° Unioni E = Entrate N = 10

Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel d i a g r a m m a i p u n t i s i d i s t r i b u i s c o n o c o n u n a preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo e terzo (strategia di decelerazione nelle coppie precoci). Relazione inversa —> al crescere del primo figlio diminuisce il tempo intercorso tra il secondo e terzo figlio C’E’ CORRISPONDENZA TRA DIAGRAMMI E TABELLE I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età). I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. A NUBE DI PUNTI Un altro esempio (dati tratti da survey) n. Età al I f^ Mesi interc 1 16 56 2 16 72 3 17 66 4 19 75 5 20 48 6 22 54 7 23 66 8 25 36 9 25 42 10 26 48 11 26 36 12 27 39 13 29 36 14 30 33 15 32 36 16 33 27 Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: 25

Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel diagramma i punti si distribuiscono con una preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo terzo ( strategia di decelerazione nelle coppie precoci ) Un altro esempio (dati tratti da survey) n. Età al I f^ Mesi interc 1 16 56 2 16 72 3 17 66 4 19 75 5 20 48 6 22 54 7 23 66 8 25 36 9 25 42 10 26 48 11 26 36 12 27 39 13 29 36 14 30 33 15 32 36 16 33 27 Facciamo un altro esempio. Supponiamo di essere interessati alle strategie di formazione di una famiglia e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: 25

C’è corrispondenza tra

diagrammi e tabelle

20 40 60 80 15 20 25 30 35 1 3 2 2 1 (^14 ) Diagrammi e tabelle non sono modi di rappresentazione prive di comunicazione tra loro!! I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. Età Interv Precoce (15-20] Bassa (20-25] Alta (25-30] Tardiva (30-35] Ampio (60 - 80] 3 1 0 0 4 Medio (40 – 60] 2 2 1 0 5 Stretto (20 – 40] 0 1 4 2 7

5 4 5 2 16 Età

Intervallo

I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età). C’è corrispondenza tra diagrammi e tabelle 20 40 60 80 15 20 25 30 35 1 3 2 2 1 (^14 )

Diagrammi e tabelle non sono modi di rappresentazione prive di comunicazione tra loro!!

I numeri dicono quante osservazioni ci sono per area rettangolare del grafico. Le aree rettangolari richiamano le modalità della variabile statistica doppia. Età Interv Precoce (15-20] Bassa (20-25] Alta (25-30] Tardiva (30-35] Ampio (60 - 80]

Medio (40 – 60]

Stretto (20 – 40]

(^5 4 5 2 16) Età Intervallo eri dicono quante osservazioni ci sono gni modalità della variabile statistica (intervallo; età).

C’è corrispondenza tra

diagrammi e tabelle

5 4 5 2 16 Età

Intervallo

I numeri dicono quante osservazioni ci sono per ogni modalità della variabile statistica doppia (intervallo; età).

L’INDIPENDENZA STATISTICA E IL SUO CONTRARIO

Obiettivi della lezione:

Introdurre la teoria della connessione: primo approccio allo studio del grado di associazione tra due variabili statistiche
Illustrare le distribuzioni condizionate
Passare al concetto di indipendenza statistica
Illustrare alcune proprietà operative delle frequenze congiunte in caso di perfetta dipendenza da un lato o indipendenza statistica dall’altro. N.B. Il termine FREQUENZE è usato genericamente con riferimento sia alla numerosità (n) che alle frequenze (f). DUE VARIABILI STATISTICHE Variabile risposta (variabile dipendente ): variabile che misura un fenomeno e/o un comportamento che ci interessa spiegare, comprendere. Esempio: i risultati universitari (Voto di laurea triennale = VLT) Variabile esplicativa (variabile indipendente ) (ha un potere esplicativo): variabile che misura un fenomeno e/o un comportamento che «può spiegare» la variabilità della variabile risposta. Esempio: il grado di coinvolgimento nella pratica dello sport. PRESENZA DI ASSOCIAZIONE Esiste associazione o dipendenza statistica tra due variabili se la distribuzione della variabile risposta cambia in qualche modo, al variare della variabile esplicativa (Agresti e Finlay, 2009). Quindi noi possiamo vedere, avendo una tabella a doppia entrata, contemporaneamente cosa succede alla variabile risposta al variare delle caratteristiche della variabile esplicativa. La tabella a doppia entrata ci mette in una condizione agile perché ci consente di guardare contemporaneamente al comportamento di una variabile e un’altra variabile. Guardando questa tabella dobbiamo capire se la distribuzione di una delle due variabili cambia al cariare della variabile esplicativa. Esempio 1: i maschi si diplomano in tipologie di scuole diverse rispetto alle femmine? In questo primo caso, se intuisco che il genere può aiutare a capire la diversa scelta della scuola superiore, già identifico due popolazioni: il gruppo delle femmine e il gruppo dei maschi. Quindi se la variabile esplicativa sarà il genere, creerò due gruppi, il gruppo che mostrano la variabile “maschio” nella variabile esplicativa e il gruppo di colore che mostrano la modalità “femmina” nella variabile esplicativa. Esempio 2: la distribuzione del VLT (voto di laurea triennale) è diversa tra chi pratica intensamente sport e chi è meno coinvolto? In questo secondo caso, si coglie già, per come si pone la domanda, una valutazione. L’ipotesi potrebbe essere che ci siano dei voti di laurea diversi tra chi pratica intensamente sport e chi è

meno coinvolto. Potrei fare un’ipotesi che è legata al fatto che chi pratica intensamente sport ha delle capacità organizzative, sa gestire bene il suo tempo e quindi sa gestire bene nell’attività dello studio. Quindi anche in questo caso avremo due modalità: c’è il gruppo di chi pratica intensamente sport e il gruppo di chi è meno coinvolto. Quindi, esiste associazione o dipendenza, quando osservo dei cambiamenti nella distribuzione della variabile “risposta” al variare della variabile “esplicativa”. Se questo cambiamenti non li osservo vuol dire che non vi è alcun legame statistico tra le due variabili, vuol dire che le due variabili non sono connesse statisticamente e quindi si dirà che sono indipendenti. LE DISTRIBUZIONI CONDIZIONATE Per intuire i concetti di indipendenza\dipendenza (o associazione) statistica è utile considerare le distribuzioni di frequenza condizionate. Si tratta di osservare la distribuzione statistica di una delle due variabili considerate, « condizionatamente » alle modalità dell’altra variabile. Il termine condizionatamente è legato al fatto che stiamo per presentare queste distruzioni condizionate e perché vuol dire anche entro i gruppi definiti dalle modalità della variabile condizionante. Quest’ultima variabile è la variabile che per e ha un potere esplicativo. Questa variabile ha il potere di condizionare un’altra variabile, di influenzare un’altra variabile. LE FREQUENZE CONDIZIONATE O VINCOLATE (in linguaggio formale) Fj|i —> F di j dato i —> F di j condizionato a i (j identifica le colonne, i identifica le righe) —> frequenza condizionata della variabile che intesta le colonne condizionatamente a la variabile che intesta le righe i. Anche qui la somma delle frequenze condizionate deve essere pari a 1. Le frequenze condizionate si possono calcolare anche con le numerosità. Le frequenze condizionate o vincolate ( in linguaggio formale ) Yj Xi^ y^1 ..^ yj^ ..^ ys x 1 f 11 /f1* .. f1j /f1* .. f1s /f1* .. .. .. .. .. .. xi fi1 /fi* .. fij /fi* .. fis /fi* .. .. .. .. .. .. xr fr1 /fr* .. frj /fr* .. frs /fr* 1 .. 1 .. 1 Definiamo frequenza vincolata fj|i il rapporto tra la numerosità congiunta nij e la numerosità marginale di riga corrispondente ni* , o – indifferentemente - il rapporto tra la frequenza congiunta fij e la frequenza marginale di riga corrispondente fi * fj|i = nij / ni = fijN / fiN = fij / fi* ❑Per ogni riga vale la condizione di quadro 1 = (^6) j= 1 ..sfj|i ❑ Le frequenze vincolate possono essere calcolate anche per colonna, rapportando la numerosità/frequenza congiunta alla corrispondente marginale di colonna: fi|j = nij/nj = fij/fj** ❑ Ovviamente anche per ogni colonna vale la condizione di quadro 1 = (^6) i= 1 ..rfi|j Le frequenze condizionate o vincolate ( in linguaggio formale ) Yj Xi^ y^1 ..^ yj^ ..^ ys x 1 f 11 /f1* .. f1j /f1* .. f1s /f1* .. .. .. .. .. .. xi fi1 /fi* .. fij /fi* .. fis /fi* .. .. .. .. .. .. xr fr1 /fr* .. frj /fr* .. frs /fr* 1 .. 1 .. 1

Definiamo frequenza vincolata fj|i il rapporto tra la numerosità congiunta nij e la numerosità marginale

di riga corrispondente ni* , o – indifferentemente - il rapporto tra la frequenza congiunta fij e la

frequenza marginale di riga corrispondente fi *

fj|i = nij / ni* = fijN / fiN = fij / fi

❑Per ogni riga vale la condizione di quadro 1 = (^6) j= 1 ..sfj|i ❑ Le frequenze vincolate possono essere calcolate anche per colonna, rapportando la numerosità/frequenza congiunta alla corrispondente marginale di colonna: fi|j = nij/nj = fij/fj** ❑ Ovviamente anche per ogni colonna vale la condizione di quadro 1 = (^6) i= 1 ..rfi|j

Nell’esempio considerato i due gruppi sono definiti dai M (maschi) e dalle F (femmine), di numerosità rispettivamente pari a 9 e 11. LEGGERE UNA TABELLA CON LE FREQUENZE VINCOLATE Rispetto al gruppo dei maschi (o “ fatto 100 il gruppo dei maschi ” o “ considerando solo il gruppo dei maschi ») qual è il peso di 1 ragazzo con maturità classica, di 1 con maturità linguistica, di 4 con maturità scientifica e di 3 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 1/9; 1/9; 4/9; 3/9 e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. Analogamente per le femmine. Fatto 100 il gruppo delle femmine qual’è il peso di 5 ragazze con maturità classica, di 3 con maturità linguistica, di 2 con maturità scientifica e 1 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 5/11; 3/11; 2/11; 1/ e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. L’ultima colonna è la marginale della variabile che intesta le righe. Quindi è la distribuzione univariata o marginale del carattere titolo di studio. Qual’è la frequenza percentuale di osservare persone che si laureano in un liceo classico indipendentemente dal genere. Il peso percentuale di chi si diploma ad un classico è del 30%, mentre il peso di chi si diploma ad un linguistico è del 20%, di chi si diploma ad uno scientifico è del 30% ed infine di chi si diploma in u tecnico professionale è del 20%. Per fare questo calcolo basta fare: 5 (femmine che hanno conseguito una maturità classica) + 1 (maschi che hanno conseguito una maturità classica) / N (maschi più femmine quindi 20) —> ( +1) /20 = 0,3 —> per avere la forma percentuale moltiplico per 100 e ottengo il 30%. con le frequenze vincolate Genere

Titolo di studio conseguito F M

maturità classica 45.45% 11.11% 30.00% maturità linguistica 27.27% 11.11% 20.00% maturità scientifica 18.18% 44.44% 30.00%

maturità Tecnico-professionale 9.09% 33.33% 20.00%

Totale complessivo 100.00% 100.00% 100.00% Rispetto al gruppo dei maschi (o “ fatto 100 il gruppo dei maschi ” o “ considerando solo il gruppo dei maschi» ) qual è il peso di 1 ragazzo con maturità classica, di 1 con maturità linguistica, di 4 con maturità scientifica e di 3 con maturità tecnico professionale? Per rispondere a questa domanda è sufficiente calcolare i seguenti rapporti: 1 / 9 ; 1 / 9 ; 4 / 9 ; 3 / 9 e moltiplicarli poi per 100 se desideriamo i valori in termini percentuali. Analogamente per le femmine. Provateci voi e verificate i risultati nella tabella seguente. Attenzione: questa è la distribuzione univariata % del carattere “titolo studio”.

ALTRO ESEMPIO: PRIMO PASSO

Partiamo da una tabella a doppia entrata, distribuzione congiunta della variabile statistica doppia (X,Y) con: X = Grado di coinvolgimento nello sport = variabile indipendente o esplicativa= righe Y = VLT = voto di laurea triennale = variabile «risposta»/outcome= colonne N = 23 praticanti uno sport Avremmo 3 modalità, che sono basso medio e alto, che definiscono le 3 righe della tabella a doppia entrata. Ci sono 3 studenti che sono fortemente coinvolti nello sport e hanno preso un voto molto buono. Ci sono 5 studenti che sono mediamente coinvolti nello sport e hanno preso un voto buono. Ci sono 2 studenti con un basso coinvolgimento nello sport che hanno preso un voto discreto. Questo ragionamento è possibile farlo per tutte le congiunte che stanno nel copro centrale della tabella. Il margine destro ci mostre il grado di coinvolgimento nello sport indipendentemente dal voto preso, mentre invece il margine inferiore ci mostra il voto di laura triennale indipendentemente dal grado di coinvolgimento nello sport. Se voglio sapere in termini relativi quante persone hanno preso molto buono devo fare ad esempio 10/23. LE DISTRIBUZIONI CONDIZIONATE: SECONDO PASSO Per ognuno dei 3 sottogruppi identificati dalle 3 modalità della variabile statistica X = «Grado di coinvolgimento nello sport», calcoliamo le frequenze condizionate per riga : Altro esempio Partiamo da una tabella a doppia entrata, distribuzione congiunta della variabile statistica doppia (X,Y) con: X = Grado di coinvolgimento nello sport = variabile indipendente o esplicativa Y = VLT = voto di laurea triennale = variabile «risposta»/outcome N = 23 praticanti uno sport VLT (Y) Grado coinvolgimento ( X ) Discreto 88|- 100 Buono 100|- 106 Molto buono 106|- 111 Totale per riga Basso 2 0 2 4 Medio 1 5 5 11 Alto 3 2 3 8 Totale per colonna 6 7 10 23 Osserviamola, leggiamo i dati, le frequenze marginali, quelle congiunte e comprendiamo. Le distribuzioni c secondo Per ognuno dei 3 sottogruppi identificati dalle 3 = «Grado di coinvolgimento nello sport», calco riga: fj|i = nij / ni* VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Basso 2/4 = 0,5 0 Medio 1/11 = 0,1 5/11 = 0, Alto 3/8 = 0,375 2/8 = 0, 3 distribuzioni condiz Le distribuzioni condizionate: secondo passo Per ognuno dei 3 sottogruppi identificati dalle 3 modalità della variabile statistica X = «Grado di coinvolgimento nello sport», calcoliamo le frequenze condizionate per riga: fj|i = nij / ni* VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Molto buono (107|- 111 ) Totale per riga Basso 2/4 = 0,5 0 2/4 = 0,5 1 Medio 1/11 = 0,1 5/11 = 0,45 5/11 = 0,45 1 Alto 3/8 = 0,375 2/8 = 0,25 3/8 = 0,375 1 3 distribuzioni condizionate Y|X Y = variabile di risposta o variabile dipendente X = variabile «condizionante» o indipendente

C’è una lieve associazione statistica tra l’essere poco coinvolti nello sport e avere un voto di laurea buono o moto buono. Quindi più si è coinvolti meno è alto il voto di laurea triennale. Questa è già un’importante associazione identificata. LE DISTRIBUZIONI CONDIZONATE: NELL’ALTRO VERSO Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero le modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabile X: Siccome stiamo costruendo le distribuzioni condizionate per colonna devo avere come elemento condizionante, come variabile condizionante quella che sta al posto delle colonne. Quindi dirò la f di i condizionata a j. In questo caso abbiamo 3 distribuzioni condizionate X | Y Quindi X = variabile di risposta o variabile dipendente Y = variabile «condizionante» o indipendente LA NOZIONE DI INDIPENDENZA STATISTICA O STOCASTICA Vale la seguente definizione generale: “C’è indipendenza stocastica (o statistica) della variabile statistica X dalla variabile statistica Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se Vale anche il viceversa: Se sto facendo le condizionate di j rispetto ad i, quindi rispetto agli elementi di riga, le condizionate devono essere tutte uguali ma devono essere uguali anche alla marginale della variabile che sta in colonna.

Le distribuzioni c

nell’altro

Possiamo anche identificare le distribuzioni modalità di Y definiscono i gruppi entro cui si X: fi|j = nij / n*j VLT ( Grado coinvolgimento (X) Discreto (88|-100) Buono (101|- 10 Basso (2 ore sett) 2/6 = 0,33 0/7 = 0 Medio (4 ore sett.) 1/6 = 0,17 5/7 = 0, Alto (8 ore a sett.) 3/6 = 0,5 2/7 = 0, Totale per colonna 1 1 3 distribuzioni condiz X = variabile di risposta o v Y = variabile «condizionan Possiamo ripetere domande

Le distribuzioni condizionate

nell’altro verso

Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero l modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabil X: fi|j = nij / n*j VLT (Y) Grado coinvolgimento (X) Discreto (88|-100) Buono (101|-106) Molto buono (107|- 111 ) Basso (2 ore sett) 2/6 = 0,33 0/7 = 0 2/10 = 0, Medio (4 ore sett.) 1/6 = 0,17 5/7 = 0,71 5/10 = 0, Alto (8 ore a sett.) 3/6 = 0,5 2/7 = 0,29 3 /10 =0, Totale per colonna 1 1 1

3 distribuzioni condizionate X|Y

X = variabile di risposta o variabile dipendente Y = variabile «condizionante» o indipendente Possiamo ripetere domande simili alle precedenti

La nozione di indipendenza

stocastica

Vale la seguente definizione generale: C’è indipendenza stocastica (o statistica) della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni (* i,j) Vale anche il viceversa: fi|j = fi per ogni i,j (* i,j)

La nozione di indipendenza

stocastica

Vale la seguente definizione generale:

“C’è indipendenza stocastica (o statistica) della v.s. X dalla v

quando le distribuzioni condizionate di frequenza di Y non varia

al variare delle modalità condizionanti di X,

cioè se fj|i = f*j per ogni ( i,j)

Vale anche il viceversa:

fi|j = fi* per ogni i,j ( i,j)

Tutte le condizionate sono uguali tra di loro e uguali anche alla marginale della variabile che stiamo studiando, quindi della variabile risposta. FATTORIZZAZIONE DELLE FREQUENZE La proprietà di fattorizzazione consente di dire che data una tabella a doppia entrata l’unico caso in cui sono sicura che c’è indipendenza statistica tra X ed Y è il caso in cui le congiunte, quelle che stanno dentro il corpo centrale della tabella, devono essere date dal rapporto tra le due marginali corrispondenti divido N. CONDIZIONE NECESSARIA E SUFFICIENTE PER L’INDIPENDENZA STOCASTICA Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nij siano fattorizzabili (cioè scomponibili in fattori) nel prodotto - diviso per N– delle corrispondenti numerosità marginali, ovvero che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali. “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) b) se le frequenze sono fattorizzabili c’è indipendenza stocastica Fattorizzazione delle frequenze La proprietà di indipendenza statistica (o stocastica) è simmetrica : l’indipendenza di Y da X implica cioè quella di X da Y. Se poi formuliamo le frequenze come rapporti tra numerosità, la definizione generale ”fj|i=fj* per ogni i,j” diventa ”nij/ni=nj/N”** da cui si trae: nij = nije^ = (ni x^ nj)/N* o dividendo entrambe le parti per N: fije^ =fi x^ fj nij*^ : numerosità congiunte teoriche o «expected», «attese» (si indicano anche con nije) Ovvero: come dovrebbero essere le numerosità congiunte in un caso teorico di indipendenza stocastica

I suoi dati si riferivano alla composizione per credo religioso (X) e al tasso di suicidi x 100. abitanti (Y) in otto province (N= unità statistiche) della Baviera. X —> carattere qualitativo ordinale Y —> carattere quantitativo continuo (da riclassificare). Abbiamo 8 province, quindi 8 unità statistiche. Abbiamo una variabile statistica legata al credo religioso (X) e una variabile statistica legata al tasso di suicidi (Y). UN MODO PER COGLIERE L’ASSOCIAZIONE Noi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. Il primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che evidenzia una forte connessione (vedi valore indice chi quadrato normalizzato). Sulle righe metteremo le modalità del carattere X, utilizzerò 3 righe (minoranza, maggioranza, unanimità). Sulle colonne metteremo le modalità del carattere Y. In questo caso 8 modalità sono troppe, quindi riclassificano secondo una variabile per classi, creando 3 classi di valori. Se chi quadro fosse venuto più vicino a zero significa che non ci sarebbe stata una grande connessione tra regione e tasso di suicidi. PROVINCE X= PRESENZA CATTOLICI Y= TASSO SUICIDIO Palatino renano Minoranza (1) 167 Franconia centrale Minoranza (1) 207 Alta Franconia Minoranza (1) 204 Bassa Franconia Maggioranza (2) 157 Svezia Maggioranza (2) 118 Alto palatino Quasi totalità (3) 64 Alta Baviera Quasi totalità (3) 114 Bassa Baviera Quasi totalità (3) 49 Un modo (già noto) per cogliere l’associazione Noi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. Il primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che evidenzia una forte connessione (vedi valore indice F^2 ***** ). X Y 40 - |100^100 - |160^160 - |220^ ni* Minoranza (^) 0 0 3 3 Maggioranza (^) 0 2 0 2 Unanimità (^) 2 1 0 3 nj 2 3 3 8 nijo^ ni. n.j nijo2/nixnj* 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2, Un modo (già noto) per cogliere l’associazione oi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. primo modo è quello della distribuzione congiunta in forma di tabella a doppia entrata, che videnzia una forte connessione (vedi valore indice F^2 ***** ). X Y 40 - |100^100 - |160^160 - |220^ ni* Minoranza (^) 0 0 3 3 Maggioranza (^) 0 2 0 2 Unanimità (^) 2 1 0 3 nj 2 3 3 8 nijo^ ni. n.j nijo2/nixnj* 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2,

Congiunte che vedo all’interno del copro della tabella. In questo caso incontro il 3, il 2, il 2 e l’uno. Il criterio guida è dato dal numero delle congiunte realmente osservate. UN SECONDO MODO PER COGLIERE L’ASSOCIAZIONE Conosciamo anche un secondo modo per rappresentare questi dati in modo da cogliere l’eventuale associazione. Una delle due variabili è qualitativa ordinale, l’altra è quantitativa. Se diamo a ogni modalità del carattere ordinale (X) un codice numerico in sequenza , possiamo rappresentare la distribuzione congiunta in forma di diagramma di dispersione. N e l g r a fi c o d o v r e m o a v e r e 8 p u n t i c h e rappresentano le 8 province. Certo, la metrica dell’asse orizzontale non ci dà garanzie. Ma il grafico ha comunque una sua forte capacità di parlare. Esso ci lascia l’impressione di una relazione inversa tra X e Y : al crescere della presenza di cattolici nelle province cala il tasso di suicidio. La relazione è inversa perché ricorda una retta inclinata negativamente. Al crescere della X osservo una riduzione dei valori della Y. Questo significa che più i cattolici aumenta più il tasso dei suicidi si riduce. LE MEDIE VINCOLATE O CONDIZIONATE Come mai questo grafico ci lascia questa netta impressione? Una prima risposta si ha calcolando, per ogni sub-popolazione (definita dalla quota di presenza cattolica), la media dei tassi di suicidio. questa non è una tabella a doppia entrata, è solo un modo schematico per capire come fare i calcoli. . nijo^ ni. n.j nijo2/nixnj** 3 3 3 1, 2 2 3 0, 2 3 2 0, 1 3 3 0, F^2 =8(2,445-1)= = 11, F^2 max =8(3-1)= F 2* = 0, 6 = 2, Un secondo modo per cogliere l’associazione Conosciamo anche un secondo modo per rappresentare questi dati in modo da cogliere l’eventu associazione. Una delle due variabili è qualitativa ordinale, l’altra è quantitativa. Se diamo a ogni modalità carattere ordinale (X) un codice numerico in sequenza , possiamo rappresentare la distribuzi congiunta in forma di diagramma di dispersione. Certo, la metrica dell’asse orizzontale non ci dà garanzie. Ma il grafico ha comunque una sua forte capacità di parlare. Esso ci lascia l’impressione di una relazione inversa tra X e Y: al crescere della presenza di cattolici nelle province cala il tasso di suicidio. 40 80 120 160 200 240 0 1 2 3 4 X Y Minoranza Maggioranza Unanimità Le medie vincolate o condizionate Come mai questo grafico ci lascia questa netta impressione? Una prima risposta si ha calcolando, per ogni sub-popolazione (definita dalla quota di presenza cattolica), la media dei tassi di suicidio: Xi Yj Y 1 Y 2 Y 3 Yj.. ni* M(Y|xi)=[ (^6) jyj]/ni* I = Minoranza 167 204 207 … 3 [167+204+207]/3= 192, II =Maggioranza 118 157 … … 2 [118+157]/2= 137, III = Unanimità 49 64 114 … 3 [49+64+114]/3= 75, La media vincolata M(Y|xi) di Y rispetto a una sub-popolazione definita dalla i-esima modalità di X {X= xi} è la media della corrispondente distribuzione vincolata o condizionata.

Analisi Bivariata: Dipendenza Stocastica e Dipendenza in Media - Prof. Rivellini, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Analisi Bivariata: Dipendenza Stocastica e Dipendenza in Media - Prof. Rivellini e più Appunti in PDF di Statistica solo su Docsity!

RICLASSIFICARE E LEGGERE CONGIUNTAMENTE

Ripartiamo da una matrice dati…

TAB. 1: Informazioni su un gruppo di studenti dell'Università Cattolica

(sesso, titolo di studio conseguito, età propria ed età del fidanzato)

N = 15

Codice = identificativo dell’unità statistica

ni* = Numerosità marginale di riga : numero di unità statistiche che

«possiedono» la modalità i del carattere X; è rappresentata dalla somma delle

numerosità congiunte della riga i - esima.

n*j = Numerosità marginale di colonna : numero di unità statistiche che

possiedono la modalità j del carattere Y; è rappresentata dalla somma delle

numerosità congiunte della colonna j - esima.

ni* = 6 J=1..s nij

n*J = 6 i=1..r nij

N = 6 i=1..r ni* = 6 J=1..s n*j

Le nuove condizioni di ‘quadro’

Una tabell

Xi

x 1

x 2

xi

xr

ni*

n1*

n2*

N

Voto I Verifica (Y)

Genere (X) 18|-|20^ 21|-|24^ 25|-|27^ 28|-|30^ ni*

F 1 2 3 2 8

M 3 2 1 1 7

n*J 4 4 4 3 15

Il diagramma di dispersione

U E

U

E

U

E

U E

U

E

C’è corrispondenza tra

diagrammi e tabelle

5 4 5 2 16 Età

Intervallo

Diagrammi e tabelle non sono modi di rappresentazione prive di comunicazione tra loro!!

C’è corrispondenza tra

diagrammi e tabelle

5 4 5 2 16 Età

Intervallo

L’INDIPENDENZA STATISTICA E IL SUO CONTRARIO

Definiamo frequenza vincolata fj|i il rapporto tra la numerosità congiunta nij e la numerosità marginale

di riga corrispondente ni* , o – indifferentemente - il rapporto tra la frequenza congiunta fij e la

frequenza marginale di riga corrispondente fi *

fj|i = nij / ni* = fijN / fiN = fij / fi

Titolo di studio conseguito F M

maturità Tecnico-professionale 9.09% 33.33% 20.00%

ALTRO ESEMPIO: PRIMO PASSO

Le distribuzioni c

nell’altro

Le distribuzioni condizionate

nell’altro verso

3 distribuzioni condizionate X|Y

La nozione di indipendenza

stocastica

La nozione di indipendenza

stocastica

Vale la seguente definizione generale:

“C’è indipendenza stocastica (o statistica) della v.s. X dalla v

quando le distribuzioni condizionate di frequenza di Y non varia

al variare delle modalità condizionanti di X,

cioè se fj|i = f*j per ogni (  i,j)

Vale anche il viceversa:

fi|j = fi* per ogni i,j (  i,j)

cioè se fj|i = f*j per ogni ( i,j)

fi|j = fi* per ogni i,j ( i,j)