Scarica Analisi dell'associazione tra variabili: quantitative e ordinali e più Appunti in PDF di Statistica solo su Docsity!
Analisi dell’associazione tra variabili categoriali
- Variabile quantitativa: assume valori che rappresentano i diversi ordini di grandezza (o livelli di intensità) del fenomeno misurato (es: peso, altezza, reddito, temperatura, durata di una lampadina, ecc.) Il confronto a coppie dei possibili valori rilevati per una variabile quantitativa in generale produce una scala di intervalli (zero di natura convenzionale). Se la scala presenta un’origine non convenzionale ma fissa si parla di scala di rapporti (es: temperatura VS durata lampadina).
- Variabile categoriale (o qualitativa): rappresentano delle descrizioni, assume valori che identificano un insieme di categorie (es: genere, status occupazionale, credo religioso, preferenza politica, ecc.) Le categorie che non presentano nessun ordinamento formano una scala nominale. Le categorie che invece presentano un ordinamento naturale dei loro valori formano una scala ordinale (es: titolo di studio). Le variabili ordinali possiedono quindi una caratteristica delle scale quantitative: il concetto di «minore» o «maggiore» che ne determina l’ordinamento. L’associazione tra variabili In generale, si ha associazione tra due variabili se la distribuzione di una variabile varia al variare dell’altra variabile (ci chiediamo relazione tra due variabili). In questa lezione saranno presentati metodi per descrivere l’associazione tra variabili categoriali. Tra due variabili categoriali, una assume generalmente il ruolo di variabile risposta (influenzata dalla seconda variabile), l’altra di variabile esplicativa (individuo quindi una direzione nell’associazione). Un modo per verificare se la distribuzione di una variabile varia al variare dell’altra variabile è attraverso l’analisi della cosiddetta tavola di contingenza. Es : associazione, dipendenza statistica tra genere e area di studio. è il genere che in qualche modo potrebbe influenzare area di studio. Logicamente e temporalmente si colloca prima → .la variabile esplicativa. Primo step per valutare due variabili categoriche è quello di disporle su una tabella a doppia entrata o tavola di contingenza → in cui ci sono riportate in ogni cella le frequenze assolute. Genere (esplicativa) Area (risposta) Umanistica Ingegneristica Medica Totale Maschi 40 81 84 205 Femmine 96 72 110 278 Totale 136 153 194 483 Tavole di contingenza (riepilogo) Se, in relazione allo studio di un certo fenomeno, si rilevano due variabili X (con s modalità) e Y (r con modalità) , ciascuna delle n unità osservate sarà caratterizzata da un insieme di coppie di valori: (xi, yj) con i = 1..s; j = 1...r a ciascuna delle quali è associata una certa frequenza assoluta nij o relativa fij = nij/n di osservazione Frequenze assolute congiunte Frequenze relative congiunte e marginali
Frequenza relativa condizionata → calcolo (x = xi/y = y1) = ni1/n.1, mi focalizzo su 1°colonna della 1°tabella P (x = xi/ y = y1) → [P (x = xi ⋂ y = y1)] / P (Y = y1) → = fi1/ f.1 (2° tabella) Mentre altro esempio : frequenza relativa di (x = xi/ y = yj) = nij/ n.j P (x = xi/ y = yj) → [P (x = xi ⋂ y = yj)] / P (y = yj) → = fij/ f.j Frequenze relative condizionate mi servono perchè mi permettono di capire se tra x e y esiste o meno associazione (distribuzione di una probabilità di una variabile varia al variare dell'altra variabile). Per poter formulare un primo giudizio per capire se c’è associazione → devo vedere se sono indipendenti (se P di A/B è diversa da PA o viceversa). Oggetto di indipendenza statistica è agganciato al concetto di frequenza relative condizionate. Se (x = xi/y = y1) → (x = xi) → fi1/ f.1 è la frequenza relativa di (x = xi) P (x = xi) → fi. (somma di tutte le frequenze relative quando x = xi) Si scopre che se x e y sono indipendenti, io devo osservare che varie frequenze relative condizionate o probabilità condizionate devono essere tutte uguali alle frequenze relative non condizionate, devono essere anche uguali tra loro. P (x = xi/ y = y1) = P (x = xi/ y = y2) = … P (x = xi/ y = yi) = … = P (x = xi) fi1/ f.1 = fi2 /f.2 = …. = fij /f.j = …. = fi. equivalente a → ni1 /n.1 = ni2 /n.2 = ... = nij/ n.j = ... = ni. / n Se x e y sono indipendenti verifico le uguaglianze→ frequenze relative condizionate devono essere tra loro uguali, se non lo sono c’è dipendenza tra y e x. Indipendenza statistica: nella Popolazione due variabili categoriali sono statisticamente indipendenti se tutte le distribuzioni condizionate di una variabile a ciascuna categoria dell’altra sono identiche. Ovvero se e solo se: f rel (X = xi / Y = yi) = f rel (X = xi) f rel (Y = yi / X = xi) = f rel (Y = yi) (per ogni i e j) in quanto il condizionamento non sortisce effetto (non subiscono variazioni x o y). Quindi, in caso di indipendenza : fij/ f = fi. oppure fij/ f = f.j <--> fij = fi f.j <--> nij = (ni. n.j) / n nij → sono le frequenze teoriche o attese se x e y sono indipendenti attese nij = nij cap fij → sono le frequenze relative congiunte teoriche o attese fij = fij cap Dipendenza statistica: se, nella Popolazione, tutte le distribuzioni condizionate di una variabile a ciascuna categoria dell’altra NON sono identiche, allora esiste associazione tra due variabili che sono dette statisticamente dipendenti. Casi estremi di dipendenza:
- MASSIMA ASSOCIAZIONE (DIPENDENZA PERFETTA): La variabile Y dipende perfettamente da X se, in corrispondenza di ogni modalità di X , si verifica una sola modalità di Y.
- INTERDIPENDENZA PERFETTA Ciascuna variabile dipende perfettamente dall’altra (dipendenza perfetta bilaterale – solo per tavole quadrate). 1) Dipendenza perfetta → Comunque si osservi una x , siamo in grado di dire quale y si è verificata, per cui Y dipende perfettamente da X. Il viceversa non è vero. (dato il valore di una variabile x l’altra y viene determinata in maniera certa) Modalità di x sono maggiori di y → rettangolo. 2) Interdipendenza perfetta → Adesso la dipendenza perfetta è bilaterale. Tabella quadrata → y e x hanno stesso numero di modalità. Le variabili x e y si determinano univocamente a vicenda → situazione simmetrica NB: la dipendenza perfetta è rara, e si osserva esclusivamente quando tra le due variabili esiste una dipendenza deterministica (ovvero una delle due variabile è funzione dell’altra). In generale le relazioni tra fenomeni non sono perfette. Popolazione vs evidenzia campionaria NB: il concetto di indipendenza è analogo a quello definito nella lezione 2 «I Principi della Probabilità»; la relazione si riferisce all’intera Popolazione. Però si osservano dati di natura campionaria, che possono evidenziare una «forza» della relazione differente da quella che caratterizza l’intera Popolazione...
NB: il test richiede che i dati siano ottenuti attraverso un campionamento casuale e che il campione sia sufficientemente grande. Individuo statistica test (chi-quadro di Pearson): x^2 = Σ [(fo - fe) ^2]/ fe → con la sommatoria che agisce su tutte le celle della tavola di contingenza dove: fo frequenze osservate = nij fe frequenze attese (in caso di indipendenza) = nfi f.j = (ni. • n.j) /n ≥ 5
- Quando H0 è vera (ipotesi indipendenza), le frequenze osservate e attese tendono ad essere vicine in ogni cella (piccole differenze) e la statistica test assume valori relativamente piccoli.
- Se H0 è falsa, alcune differenze saranno rilevanti, elevando il valore della statistica test. Più grande è il valore di x^2 , maggiore è l’evidenza campionaria contro H0. Genere (esplicativa) Area (risposta) Umanistica Ingegneristica Medica Totale Maschi 40 (57,7 → fe) 81 (64,9) 84 (82,3) 205 Femmine 96 (78,3) 72 (88,1) 110 (111,7) 278 Totale 136 153 194 483 Calcolo delle frequenze attese, esempio : (ni. • n.j) /n (136 • 205) / 483 = 57,7 (freq. ass. attesa della prima riga e prima colonna) (153 • 205) / 483 = 64, (194 • 278) /483 = 111,7 (freq. ass. attesa della seconda riga e terza colonna) (136 • 278) / 483 = 78, X^2 = … = 16,415 dato dal fare → (40- 57,7)^2/ 57,7 + (81 - 64,9^2 /64,9 + (84 - 82,3)^2 /82,3... gdl = (r - 1) (c - 1) = 2 Ragione di rifiuto è tutta a dx → fisso una lfa e con tavole del chi quadro devo andare a cercare valore critico (v) che lascia a dx un’area pari ad alfa (5%). Gdl = 2, tavola mi dà area a sx che è 0,95 → quindi v = 5,99. Confronto 16,415 con 5,99 → siccome chi quadro è maggiore di 5,99 rifiuto H0, ipotesi di indipendenza, con probabilità di commettere errore di primo tipo con 5%. A favore di ipotesi alternativa → che x e y diamo staticamente dipendenti tra loro La distribuzione della statistica test x^2 nell’universo dei campioni tende, per elevate numerosità campionarie, alla distribuzione di probabilità chi-quadro. Conosco la distribuzione dell’indice chi quadrato → la statistica X^2 ha distribuzione di tipo chi-quadrato con un certo numero di gradi di libertà. Chi quadrato è una variabile casuale, di tipo continuo, è definita tra zero e più infinito, ha una forma generalmente asimmetrica (ha coda allungata per valori positivi dell’asse reale). Parametro caratteristico della chi quadrato è i gradi di libertà e all'aumentare dei gdl la forma della curva diventa sempre più simmetrica → distribuzione tende alla Normale. I gdl regolano la media e varianza della distribuzione : μ = gdl σ = 2gdl In una tavola di contingenza con r righe e c colonne, per sottoporre a verifica l’ipotesi “H0: indipendenza”: gdl = (r - 1) (c - 1) → (2 - 1) (4 - 1) = 3 (numero di righe della tabella (numero modalità della x) e numero totale di colonne (numero modalità della y) Questo perché, dati i vincoli imposti dalle distribuzioni marginali, sono solo (r–1)(c–1) le celle i cui valori possono essere liberamente attribuiti entro certi margini di «libertà» dettati dalle variabili oggetto di studio. c → colonne
Metodo del p value P value è probabilità di osservare un valore del chi quadrato più grande/estremo (maggiore del valore calcolato) di quello che abbiamo calcolato. Se p value è piccola → o si è verificato un evento raro (campione è particolare) o l’H0 è falsa. Se p value piccolo (anche di più un livello di significatività alfa), si preferisce concludere che H0 è falsa piuttosto che dire che ci è capitato un campionamento raro. Se p value è più piccolo di alfa sono dentro regione di rifiuto, se p value maggiore di alfa → non sono entro regione di rifiuto e non rifiuto H0, ma accetto Ha. Poiché più grande è il valore di X^2, maggiore è l’evidenza campionaria contro H0, è ragionevole collocare la regione critica del test nella coda destra della distribuzione Chi-quadro. Il p-value misura quindi la probabilità, qualora sia vera H0 , che si verifichino valori almeno grandi quanto il valore di z^2 effettivamente osservato. se p-value < a (livello di significatività prescelto) si respinge H Continuo esempio → definisco H0 e Ha, individuo statistica test e la calcolo Xì2 = 16,415→ poi non individuo v (valore critico). Guardo su tavole di chi quadri (non ci sono tutti i possibili quantili, il più grande è 15,2 per 2 gdl), area che mi rimane su dx 16 è più piccola di 0,005. Sicuramente devo rifiutare H0. X^2 = 16,415 Pr (X^2 gdl 2 ≥ 16,415) = 0, = in caso di indipendenza (ipotesi H0), il valore osservato o uno ancor più estremo avrebbero una probabilità di verificarsi in 2 casi su 10000 → quindi si preferisce respingere l’ipotesi di indipendenza Osserviamo un campione → la tabella è relativa al campione e non alla popolazione. Occorre ricorrere a test di ipotesi → chi quadrato che si basa su una statistica test chi quadrato → confronto frequenze osservato con quelle attese elevate al quadrato, diviso frequenze attese. Chi quadrato ha distribuzione chi quadrato ed è variabile casuale continua. Si caratterizza per parametro di gdl che aumentando tende ad essere un normale. Dopo aver raggiunto il risultato risolviamo test → H0 = X^2 = 0 Ha = X^2 > 0. Ricorriamo poi a p value o regione critica. Le frequenze attese devono essere ≥ 5 → per essere affidabili. Il test X^2 si applica generalmente a variabili nominali. Non usa la caratterizzazione aggiuntiva delle variabili ordinali (che le variabili sono in ordine). Se variabili sono quantitative diventa impossibile fare tabella a doppia entrata → devo raggruppare in classi i valori della modalità della variabile quantitative (reddito-età lavorativa = creo classi di valori, ma test chi quadro non va a sfruttare info numerica presente nella variabile quantitativa). Non è necessario individuare una variabile risposta e una esplicativa (quando si studiano insieme due variabili → si ha idea di chi influenza cosa. Test X^2 dice solo se sono statisticamente indipendenti o dipendenti). Il test X^2 non dice nulla o quasi sulla forza dell'associazione (tra i due casi estremi → indipendenza o perfetta dipendenza, ci possono essere sfumature più o meno forti). Se il p –value è molto piccolo, è evidentemente un segnale di una dipendenza importante. Che non siamo però in grado di quantificare Area Genere Umanistica Ingegneristica Medica Totale Maschi 400 (5772,2) 810 (649,4) 89 (823,4) 2050 Femmine 960 (782,8) 720 (880,6) 1100 (1116,6) 2780 Totale 1360 1530 1940 4830 Ancora sul test chi-quadrato di indipendenza Il test X^2 non dice nulla o quasi sulla forza dell'associazione. Dimostrazione empirica: valori/frequenze osservate moltiplicati per 100 → campione di 4830. Invariate relazione tra genere ed area di studio. Eppure, la moltiplicazione per 10 di tutte le celle non ha alterato la relazione tra le due variabili. In altre parole, le distribuzioni condizionate sono le stesse di prima. Calcolare X^2 in questo secondo caso → 164,15 risulta moltiplicato per 100. La forza dell'associazione risulta invariata, anche se è aumentato X^2. Indice X^2 → non è in grado di dirmi quanto forte sia l'associazione. Quello che posso fare per capire di più → è calcolare i residui standardizzati-aggiustati. I residui sono la differenza tra frequenze assolute osservate e quelle attese. Differenza che risente dell'ordine di grandezza del campione → le devo standardizzare dividendole per radice di frequenze attese (1- frequenza relative della i esima riga) (1 - frequenze relative della j esima colonna). Ottengo residui standardizzati-aggiustati.
Ma c'è associazione tra appartenenza al gruppo e prob di superare test? Per capirlo devo fare test di ipotesi → per il confronto tra due proporzioni. Se x e y sono indipendenti → devo osservare che π1 = π2. Probabilità di successo è uguale per i due gruppi e le distribuzione relative condizionate sono uguali. Devo fare un test sul confronto/differenza tra proporzioni dove H0 : π1 = π1, ipotesi di indipendenza tra le 2. Ha : (π1 ≠π2), ipotesi alternativa di tipo bidirezionale → due probabilità condizionate di successo sono diverse e le due variabili non sono indipendenti. Confronto al numeratore le due proporzione campionarie (probabilità di successi nel gruppo 1 e gruppo 2), loro differenza H0 : π1 - π2 = 0 Ha : π1 - π2 ≠ 0. Se n1 e n2 maggiori di 100, sufficientemente grandi, la differenza delle proporzioni campionarie tende a distribuirsi come normale dove media è π1- π e varianza è data da (π1 - π2) = [π1 ( n1 - π1 )] /n2 + [π2 (n1- π2 )] /n La media deve essere uguale a 0 se indipendenti. Varianza → π1 = π2 = π. Posso stimare π → facendo sorta di media tra le proporzione condizionate di successo osservate nel campione → formula del π pooled = (n1 • π1cap + n2 • π2cap) / n1 + n2 → media aritmetica ponderata di successi dei due gruppi. Varianza stimata → πcap pooled • (1- πcap pooled) • (1/ n1 + 1/ n2) → è la stima varianza di differenza tra proporzioni campionarie. Userò come statistica test → π1cap - π2cap / radice della varianza stimata. Sarà circa una N(0,1). Per risolvere statistica test ho una normale standard → calcolo z, ipotesi bidirezionale e poi confronto z calcolato con regione critica e decido se rifiutare o meno. Quindi test di ipotesi si svolge : definendo H0 e Ha, individuo statistica test (della quale conosco distribuzione d probabilità sotto l’ipotesi nulla), la calcolo e poi o calcolo p value e confronto con alfa per capire se rifiutare o meno, o individuo regione di rifiuto e di accettazione e calcolo il valore calcolato dalla statistica con quello critico. Statistica test deve essere scelta in base ai parametri sottoposti ad ipotesi. Esempio su slide → 120/154 = 0,7792 mentre l'altro è 0,7624 → la differenza è dovuta al caso o dovuta a disparità di trattamento degli studenti? Per capirlo devo fare test di ipotesi, calcolare statistica → trovo z = (0,7624 - 0,7792 - 0)/ [radice di 0,77 (1- 0,77) (1/181 + 1/154)] (sotto radice è la varianza) π pooled = (n1 • π1cap + n2 • π2cap) / n1. + n2. = (181 per 0,7624 + 154 per 0,7792) / (181 +154) = 0,
Statistica test è una normale standard → con -z alfa/2 e z alfa/2 (1,64). z = -0,36, quindi accetto H0 → ipotesi di indipendenza tra le due probabilità. La differenza è dovuta alla variabilità campionaria, al caso e quindi non c’è disparità di trattamento tra studenti del primo e secondo turno. (potevo usare anche criterio del p value → che è 2 • P (Z > |-0,36|) = P (-0,36 < Z < 0,36) π non conosciuto → facendo media aritmetica delle due proporzioni di successi nei due gruppi Se calcolo i limiti. α/2 = 0,025. z α/2 = 1,64. → se valore calcolato 0,36 sta nella regione critica accetto H0. Perchè non ho fatto test chi quadrato? Il test sul confronto può essere equivalente al test X^2, questo succede perchè si può dimostrare che la variabile casuale normale standard al quadrato è uguale alla variabile casuale chi quadrato con 1 gdl. Di conseguenza se la elevo al quadrato la mia z → posso verificare che è uguale all'indice X^” che otterrei calcolandolo sulla tabella 2 x 2. X^2 è 0,1325 con 1 gdl (1 per 1) = -0,36 al quadrato. p value è molto alto (0,71) quindi accetto H0. NB. Nel caso di tavole 2 x 2: esiste la relazione: z^2 = X^2, ovvero il quadrato della statistica test z corrisponde al valore del test X^2 di Pearson. A livello asintotico, il p-value ottenuto dalla distribuzione del chi-quadro è lo stesso di quello per il test bilaterale che usa la statistica z. Elevando al quadrato un qualsiasi z-score associato ad una certa probabilità su due code si ottiene il valore del chi-quadro con gdl = 1 corrispondente alla stessa probabilità sottesa alla coda destra della distribuzione. Nel caso della normale la regione critica è mezza su una coda e mezza sull'altra, nel caso del chi quadrato → tutta sulla dx. Test sono equivalenti tra loro, il risultato non cambia limitatamente nel caso di una tabella 2x2. Odd ratio si basa una quantità→ odd (quota) = rapporto tra probabilità di successo e probabilità di insuccesso Esempio π1 / 1- π1, π2 / 1- π2 nell’esercizio precedente con tabella 2 x 2 e posso calcolare 2 odd. Rapporto tra due probabilità strettamente connesse tra loro, ua è il complementare dell’altro. Se la probabilità di successo è maggiore di quella di insuccesso odd > 1, altrimenti 0 ≤ odd < 1 o 0 ≤ odd <∞. odd = 1 implica che le due probabilità coincidono, probabilità di successo è uguale a quella di insuccesso. Odd1 = 1 → π1 = 1 - π1 Odd1 < 1 → π1 < 1 - π1 Odd1 > 1 → π1 > 1 - π Odd ratio (rapporto tra quote) è il rapporto tra gli odd delle due righe della tabella → θ = odd riga / odd riga 2 OR = (π1 / 1- π1) / (π2 / 1- π2) → interpretiamolo come sorta di propensione al successo nel gruppo 1 e quella nel gruppo 2. Mi dice quando l’odd/ propensione di successo è maggiore o minore nel gruppo 1 rispetto al gruppo 2. Quando si va a interpretare un odd ratio, i valori di riferimento che si prende è 1. L’odd-ratio è una buona misura dell'associazione in tabelle 2 x 2.
- θ = 1 → l'odds nel grp1 è uguale all’odd nel grp 2, cioè la variabile esplicativa non influenza la variabile risposta → la propensione ad osservare un successo nel gruppo1 è uguale a quella del gruppo2. Probabilità condizionata di successo nel gruppo1 rapportata alla probabilità condizionata di insuccesso nel gruppo 1 è la stessa che si osserva nel gruppo 2 → (π1 / 1- π1) = (π2 / 1- π2) → questo implica che non c’è associazione tra le due variabili coinvolte, ovvero il fatto di appartenere a un gruppo non altera probabilità di successo, il rapporto tra probabilità di successo e insuccesso;
- θ > 1 → l’afferenza al grp1 è, o può essere, causa del verificarsi del «successo» → c‘è associazione, anche una direzione : stare nel grp1 mi incrementa proporzione di successo rispetto allo stare nel grp2;
- θ < 1 → l'afferenza al grp2 è, o può essere, causa del verificarsi del «successo», la propensione al successo nei soggetti del gruppo 1 è inferiore alla propensione al successo nei soggetti del gruppo 2.
- Calcolo residui standardizzati aggiustati RSA → in una tabella a doppia entrata basta calcolare gli RSA di una cella perché gli altri si trovano di conseguenza/ si compensano tra loro. Se ci fosse indipendenza gli RSA sarebbero zeri, se nel nostro caso invece c’è dipendenza. RSA cella 11 = (n11 - n11 cap) / radice di ni11 cap ( 1- n1./n) (1- n.1/n) = [1449 -1280,21] / radice di 128,21 (1 - 1495/2776) (1 - 1949/2776) = 168,79/7,94 = 21, RSA tendono a distribuirsi come una normale standard se n ha ampiezza sufficientemente grande, di conseguenza nella normale standard sappiamo che oltre il 99 % dei valori scade tra -3 e +3, un residuo è al di fuore indica associazione forte tra le due variabili. risultato del X^” (che indica significatività statistica di associazione) è rafforzato da questi risultati → tra fumo e alcol forte associazione.
- Calcolo odds-ratio, prima faccio tabella delle probabilità : Valuto forza di associazione, tramite il calcolo degli odds-ratio Alcol Fumo Sì No Totale Sì 0,969 0,031 1. No 0,640 0,360 1. Totale 0,856 0,144 1. π1 = P (alcol sì/ fumo sì) = 11449/1495 = 0,969 π2 = P (alcol sì/ fumo no) = 500/781 = 0, π = 1949 /2275 = 0,856 → uso di alcol. Fumatori : Odd = π1 / 1 - π1 = (bere) 0,969 / (non bere) 0,031 = 31,26 → Quindi, per un fumatore, la probabilità di bere alcolici (propensione) è di 31 volte superiore alla probabilità di non berli. Non fumatori : Odd = π2 / 1 - π2 = 0,640 / 0,360 = 1,78 → Quindi, per un non fumatore, la probabilità di bere alcolici è di 1.7 volte superiore alla probabilità di non berli Odds ratio = (0,969 / 0,031) / (0,640 / 0,360) = 17,73 oppure = (1449 • 281) (46 • 500) = 17, Quindi, l’odd (propensione) di bere alcolici per un fumatore è oltre 17 oltre l’odd (propensione) di bere alcolici per un non fumatore. Relative-risk → RR = 0,969 / 0,649 = 1,51 → Quindi, la probabilità di bere alcolici per un fumatore è 1, volte superiore alla probabilità di bere alcolici per un non fumatore. Si può andare a fare un test per il confronto fra le proporzione che deve dare stessa conclusione del chi quadro → H0: π1 - π2 = 0 Ha : π - π2 ≠ 0 π1cap = 0,969 → Probabilità di far uso di alcol nel gruppo dei fumatori π2cap = 0,649 → Probabilità di far uso di alcol nel gruppo dei non fumatori calcolo → π pooled cap = 0,856 → (1495 • 0,969) + (781 • 0,64)] / 2276 z = (0,969 - 0,64) radice di 0,856 (1 - 0,856) (1/ 1495 + 1/781) = 21,25 → rifiuto H
Associazione tra variabili ordinali Sia ha informazione relativa all'ordinamento naturale delle modalità della variabile stessa. Quando le variabili categoriali sono di tipo ordinale è possibile sfruttare l'informazione che proviene dall'ordinamento naturale delle loro modalità. Supponiamo che X e Y siano due variabili ordinali. In questo caso, si parla di:
- Associazione positiva: quando soggetti classificati con elevati valori di X tendono a manifestare anche elevati valori di Y e viceversa.
- Associazione negativa: quando soggetti classificati con elevati valori di X tendono a manifestare bassi valori di Y. Posso capire quindi la direzione → all’aumentare dei valori di una variabile aumentano anche quelli dell'altra o viceversa. Si parla di associazione positiva quando a valori elevati su x corrispondono valori elevati di y. La distribuzione di probabilità di una variabile varia al variare della distribuzione di probabilità dell’altra ed entrambe variano nella stessa direzione (si riduce una e si riduce l'altra). Associazione negativa → quando valori elevati su una variabile tendono a corrispondere a valori negativi sull’altra. Non è necessario che variabili siano quantitative, basta che siano ordinali per dire direzione associazione. Associazione tra variabili ordinali: concordanza e discordanza Poiché nelle tavole di contingenza bivariate ogni caso statistico è definito mediante una coppia di valori osservati (x,y) … Definizione:
- Una coppia di casi statistici è concordante quando uno dei due casi è superiore all’altro in entrambe le variabili osservate.
- Una coppia di casi statistici è discordante quando uno dei due casi è superiore all’altro in una variabile, ma inferiore nella seconda variabile che compone l’osservazione. x y y1 y2 y3 x y y1 y2 y x1 x1y1 x1 x1y x2 - - x2 - - x3 - - x3 - - X1y1, questa soggetto costituisce una coppia concordante con tutti i soggetti che presentano valori sia sulla x che y superiori a quelli di x1y1. Con valori di x < x1, y < y1, soggetti che facendo riferimento a tabella bivariata icollonano più a dx e più in basso rispetto a x1y1 → costituiscono una coppia i cui valori concordano con prima cella (x2, y2) (x2, y3) (x3, y2) (x3, y3) Coppia di valori discordante → quando a valori superiori di una variabile corrispondono valori inferiori all'altra variabile. xe y tendono a muoversi in maniera discorde, se aument ua variabili si osserva riduzione sull’altra. Esempio x1y3, coppia di valori rappresenta un caso discordante rispetto a tutti quei soggetti che presentano valori più bassi della y (si presenta a sx di y3) e contemporaneamente valori più alti (sotto a x1). (x2, y1,) (x2, y2) (x3, y1) (x3, y2). Guardando numero complessivo di casi discordanti e concordanti possiamo quantificare quello che il grado e la direzione dell'associazione. S indio con C i numero totale di casi di coppie concordanti e con D in numero totale di casi di coppie discordanti, in assenza di associazione C = D. Se C – D > 0 → associazione positiva. Se C – D < 0 → associazione negativa. NB: C e D dipendono/risentono della dimensione campionaria. Per eliminare tale effetto si standardizza la differenza C – D per il numero di coppie totali (C + D) : indice gamma Ɣcap = (C - D) / (C + D)
- La seguente tabella si riferisce a un’indagine su felicità e stato civile. Felicità Stato civile Poco felice Abbastanza felice Molto felice Sposato 93 (-10,0) 720 (-5,4) 600 (13,1) Vedovo 51 (3,4) 142 (-0,2) 63 (-2,2) Divorziato 88 (3,6) 304 (3,2) 93 (-6,1) Separato 31 (5,3) 51 (-1,2) 19 (-2,7) Mai sposato 127 (4,0) 159 (4,2) 144 (-7,4) A) Il valore dell’indice Chi-quadrato risulta pari a 236,4: interpreta tale valore e svolgi il test di indipendenza. è una misura di associazione che si costruisce confrontando frequenze osservate con quelle teorie e attese sotto ipotesi di indipendenza. x^2 assume valore zero quando frequenze assolute e teoriche sono uguali tra loro → c’è indipendenza. Altrimenti si assume valore positivo quando c’è dipendenza statistica o associazione tra x e y. Il chi quadrato non ci dice forza associazione, ma il valore dice che c’è associazione tra x e y se 236,4, meglio verificare che sia significativamente diverso da zero. Quindi → H0 : X^2 = 0 Ha : X^2 < 0 alfa = 0,05 se vera H0 si distribuisce come un X^2 con gdl (r - 1) (c - 1) = 4 per 2 = 8. La regione di rifiuto. Valore critico è 15,5. Lo confronto con 236,4 → siamo abbondantemente dentro regione di rifiuto, quindi siccome X^2 calcolato è maggiore del valore teorico rifiuto H0, concludo vhe c’è associazione statisticamente significativa tra x e y. Valore non diverso da 0 per caso, a livello di popolazione c’è associazione tra variabili. B) La tabella in parentesi riporta i residui standardizzati aggiustati. Sintetizza a parole (interpreta) l’associazione tra felicità e stato civile, indicando quali categorie dello stato civile mostrano forte evidenza di più osservazioni e meno osservazioni nella popolazione nella categoria molto felice rispetto a quanto si sarebbe osservato nel caso di indipendenza. RSA sono standardizzazione dei residui → differenza tra frequenze osservate e teoriche/stimate. In situazione di indipendenza sono 0, di dipendenza sono positivi o negativi. Se lavoriamo con campioni sufficientemente grandi gli RSA si distribuiscono come una normale standard e quindi siccome oltre il 99% assume valore di più o meno 3, quando mi trovo al di fuori so di avere un'associazione forte tra le due variabili. Mi focalizzo su colonna molto felice, vedo che ho eccesso di individui sposati (tra coloro molto felici → RSA è 13), ho un difetto in coloro che non si sono mai sposati e divorziati. Meno accentuata per i vedovi e separati. In collusione si può dire che livelli elevati di felicità sono più probabili da osservare negli sposati, molto meno nei nei non mai sposati e divorziati. C) Confronta il gruppo degli sposati e quello dei divorziati attraverso un test per la differenza tra proporzioni nella categoria molto felice (rispetto a poco felice o abbastanza felice). (faccio tabella 2 x 2) Felicità Stato civile Molto felice Non molto felice Totale Sposato 600 (13,1) 93 + 720 1413 Divorziato 93 (-6,1) 88 + 304 485 Sposato → π1cap = 600 / 1413 = 0,425 Divorziati → π2cap = 93 / 485 = 0, Vogliamo sottoporle a test → H0 : π1 - π2 = 0 (sono tra loro uguali) Ha : π1 - π2 ≠ 0 alfa = 0,05 πpooled cap (probabilità di successo che ho sotto H0) = (1413 • 0,425 + 485 • 0,192) / 1413 + 485 = 0,369 → 37% si dichiara molto felice. z = (π1cap - π2cap) / radice di πpooled cap (1 - πpooled cap) ( 1/n1. + 1 /n2.) = z = (0,425 - 0,192) / radice di 0,365 (1 - 0,365) (1/ 1413 + 1/ 485) = 9, Valori di una normale standard stanno normalmente tra 3 e -3, se faccio pvalue lo ottengo molto piccolo, quindi rifiuto H0 → che le due proporzioni siano tra loro uguali.
- Il Substance Abuse and Mental Health Archive, un’indagine sull’abuso di droga nelle famiglie statunitensi, ha indicato che tra gli statunitensi di età 26-34 anni il 51% ha usato marijuana almeno una volta nella vita e il 18% cocaina. a) Trova gli odds di avere usato (i) marijuana e (ii) cocaina e interpreta. Sappiamo che P (M) = 0,51 1 - P (M) = 0,49 P (C) = 0,18 1 - P (C) = 0, Odd (M) = rapporto tra prob di successo e insuccesso = 0,51/0,49 = 1,04 Odd (C) = 0,18/0,82 = 0, 1 indica situazioni di nessun sbilanciamento, con Maria 1,04 → nel campione c’è una propensione neutra all’uso di maria, probabilità di utilizzarla è più o meno uguale a quella di non utilizzarla. Odd varia tra 0 e più infinito, se superiore a 1 probabilità di successo è elevata, se si avvicinano a zero la propensione di successo è più bassa dell’insuccesso. Propensione all’uso di cocaina è bassa. b) Trova l’odds ratio per confrontare l’uso di marijuana e l’uso di cocaina e interpreta. Odds ratio è rapporto tra gli od = 1,04 / 0,22 = 4,73, propensione all’uso di maria è quasi 5 volte maggiore rispetto a quella per la cocaina nel campione osservato.
- La seguente tabella si riferisce a un’indagine su orientamento politico e razza. Orientamento politico Razza Democratici Repubblicani Totale Neri 250 (88,6) 17 (178,4) 267 Bianchi 640 (801,4) 1775 (1613,6) 2419 Totale 830 1792 2682 a) Verifica l’ipotesi di indipendenza tra l’orientamento politico e la razza, tramite il test di indipendenza Chi-quadrato. Inizialmente calcolo indice chi quadrato → confronta frequenze osservate con quelle attese (che devo calcolare lasciando solo i marginali e ricavando gli altri numeri della tabella). Se ipotesi di indipendenza fosse vera dovrei osservare → 890 per 267/ 2682 = 88,6 neri democratici Dopo clcolo chi quadrato → sommo addendi → (250 - 88,6)^2 /88,6 + (17 - 178,4)^2 /178,4 + (640 - 801,4)^2 / 801,4 + (1775 - 1613,6)^2 /1613,6 = 488,67 (valore elevato). gdl è 1. Valore X^2 estremo, si rifiuta H0, p value inferiore a 0,001 e quindi rifiuto di indipendenza. C’è associazione tra razza e orientamente politico. b) Descrivi la struttura di associazione calcolando i residui standardizzati aggiustati. In una tabella 2 x 2 basta calcolare un RSA perchè gli altri 3 si ottengono cambiando disegno. RSA Cella 11 = n11 - n11cap / radice di n11cap (1 - n1./n) (1 - n.1/n) = = 250 - 88,6 / radice di 88,6 (1 - 267/ 2682) (1 - 890/ 2682) = RSA ND (11) = RSA NR (12) = - RSA11 RSA DD (21) = - RSA11 RSA DR (22) = RSA
- La seguente tabella classifica 68694 passeggeri di automobili e autocarri leggeri coinvolti in incidenti nello stato del Maine classificati a seconda se stavano indossando la cintura e se erano rimasti feriti. Ferito è variabile risposta, cintura è variabile esplicativa. Capire se fatto di indossare cintura ha poi un effetto su gravità incidente, osservare se ci sono feriti. Successo è ferito, inferito è insuccesso, gruppo 1 sono coloro che indossano la cintura e gruppo 2 sono coloro che non la indossano. Ferito Cintura Sì No Totale Sì 2409 [π1cap = 2409/37792 = 0,064] 35383 [0,936] 37792 [1,00] No 3685 [π2cap = 3685/30902 = 0,125] 27037 [0,875] 30902 [1,00] Totale 6274 62420 68694 πpooledcap = 6274/68694 = 0,0091 0,809 (insuccessi)
- Nel 2004 la percentuale delle matricole universitarie che concordava con l’affermazione che le relazioni omosessuali dovessero essere proibite per legge era del 38,0% tra i maschi e del 23,4% tra le femmine. a) L’odds ratio è 2,01. Spiega che cosa è sbagliato nella seguente affermazione: “La probabilità di una risposta Sì per i maschi è 2,01 volte la probabilità di un Sì per le femmine”. Fornisci la corretta interpretazione → odds ratio non è rapporto tra probabilità, lo è il relative risk. Semmai è un rapporto tra odd → rapporto tra successo e insuccesso. Per i maschi la propensione all’affermazione riguardante gli omosessuali è 2 volte maggiore rispetto alle femmine. b) L’odd di un Sì è uguale a 0,613 per i maschi. Stima la probabilità di un Sì per i maschi. Sapendo che odds ratio è 2,01 (odd M/ odd F), odds Sì per i maschi (πM / 1 - πM) è 0,613 → voglio calcolare probabilità al successo per i maschi → πM = 0,613 - 0,1613 πM 1,1613 = 0, πM = 0,613/ 1,613 = 0, c) Sulla base del valore dell’odd di 0,613 per i maschi e dell’odds ratio di 2,01, mostra come stimare la probabilità di un Sì per le donne. Si conosce odds ratio = 2,01 = oddM /oddF. Odd F = 2,01 /0,613 = 0,305. πF = 0,305/ 1,305 = 0,
- La seguente tabella incrocia le variabili felicità e reddito familiare per il sub-campione di individui che si sono dichiarati ebrei. 2 variabili ordinali, conviene calcolare indice che tiene conto dell'ordinamento delle modalità : indice gamma Ha interpretazione semplice perché limitato tra 1 e -1, se è zero indica assenza associazione, se positivo indica concordanza positiva tra due variabili, se negativo indica discordanza tra due variabili sotto osservazione (aumenta una e l’altra si riduce). Devo calcolare coppie concordanti e discordanti. felicità Reddito Non troppo Abbastanza Molto Sotto la media 1 2 1 In media 0 5 2 Sopra la media 2 4 0 a) Trova il numero C di coppie concordanti e il numero D di coppie discordanti C = 1 (5 + 2 + 4 + 0) + 2 (2+0) = 15 coppie concordanti D = 1 (5 + 4 + 2 + 0) + 2 (4 + 2) + 2 (2) + 5 (2) = 37 coppie discordanti indice gamma cap = (C - D) / (C + D) = (15 - 37) / ( 15 + 37) = -22/5 = -0,42. Tra reddito e felicità esiste associazione negativa, tendenzialmente ad aumentare di una variabile si osservano valori che diminuiscono nell’altra → è una relazione medio bassa, b) Calcola l’indice gamma e interpretalo. → Gamma = (C/ C + D) - (D/ C + D) = 0, c) Mostra come esprimere gamma quale differenza tra due proporzioni.
- Per i dati di un’indagine del 2006 risulta gamma = 0,22 con riferimento alla relazione tra soddisfazione sul lavoro (con categorie molto insoddisfatto, poco insoddisfatto, moderatamente soddisfatto, molto soddisfatto) e reddito familiare (sotto la media, in media, sopra la media). a) Come potrebbe essere considerata tale associazione, molto forte o relativamente debole? 0,22 è una debole associazione positiva, tendenzialmente all'aumentare dell’uno aumenta anche l’altro (soddisfazione sul lavoro - reddito familiare) b) L’associazione risultante è più forte o più debole di quella tra soddisfazione sul lavoro e felicità, che ha gamma = 0,40? è più debole di 0,4 (guardo valore assoluto di quanto gamma si avvicini a 1 → per valutare forza associazione)
Analisi dell’associazione tra variabili quantitative Osserviamo due variabili quantitative → possiamo rappresentarle tramite punti su sistema di assi cartesiani Ogni punto corrisponde a una unità statistica osservata, variabili sono x e y. Scatter plot o anche grafico di dispersione → punti si disperdono. Possiamo farci un’idea se esiste associazione tra x e y, anche della natura dell’associazione (in questo caso i punti sembrano associati → aumenta x e aumenta y, vediamo anche che punti tendono a spostarsi secondo legge matematica evidente → andamento di tipo più o meno lineare = se cerco di astrarre punti e di rappresentarli tramite funzione matematica → la retta risultante riuscirebbe a descrivere in maniera soddisfacente la nube di punti, relazione non è mai perfetta) e della sua forza (forza è maggiore se nube di punti tende ad essere meno dispersa, ma punti sono concentrati. Se perfetta relazione ho massima forza → determinato x ho y con certezza, situazione ideale che nella pratica non osserviamo). Rappresento su sistema di assi cartesiane i punti osservati → su grafico. Centroide = punto che ha come coordinate la media di x e media di y (x , y) , consente di dividere in 4 quadranti la nostra nuvola di punti. Li numeriamo seguendo l’andamento orario. x e y sono variabili quantitative → esempio spese per consumi e reddito percepito. Primo quadrante → punto qualsiasi (xi yi) , posso individuare le sue coordinate e calcolare la differenza tra la x e la media della x, così come mi calcolo differenza tra y e media della y. Nel primo quadrante assume un lavoro positivo → x è maggiore di x media, lo stesso con yi e y media. (xi - 义) > 0 (yi - Ӯ) > 0 se faccio prodotto tra questi due segmenti → (xi - 义) (yi - Ӯ)> 0 Nel terzo quadrante → punti che giacciono sotto media di x e sotto media di y. (xi - 义) (yi - Ӯ) > 0 Se faccio differenza tra xi e xmedio e differenza tra yi e y medio → (xi - 义) < 0 (yi - Ӯ) < 0 Sia che punti si trovano nel primo o terzo quadrante, in entrambi i casi il prodotto tra gli scarti rispetto alla media delle x e y è positivo. Nel secondo quadrante → (xi - 义) > 0 (yi - Ӯ) < 0 (sotto media di y) (xi - 义) (yi - Ӯ) < 0 Per tutti i punti il prodotto sarà negativo (che giacciono nel secondo e quarto quadrante). Nel quarto quadrante → (xi - 义) < 0 (yi - Ӯ) > 0 (sopra la media di y) (xi - 义) (yi - Ӯ) < 0 Se li sommo tutti → numero che ottengo è positivo, perchè la maggiorparte dei punti nell’esempio si trovano nel primo e quarto quadrante. Al crescere di x cresce y → Σi [(xi - 义) (yi - Ӯ) ] > 0, sommatoria sarà positiva Se ho nuvola di punti → crescere di x, y tende a ridursi e viceversa, c’è andamento lineare. In questo caso maggioranza dei punti si trovano nel secondo e quarto quadrante → prevalgono i punti per cui questo prodotto è negativo e s li sommo → sommatoria sarà valore negativo. Σi [(xi - 义) (yi - Ӯ) ] < 0 Situazione in cui al variare di x, y varia in maniera casuale → non si intravede legge che lega y a x. è come nube di punti, individuo centroide → tanti punti in ogni quadrante, se sommo i prodotti degli scarti semplici rispetto alla media otterrò che prodotto sarà circa zero → scarti positivi e negativi tendono a compensarsi. Ha senso utilizzare sommatoria dei prodotti degli scarti semplici, come indice di associazione tra le variabili quantitative di x e y. Questa sommatoria si chiama covarianza.
Covarianza = 0 → assenza di correlazione, dipendenza lineare. Situazione in cui al variare di x, y non assume alcun andamento particolare (implica retta parallela all’asse delle ascisse, con beta = 0). Se sinusoide → con forte associazione tra y e x, dipendenza ma non lineare. Se la tratto come lineare → retta parallela ad asse ascisse, divido in quadranti, trovo centroide → sommo punti e covarianza risulterebbe zero. Se x e y sono statisticamente indipendenti → allora x e y sono anche incorrelate, sono linearmente indipendenti. Di conseguenza la covarianza è 0. VIceversa non è scontato → se covarianza è 0 (linearmenti indipendenti), non è detto che x e y siano statisticamente indipendenti. Covarianza paria a 0 può denotare situazione di indipendenza statistica, ma anche dipendenza statistica di un tipo diverso dal lineare. 14 15 16 Esempio → (NB: se la COV = 0, non è detto che X e Y siano indip) 2 0.25 0 0. Questo è un caso di dipendenza perfetta di x da y. 4 0 0.50 0 COV (x,y) = (2-3) (14-15) 0.25 + (2-3) (16-15) 0.25 + (4-3) (15-15) 0.50 = 0.25 + 0.25 + 0 = 0 Supponiamo che x e y siano scalate, quindi prendo valori x e moltiplico per costante a e gli y per costante b (passo da euro a dollari → cambio unità di misura delle variabili quantitative). Se applico covarianza a variabili trasformate, questa è uguale a quella originaria moltiplicata per a e b. Se cambio unità di misura, il valore della covarianza cambia. Problema della covarianza → il suo valore assoluto, non è indicativo di niente. Con covarianza non sono in grado di rispondere a domanda di quanto sia forte associazione tra x e y. Per rispondere → indice che mantiene proprietà della covarianza e mi dà info su forza della relazione lineare. Coefficiente di correlazione → ottenuto con normalizzazione della covarianza. Covarianza divisa per deviazione standard di x e deviazione standard di y → ottenuto indice : coefficiente di correlazione di Pearson. Simbolo utilizzato è Rho (xy) → ഽ = COV (x,y) / 𝞼x 𝞼y→ utilizzato nella popolazione. r = COV (x,y) / Sx Sy→ utilizzato nel campione. r è stimatore puntuale di Rho. Coefficiente di correlazione è limitato inferiormente e superiormente → varia tra -1 e 1. Segno dipende dal numeratore/covarianza se è positiva, il Rho è positivo, se covarianza è negativa il Rho è negativo, se covarianza è zero il Rho è zero (di tipo deterministico).
- 1 ≤ Rho ≥ 1 → rho è +1 solo se tutti i punti osservati giacciono sulla retta, solo se c’è condizione di dipendenza lineare positiva perfetta. yi = alfa + beta xi (difficilmente si raggiunge, c’è variabilità intrinseca). rho = - 1 → relazione lineare negativa perfetta (retta inclinata negativamente, tutti punti sulla retta). Quanto più valore calcolato è vicino a 1 o -1, quanto più nube di punti è concentrata intorno a retta. Coefficiente di correlazione non dipende da unità di misura.
Quindi:
- valori di r prossimi a 1 indicano punti molto vicini alla retta interpolante inclinata positivamente;
- valori di r prossimi a -1 indicano punti molto vicini alla retta interpolante inclinata negativamente. Per questo motivo r è un indice di interdipendenza LINEARE. Interdipendenza… perché se la relazione di dipendenza fosse perfettamente LINEARE, la Y dipenderebbe perfettamente dalla X e viceversa la X perfettamente dalla Y, analogamente al caso esaminato delle tavole di contingenza quadrate del tipo: y1 y2 y x1 0 0 x2 0 0 x3 0 0