Prepara gli esami con i nostri Tutor Online prova gratis

Test chi quadro, Dispense di Statistica. Università di Siena

Statistica

Descrizione: Spiegazione del concetto di chi quadro, con dimostrazioni del calcolo del test chi quadro.
Mostro le pagine  1  -  4  di  13
Il test di chi-quadro
Germano Rossi
18 novembre 2004
vers. 0.6
Indice
Indice 1
1 Il test di chi-quadro [0.6] 2
1.1 Introduzione....................................... 2
1.2 Terminologia ...................................... 4
1.3 La formula di chi-quadro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Ivaloriteorici...................................... 6
1.5 La distribuzione chi-quadro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 I gradi di libert`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Linferenza ....................................... 9
1.8 Correzione di Yates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9 Verifica di un modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.10Riepilogo ........................................ 12
1.11Fonti........................................... 13
Riferimenti bibliografici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Questa dispensa `e un capitolo di un lavoro pi`u vasto intitolato Elementi di ragionamento statistico: per
psicologia e scienze dell’educazione da cui `e tratto.
Universit`a degli Studi di Milano-Bicocca, Dipartimento di Psicologia (germano.rossi@unimib.it)
1
2CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6]
1 Il test di chi-quadro [0.6]
1.1 Introduzione
Il test di chi-quadro (χ2) `e una tecnica di inferenza statistica che si basa sulla statistica di chi-
quadro e sulla relativa distribuzione di probabilit`a1. Si pu`o usare con variabili a livello di scala
nominale e/o ordinale, generalmente disposte in forma di tabelle di contingenza.
Lo scopo principale di questa statistica `e di verificare le differenze tra valori osservati e valori
teorici (generalmente chiamati “attesi”) e di effettuare un’inferenza sul grado di scostamento
fra i due. Praticamente la tecnica viene usata con 3 diversi obiettivi, tutti basati sullo stesso
principio fondamentale:
a) la casualit`a della distribuzione di una variabile categoriale;
b) l’indipendenza di due variabili qualitative (nominali o ordinali);
c) le differenze con un modello teorico.
Per lo scopo del punto b), l’indice statistico di chi-quadro pu`o essere considerato come una
statistica di associazione.
1.1.1 Casualit`a della distribuzione di una variabile
Per ora, ci limiteremo a considerare il primo aspetto (ovvero il punto a), utilizzando una ipotesi
di lavoro della psichiatria, di qualche anno fa.
Per diversi anni, gli psichiatri hanno avanzato l’ipotesi che i pazienti affetti da schizofrenia
nascano prevalentemente nei periodi invernali (Bradbury & Miller, 1985). Vogliamo vedere se
anche i dati in nostro possesso ci portano a conclusioni analoghe. A questo scopo, usando le
cartelle cliniche (del tutto inventate), raccogliamo le informazioni relative alla data di nascita
di un certo numero di pazienti schizofrenici e li suddividiamo in categorie corrispondenti alle 4
stagioni dell’anno:
Tabella 1: Numero di schizofrenici nati nelle singole stagioni (Dati fittizi)
Primavera Estate Autunno Inverno Totale
Soggetti schizofrenici 125 130 153 153 636
Se formulassimo un’ipotesi di assoluta uniformit`a, cio`e che la stagione di nascita non ha nulla
a che fare con il fatto di manifestare successivamente un patologia schizofrenica, dovremmo
aspettarci che ogni cella contenga pi`u o meno la stessa percentuale di nati (poice ci sono 4
celle, il 25% circa, cio`e 159). In pratica quello che faremmo `e utilizzare un’ipotesi nulla di
equiprobabilit`a:
H0:P(P) = P(E) = P(A) = P(I) = 0.25
contro un’ipotesi alternativa non equiprobabile
H1:P(P)6=P(E)6=P(A)6=P(I)6= 0.25
e di usare l’ipotesi nulla per generare le frequenze teoriche.
1Il termine “chi-quadro” si usa per indicare contemporaneamente la distribuzione di probabilit`a, una parti-
colare tecnica di inferenza statistica e un indice statistico. Alcuni autori usano il simbolo χ2(chi greca minuscola)
per indicare la distribuzione di probabilit`a e X2(chi greca maiuscola) per indicare la statistica. In questa sede,
per`o, non faremo questa distinzione.
1.1. INTRODUZIONE 3
E’ ben difficile per`o ottenere in ogni cella esattamente il valore atteso e si otterranno invece
valori leggermente diversi che oscilleranno attorno a quello considerato uniforme. Valori molto
vicini a quelli teorici avranno buone probabilit`a di essere delle “variazioni casuali”, mentre
valori molto diversi e lontani da quelli teorici avranno poche probabilit`a di essere considerati
“fluttuazioni casuali”. Serve quindi un criterio per decidere fino a che punto dobbiamo accettare
come casuali le varie oscillazioni.
Il procedimento di calcolo che adotteremo `e abbastanza simile a quello che abbiamo usato
per la varianza e pu`o essere riassunto concretamente cos`ı:
1. Calcoliamo il valore medio teorico (t) che dovremmo aspettarci
all’interno di ogni cella se i 4 eventi fossero equiprobabili. . .
636 / 4 = 159
2. Calcoliamo lo scarto della frequenza osservata (f) di ogni cella
rispetto a quella teorica (t)
125 - 159 = -34
3. Eleviamo a quadrato questa differenza per diminuire i valori piccoli
ed aumentare quelli grandi. . .
3422 = 1156
4. Dividiamo infine per la frequenza teorica, in modo da standardizzare
le distanze. . .
1156/159 = 7.27
5. Ripetiamo il procedimento per tutte le celle. . . 130 5.29
153 0.23
228 29.94
6. Sommiamo i vari risultati parziali. . . 42.73
Ci sono in questo procedimento due passaggi (terzo e quarto) che potrebbero essere complessi
da capire: il quadrato della differenza rispetto al valore teorico e la sua divisione per il valore
teorico. Elevare a quadrato una differenza (tecnica che abbiamo gi`a applicato per il calcolo della
varianza), ci permette di ottenere due effetti:
eliminare il segno negativo;
amplificare le differenze proporzionalmente alla loro grandezza (il quadrato di 2 `e 4, il
quadrato di 5 `e 25 e quello di 10 `e 100).
In questo modo, il numero che otteniamo `e tanto pi`u grande quanto maggiore `e la differenza
di partenza. Dividendo poi questo valore per la frequenza teorica, otteniamo una misurazione
che, pi`u o meno, equivale a dire: “quante frequenze teoriche stanno in questo scarto quadratico”.
Si utilizza quindi ciascuna frequenza teorica come unit`a di misura per esprimere lo scarto.
In pratica abbiamo costruito un numero che rappresenta la somma ponderata degli scarti
delle frequenze di ciascuna cella rispetto alla sua attesa teorica (e che `e la statistica di χ2).
E’ semplice allora capire come, maggiore `e il valore trovato (il χ2) e maggiore `e lo scostamento
delle frequenze osservate rispetto a quelle teoriche che ci dovremmo aspettare. Vale a dire, pi`u
i dati osservati e quelli teorici sono diversi fra loro (si allontanano), maggiori saranno le loro
differenze e pi`u grande diventer`a il valore della statistica di χ2. Pi`u simili i dati teorici a quelli
osservati e pi`u piccolo sar`a il valore dell’indice statistico finale.
Nel caso che stiamo considerando, maggiore sar`a il valore finale e maggiore la probabilit`a
che la distribuzione non sia casuale ma in qualche modo influenzata da qualcosa.
E’ altrettanto facile capire come il valore trovato dipenda (per la sua grandezza) anche dal
numero di celle e dal numero di frequenze totali: quante pi`u celle possiede la tabella, tanto
maggiore sar`a la probabilit`a che una di esse si comporti in modo anomalo; quanto pi`u alto il
totale, quanto pi`u `e probabile trovare valori elevati della statistica di chi-quadro.
4CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6]
A1A2A3
B160 53 12
B253 23 16
B355 48 20
Tabella 2: Tavola di contingenza fra due ipotetiche variabili categoriali
1.1.2 Indipendenza di due variabili categoriali
Un lavoro analogo possiamo farlo su tabelle di contingenza (ossia tabelle a due entrate) che
incrociano le frequenze con cui accadono assieme determinate categorie di due variabili. Ad es.
una tabella di contingenza che incrocia i valori delle ipotetiche variabili A e B potrebbe essere
come quella che compare in Tab. 2.
Anche in questo caso abbiamo dei valori osservati (quelli della tabella) e possiamo calcolare
dei valori teorici (basandoci proprio sul concetto di indipendenza probabilistica).
H0:P(AB) = P(A)×P(B)
H1:P(AB)6=P(A)×P(B)
A questo punto il calcolo della statistica di χ2ci dir`a quanto si discostano i dati osservati
da quelli che abbiamo stimato sotto l’ipotesi di indipendenza. Se il valore sar`a basso, realt`a e
teoria si avvicineranno molto; se il valore sar`a alto, si discosteranno.
E se la realt`a si avvicina molto alla teoria (χ2basso), poich´e l’ipotesi teorica `e che le due
variabili siano indipendenti fra loro, concluderemo che le due variabili non si influenzano reci-
procamente. Mentre se il χ2`e alto, non potremo dire che le variabili sono fra loro indipendenti,
ma dovremo affermare che, in qualche modo, si influenzano reciprocamente.
1.1.3 Differenze con un modello teorico
Infine, a partire da una qualunque configurazione di valori osservati, e una qualunque ipotesi
teorica, possiamo applicare la statistica del χ2per vedere se l’ipotesi teorica serve per spiegare
i dati reali. In questo caso `e l’ipotesi alternativa che ipotizza l’equiprobabilit`a, mentre l’ipotesi
nulla fa riferimento ad un modello esplicativo che genera la distribuzione dei dati.
Dal momento che i valori teorici verrebbero stimati sulla base di una teoria, di un modello,
di un’ipotesi e la statistica di χ2sarebbe tanto pi`u piccola quanto pi`u teoria e realt`a sono vicine
fra loro. Ovvero, se la teoria spiega sufficientemente bene la realt`a, il chi-quadro avr`a un valore
piccolo, se non la spiega abbastanza, avr`a un valore elevato.
1.2 Terminologia
Prima di proseguire, poniamo alcune basi terminologiche.
Solitamente `e possibile indicare i valori reali di una distribuzione, usando una lettera (gene-
ralmente x,yez) per indicare la variabile e una lettera per indicare un indice (generalmente
i,jek). Usando questo tipo di notazione, possiamo riscrivere la Tab.2 in modo generico, in
questo modo:
A1A2A3
B1f11 f12 f13
B2f21 f22 f23
B3f31 f32 f33
La preview di questo documento finisce qui| Per favore o per leggere il documento completo o scaricarlo.
Informazioni sul documento
Caricato da: bubbolo
Visite: 3861
Downloads : 13
Indirizzo:
Universita: Università di Siena
Materia: Statistica
Data di caricamento: 01/06/2012
Incorpora questo documento nel tuo sito web:
Docsity non è ottimizzato per il browser che stai usando. Per una miglior fruizione usa Internet Explorer 9+, Chrome, Firefox o Safari! Scarica Google Chrome