Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Verifica statistica ipotesi su parametri di distribuzioni: ipotesi nulla e livello, Dispense di Statistica

Come verificare ipotesi nulla su parametri di distribuzioni statistiche come media o parametro di una variabile casuale, utilizzando il teorema limite centrale e la statistica t di student. Due casi: uno per la verifica di ipotesi su una media e uno per la verifica di ipotesi su un parametro λ di una distribuzione zero-uno. Il documento include esempi di calcolo e descrizione di come calcolare i valori critici e il p-valore associato alla statistica test.

Tipologia: Dispense

2018/2019

Caricato il 05/09/2019

francesco-bianchi-1
francesco-bianchi-1 🇮🇹

4

(1)

5 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
251
14. TEORIA DEI TEST STATISTICI
14.1 Introduzione
I dati campionari possono essere utilizzati, oltre che per costruire l’intervallo di confidenza di un parametro
ignoto
, anche per verificare se una certa congettura su una caratteristica della popolazione può essere
ritenuta verosimile o meno, alla luce dei risultati ottenuti sul campione casuale estratto dalla popolazione.
Con il termine ipotesi statistica si indica una supposizione su una qualche caratteristica ignota di una
popolazione. Per esempio, si può voler verificare se un macchinario produce una proporzione adeguata di
pezzi che rispettano caratteristiche prestabilite, se un dado o una moneta sono equilibrati, se un farmaco è
efficace nella cura di una determinata malattia, se esiste o meno una qualche dipendenza fra due variabili o
se la distribuzione di una certa variabile può essere approssimata da un determinato modello teorico.
Le ipotesi sono sottoposte a verifica sulla base del campione estratto e la procedura utilizzata per la verifica
di queste ipotesi costituisce il cosiddetto test statistico.
Per esempio, per verificare se una moneta è equilibrata si potrebbe lanciare più volte la moneta e registrare il
numero di teste e di croci. Si riterrà plausibile l’ipotesi che la moneta sia equilibrata se il numero di teste e di
croci ottenute in un numero sufficientemente elevato di lanci non risultano molto diversi fra loro, ma non si
può stabilire con certezza se un'ipotesi è vera o falsa, dato che uno stesso risultato può derivare da monete
diverse.
Se si lanciasse una moneta equilibrata 100 volte, il numero di teste ottenute potrebbe comunque variare da un
risultato minimo pari a 0 fino ad un massimo pari a 100, anche se ovviamente alcuni risultati sono più
probabili di altri. I risultati più probabili, se la moneta è effettivamente equilibrata, sono i fatti quelli in cui il
numero di teste e di croci non sono troppo diversi fra di loro, ma è possibile ottenere un numero di teste pari
a 0 o pari a 100, anche se la probabilità sarebbe piccolissima e, in entrambi i casi, pari a (0.5)100.
Un qualsiasi criterio di decisione circa l’accettazione o il rifiuto di un’ipotesi comporterà quindi il rischio di
commettere due diversi tipi di errore che consistono:
- nel rifiutare l’ipotesi quando è vera
- nell’accettarla quando è falsa.
Nel caso della moneta, il risultato campionario potrebbe segnalare che la moneta è equilibrata anche se non
lo è realmente, oppure potrebbe indicare che la faccia “testa” ha una probabilità molto maggiore di “croce”
anche se la moneta fosse equilibrata o, addirittura, se la faccia “croce” avesse in realtà una probabilità
maggiore della faccia “testa”.
Per semplicità nelle pagine successiva si prenderà in considerazione solo il primo tipo di errore, ossia la
probabilità di rifiutare un'ipotesi quando è vera, per cui il metodo che verrà analizzato in seguito viene più
correttamente chiamato test di significatività.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Verifica statistica ipotesi su parametri di distribuzioni: ipotesi nulla e livello e più Dispense in PDF di Statistica solo su Docsity!

14. TEORIA DEI TEST STATISTICI

14.1 Introduzione

I dati campionari possono essere utilizzati, oltre che per costruire l’intervallo di confidenza di un parametro

ignoto , anche per verificare se una certa congettura su una caratteristica della popolazione può essere

ritenuta verosimile o meno, alla luce dei risultati ottenuti sul campione casuale estratto dalla popolazione.

Con il termine ipotesi statistica si indica una supposizione su una qualche caratteristica ignota di una

popolazione. Per esempio, si può voler verificare se un macchinario produce una proporzione adeguata di

pezzi che rispettano caratteristiche prestabilite, se un dado o una moneta sono equilibrati, se un farmaco è

efficace nella cura di una determinata malattia, se esiste o meno una qualche dipendenza fra due variabili o

se la distribuzione di una certa variabile può essere approssimata da un determinato modello teorico.

Le ipotesi sono sottoposte a verifica sulla base del campione estratto e la procedura utilizzata per la verifica

di queste ipotesi costituisce il cosiddetto test statistico.

Per esempio, per verificare se una moneta è equilibrata si potrebbe lanciare più volte la moneta e registrare il

numero di teste e di croci. Si riterrà plausibile l’ipotesi che la moneta sia equilibrata se il numero di teste e di

croci ottenute in un numero sufficientemente elevato di lanci non risultano molto diversi fra loro, ma non si

può stabilire con certezza se un'ipotesi è vera o falsa, dato che uno stesso risultato può derivare da monete

diverse.

Se si lanciasse una moneta equilibrata 100 volte, il numero di teste ottenute potrebbe comunque variare da un

risultato minimo pari a 0 fino ad un massimo pari a 100, anche se ovviamente alcuni risultati sono più

probabili di altri. I risultati più probabili, se la moneta è effettivamente equilibrata, sono i fatti quelli in cui il

numero di teste e di croci non sono troppo diversi fra di loro, ma è possibile ottenere un numero di teste pari

a 0 o pari a 100, anche se la probabilità sarebbe piccolissima e, in entrambi i casi, pari a (0.5) 100 .

Un qualsiasi criterio di decisione circa l’accettazione o il rifiuto di un’ipotesi comporterà quindi il rischio di

commettere due diversi tipi di errore che consistono:

  • nel rifiutare l’ipotesi quando è vera
  • nell’accettarla quando è falsa.

Nel caso della moneta, il risultato campionario potrebbe segnalare che la moneta è equilibrata anche se non

lo è realmente, oppure potrebbe indicare che la faccia “testa” ha una probabilità molto maggiore di “croce”

anche se la moneta fosse equilibrata o, addirittura, se la faccia “croce” avesse in realtà una probabilità

maggiore della faccia “testa”.

Per semplicità nelle pagine successiva si prenderà in considerazione solo il primo tipo di errore, ossia la

probabilità di rifiutare un'ipotesi quando è vera, per cui il metodo che verrà analizzato in seguito viene più

correttamente chiamato test di significatività.

L’ipotesi che si vuole verificare è detta ipotesi nulla ed è indicata con la notazione

H 0 :

seguita dal suo enunciato formale, dove H è l’iniziale del termine inglese Hypothesis.

Nel caso della moneta, se  è la probabilità associata, per esempio, alla faccia testa, l’ipotesi che la moneta

sia bilanciata corrisponde a

H 0 :  =0.

In generale l’ipotesi che un parametro  assume uno specifico valore  0 viene indicata mediante la seguente

notazione

H 0 :  =  0. 14.1.

Un’ipotesi H 0 su  è considerata tanto più verosimile quanto più la stima campionaria risulta probabile sotto

H 0 , per cui la regola di decisione consiste nell’accettare H 0 se la stima campionaria rientra nell’insieme dei

risultati più probabili sotto H 0 e nel rifiutarla in caso contrario.

Nell’esempio relativo alla moneta si sarà portati a ritenere che la moneta sia equilibrata se, lanciandola un

adeguato numero di volte, si ottiene un numero di teste pressoché uguale al numero di croci, ossia se la

frequenza relativa delle teste si avvicina a 0.5 mentre, al crescere della differenza fra il risultato campionario

ottenuto e 0.5, si sarà sempre più portati a ritenere che la moneta sia sbilanciata.

In generale, un’ipotesi sul valore del parametro  può essere considerata tanto più verosimile quanto più il

valore t 0 assunto dallo stimatore T di  sul campione estratto risulta probabile se si assume come vera

l’ipotesi H 0.

In altri termini, la regola di decisione su cui si basano i test di significatività consiste nell’accettare l’ipotesi

H 0 se il valore t 0 della stima campionaria di  rientra nell’insieme dei risultati più probabili sotto H 0 e nel

rifiutarla in caso contrario.

In generale, per verificare un’ipotesi 14. 1 .1, si sceglie uno stimatore T di  e si fa riferimento alla sua

distribuzione di probabilità determinata come se  0 fosse il vero valore di . Questa è la cosiddetta

distribuzione dello stimatore sotto ipotesi nulla.

L’insieme dei possibili risultati campionari viene quindi suddiviso nella regione di accettazione di H 0 (che

comprende i risultati più probabili sotto H 0 ) e in una regione di rifiuto o regione critica (che comprende i

risultati che sono invece poco probabili sotto la stessa ipotesi).

compresa nell’intervallo di accettazione dell’ipotesi nulla, questo non implica che H 0 sia effettivamente vera.

Se, per esempio, si fosse ottenuto un numero di teste pari a 501 su 1000 lanci non si rifiuterebbe l’ipotesi che

la moneta sia equilibrata, ma non si rifiuterebbe neppure l’ipotesi che il parametro ignoto  sia uguale a

0.501 oppure a 0.502.

Per questo motivo, quando la stima campionaria è compresa nell’intervallo di accettazione dell’ipotesi nulla,

si conclude l’analisi affermando che “non si ha motivo di rifiutare H 0 al livello  prefissato”. Ogni stima t di

T rientra infatti anche nell’insieme dei risultati più probabili sotto altre ipotesi, diverse da H 0 , ed è quindi

compreso nell’intervallo di accettazione associato a tutte queste ipotesi.

14.2 Verifica di ipotesi su 

Quando l’ipotesi nulla riguarda il parametro  di una variabile Z l’ipotesi 14.1.1 assume la forma seguente

H 0 :  0 14.2.

e la sua verifica viene effettuata in modo diverso a seconda del grado di conoscenza sulla distribuzione della

variabile Z nella popolazione

- Primo caso

Se è noto che la variabile Z ha una distribuzione normale di varianza nota

Z  , noto

2

~Nμ σ

assumendo come vera l’ipotesi nulla 14.2.1, la distribuzione della media campionaria risulta

n

X ~N μ

2

0 ,^.

L’intervallo di accettazione di H 0 sarà quindi centrato su  0 e, una volta scelto il livello di significatività ,

risulterà delimitato dai due quantili che isolano rispettivamente a sinistra e a destra della distribuzione

un’area pari ad /2.

Considerata infatti la distribuzione dello stimatore “media campionaria” sotto l’ipotesi nulla 14.2.1, ossia

assumendo vera l’ipotesi  0 , e scelto il livello di probabilità , gli estremi dell’intervallo di accettazione

corrispondono ai due quantili che in questa distribuzione isolano il primo sulla sua sinistra ed il secondo sulla

sua destra una probabilità pari ad /2. Questi due valori critici delimitano al loro interno la regione di

accettazione dell’ipotesi nulla, data dall’insieme dei risultati campionari più probabili sotto l’ipotesi H 0 : se la

media campionaria cade nella regione di accettazione si conclude l’analisi affermando che non si ha motivo

di rifiutare H 0 o che l’ipotesi è compatibile con il risultato campionario.

Gli intervalli a sinistra del valore critico inferiore e a destra del valore critico superiore costituiscono invece

la regione di rifiuto dell'ipotesi. Pertanto, se la media campionaria cade nella regione critica, il valore della

statistica è significativo e l’ipotesi va rifiutata al livello di significatività 

La verifica dell'ipotesi nulla può essere effettuata in modo più semplice, facendo riferimento alla normale

standardizzata. Si considera quindi la statistica test

σ n

X  μ 0

~N  0 , 1  14.2.

e la regione di accettazione dell’ipotesi è in questo caso costituita dai valori compresi fra i quantili di ordine

/2 e 1  /2 della N (0, 1), perché sono questi i valori della statistica 14.2.2 che risultano più probabili sotto

ipotesi nulla.

Data la simmetria della distribuzione rispetto allo zero è però sufficiente confrontare il risultato della

statistica test

σ n

X  μ 0

con il quantile z 1  /2 della normale standardizzata.

Se risulta

σ n

X  μ 0

z 1 - /

il valore della statistica è significativo e l'ipotesi nulla viene rifiutata al livello di significatività ; in caso

contrario l'ipotesi è compatibile con i risultati campionari e non vi sono motivi per rifiutarla.

Un test di significatività può essere effettuato in modo più accurato mediante il calcolo del p - valore (in

inglese p - value) associato al valore assunto dalla statistica test 14.2.3. Questo p - valore rappresenta la

probabilità che la statistica test assuma un valore più estremo di quello osservato, sempre assumendo

l’ipotesi che H 0 sia vera, per cui quanto più il p - valore è piccolo, tanto meno verosimile appare l’ipotesi

nulla.

S n

X μ

c

con il quantile tn  1  1  α/ 2 .

Se risulta

1 ^1 2 

0

t α/

S n

X μ

n c

l’ipotesi nulla viene rifiutata al livello , mentre in caso contrario risulta compatibile con il risultato

campionario.

Esempio 14.2.

Su un campione casuale di 8 elementi estratto da una popolazione normale sono state rilevate i seguenti valori della

variabile oggetto di studio

1.1 3.1 4.2 4.6 5.0 5.2 5.3 6.

Verificare le ipotesi che la media della popolazione sia pari a 5 al livello di significatività =0.01.

Dai dati campionari risulta

2 2 2 2 E X. EX. SSc   S.

Per la verifica dell’ipotesi

H 0 : = 5

si utilizza la statistica 14.2. 5 che nel caso in esame assume il valore

t

per cui non si ha motivo di rifiutare l’ipotesi nulla al livello di significatività prefissato.

- Terzo Caso

Se la Z si distribuisce in modo normale con varianza ignota e il campione è grande, con una numerosità

superiore a 30 elementi, la verifica di ipotesi 14.2.1 si basa sempre sulla statistica test 14.2.4 la cui

distribuzione però, per il teorema limite centrale, tende a una distribuzione normale.

Pertanto il procedimento approssimato consiste nel calcolare la statistica test 14.2.5 e di confrontare il

risultato ottenuto con il quantile della distribuzione N (0,1) che isola alla sua destra un’area pari ad /2.

Pertanto, se risulta

1 / 2

0

z

S n

X μ

c

l’ipotesi nulla viene rifiutata al livello , mentre in caso contrario è da ritenersi compatibile con il risultato

campionario.

Esempio 14.2.

Su un campione casuale di 65 uova è stato rilevato lo "spessore del guscio” (in millimetri) ottenendo (^) x  0_._ 32 e

Sc  0_._ (^08). In base a queste informazioni si vuole verificare l'ipotesi che lo spessore medio del guscio sia pari a 0. 3

millimetri al livello di significatività  = 0.05.

La verifica dell’ipotesi

H 0 : 0. 3

va effettuata controllando se è verificata la disuguaglianza 14.2.6. Dato che si ottiene

. z 0 975_. ,_

,

l'ipotesi viene rifiutata al livello di significatività  = 0.05.

Esempio 14.2.

Sulla base dei dati dell’esempio precedente si verifichi l’ipotesi

H 0 : 0. 3

mediante il calcolo del p - valore.

Il p - valore risulta uguale a

2  1  2. 02  2   1  0. 9783  0. 0434

per cui l’ipotesi nulla deve essere rifiutata per un livello  = 0.05, ma sarebbe compatibile con il risultato campionario

ottenuto se si decidesse di lavorare ad un livello  = 0.0 1.

- Quarto caso

Se non si ha nessuna informazione circa la distribuzione della variabile Z nella popolazione ma il campione è

grande, con una numerosità superiore a 50 elementi (anche se spesso viene considerata sufficiente una

numerosità campionaria superiore a 30), la verifica di ipotesi 14.2.1 si basa sempre sulla statistica test 14.2. 5

e il valore ottenuto va confrontato con il quantile di ordine 1 /2 della normale standard.

Pertanto il procedimento risulta il medesimo descritto nel caso precedente e l’ipotesi nulla viene rifiutata se è

verificata la disuguaglianza 14.2.6.

14.3 Verifica di ipotesi su 

Data una popolazione in cui la variabile Z ha una distribuzione Zero-Uno caratterizzata dal parametro , la

verifica di ipotesi sul valore del parametro assume la forma

H 0 :  =  0 14.3.

Se il campione è sufficientemente numeroso, lo stimatore proporzione campionaria P ˆ ha una distribuzione

asintoticamente normale, in base al teorema limite centrale.

Assumendo come vera l’ipotesi nulla, la distribuzione di P ˆ ha valore atteso 

0 e varianza

 

n

π (^) 0 1  π 0 , per

cui la statistica

campionaria per verificare se la differenza fra le stime ottenute è così piccola da poter essere imputata solo

all’effetto di fattori casuali o se invece è elevata, tanto da portare al rifiuto dell’ipotesi nulla di uguaglianza

dei valori dei parametri che caratterizzano le due popolazioni. I campioni considerati sono ovviamente

indipendenti fra di loro, in quanto estratti da popolazioni diverse.

In questo paragrafo è considerata la verifica dell’ipotesi

H 0 :  1 =  2 14.4.

ossia la verifica dell’ipotesi di uguaglianza dei valori attesi di Z nella prima e nella seconda popolazione,

così come accade quando si vuole confrontare l’effetto di due diversi fertilizzanti sul rendimento per ettaro di

una coltura o l’effetto di due medicinali nella cura di una malattia: se le differenze fra le due medie

campionarie sono così grandi da non poter essere imputate ai soli fattori casuali, si è portati a concludere che

un fertilizzante è migliore rispetto all’altro o che il tempo di guarigione con un medicinale è sensibilmente

minore rispetto all’altro.

Altri esempi comuni del confronto fra i valori medi di una variabile esaminata in due popolazioni distinte si

hanno quando si esamina il rendimento di due diversi titoli, i risultati ottenuti all’esame da studenti che

hanno utilizzato due testi differenti, la durata di funzionamento di prodotti ottenuti con due macchinari

diversi.

La verifica di una ipotesi 14.4.1 viene effettuata in modi diversi a seconda del grado di conoscenza sulla

distribuzione della Z nelle due popolazioni e a seconda della numerosità n 1 e n 2 dei campioni casuali estratti.

Indicata con X 1 la v.c. “valore di Z sull’unità estratta dalla prima popolazione” e con X 2 la v.c. “valore di Z

sull’unità estratta dalla seconda popolazione”, la verifica dell’ipotesi 14.4.1 viene effettuata sulla base del

valore assunto dalla differenza delle due medie campionarie (^) X 1 e (^) X 2. Tanto più questa differenza è piccola

in valore assoluto, tanto più l’ipotesi nulla sembra verosimile sulla base dei dati campionari, mentre H 0

diventa via via più improbabile al crescere dei valori assunti da tale differenza.

Se la numerosità dei due campioni è sufficientemente elevata da poter utilizzare il teorema limite centrale, la

distribuzione di probabilità delle due medie campionarie può essere approssimata da

1

2 1

1 1 ,^

n

X ~N μ

2

2 2

2 2 ,^

n

X ~N μ

dove

2

σ 1 e

2

σ 2 sono le varianze della Z nelle due popolazioni.

Dato che i due campioni provengono da due differenti popolazioni, le v.c. X 1 e X 2 risultano indipendenti

fra loro, per cui la distribuzione approssimata della differenza delle due medie campionarie risulta

2

2 2

1

2 1

1 2 1 2 ,^

n

n

X X ~N μ μ

ed effettuando la standardizzazione, si ha quindi

   0 , 1 

2

2 2

1

2 1

1 2 1 2

~N

n

n

X X μ μ

Di solito le varianze delle popolazioni non sono note, ma possono essere stimate in modo corretto e coerente

mediante le varianze campionarie corrette per cui, al posto della 14.4.2, si utilizza la seguente statistica

   0 , 1 

2

2 2

1

2 1

1 2 1 2

~N

n

S

n

S

X X μ μ

c c

che, sotto l’ipotesi nulla 14.4.1 assume la forma

 0 , 1 

2

2 2

1

2 1

1 2

~N

n

S

n

S

X X

c c

Per effettuare la verifica dell’ipotesi 14.4.1 al livello di significatività  si può quindi confrontare il valore

assoluto della statistica 14.4.3 con il quantile z 1  /2 della normale standardizzata.

Se risulta

2

2 2

1

2 1

1 2

n

S

n

S

X X

c c

z 1 - /2 14.4.

il valore della statistica è significativo e l'ipotesi nulla viene rifiutata al livello di significatività , mentre in

caso contrario l'ipotesi è compatibile con il risultato campionario e non vi sono motivi per rifiutarla.

2

2 2

1

1 1 1 2 1 2

n n

P P~N

     

ed effettuando la standardizzazione, risulta quindi

2

2 2

1

1 1

1 2 1 2

~N

n n

P P

   

 

Sotto l’ipotesi 14.5.1 la 14.5.2 assume la forma seguente

1 2

0 0

1 2

2

0

1

0 0

1 2

~N

n n

P P

n n

P P

  

   

in cui compare il parametro ignoto  0 che deve essere stimato in qualche modo. Dato che si dispone di due

diverse stime p ˆ 1 e p ˆ 2 di  0 si utilizza la media aritmetica delle due proporzioni campionarie ponderata con

le numerosità n 1 e n 2 , per cui lo stimatore di  0 assume la forma seguente

1 2

1 1 2 2 0 0

n n

nP nP

P

  .

Questo stimatore corrisponde a quello che si ottiene considerando un unico campione costituito dagli n 1

elementi appartenenti al primo campione e dagli n 2 elementi appartenenti al secondo campione.

La statistica test per la verifica dell’ipotesi 14.5.1 corrisponde quindi a

1 2

0 0

1 2

~N

n n

P P

P P

per cui, scelto il livello di significatività , si confrontar il valore assoluto della statistica test precedente con

il quantile z 1  /2 della normale standardizzata.

Se risulta

1 2

0 0

1 2

n n

P P

P P

z 1 - /2 14.5.

il valore della statistica è significativo e l'ipotesi nulla viene rifiutata al livello di significatività , mentre in

caso contrario l'ipotesi è compatibile con il risultato campionario e non vi sono motivi per rifiutarla.

Esempio 14.5.

Anni fa venne condotto uno studio per analizzare gli effetti positivi dell’uso di aspirina sulla prevenzione degli attacchi

cardiaci. Su un insieme di 22071 individui vennero formati due gruppi: il gruppo di trattamento e quello di controllo.

Gli individui del gruppo di trattamento ricevettero una dose quotidiana di aspirina mentre quelli di controllo un farmaco

placebo. Lo studio venne condotto per un periodo di 5 anni osservando il numero di decessi per infarto. Si ottennero i

seguenti risultati

Farmaco\Esito Infartuati Non infartuati Placebo 239 10795 11034 Aspirina 139 10898 11037 378 21693 22071

La proporzione dei colpiti da infarto nel gruppo di controllo è 0. 0217 11034

ˆ p 1   , mentre la stessa proporzione nel

gruppo sottoposto a trattamento è 0. 0126 11037

p ˆ 2  . Pertanto risulta 0. 0171 22071

p

E la statistica test 14.5.4 è pari a

.

Dato che il p-valore associato a tale risultato è praticamente nullo, l’ipotesi di uguaglianza fra le due proporzioni va

rifiutata per qualunque livello di significatività.

14.6 Test di indipendenza

Nella prima parte di queste dispense si è studiato l’indice chi-quadrato per misurare il grado di dipendenza

assoluta fra due variabili rilevate contemporaneamente su n unità statistiche. Questa statistica viene

interpretata in chiave inferenziale quando n corrisponde al numero di elementi di un campione casuale. In

questo caso il risultato ottenuto con la 6.3.1 o con la 6.3.2 viene utilizzato per verificare se è verosimile

l’ipotesi che le variabili sono indipendenti nella popolazione da cui il campione è stato estratto.

Indicato rispettivamente con k e l il numero di determinazioni assunte dalle due variabili Z e W, le njl che

compaiono nella 6.3.1 o le fjl che compaiono nella 6.3.2 rappresentano le frequenze congiunte campionarie

relative alle variabili casuali X “valore di Z sull’individuo estratto” e di Y “valore di W sull’individuo

estratto” mentre le

Esempio 14.6.

Si verifichi l’ipotesi di indipendenza fra due variabili Z e W al livello di significatività =0.01 sapendo che su un

campione di 10 0 elementi si sono ottenuti i seguenti risultati relativi alle variabili casuali X “valore di Z sull’individuo

estratto” e di Y “valore di W sull’individuo estratto”

X\Y A B a 0. 02 0. 18 0. 20

b 0. 25 0. 25 0. 50 c 0. 25 0. 05 0. 30

  1. 52 0. 48 1. 00

Le frequenze relative teoriche calcolate sotto ipotesi di indipendenza assumono i valori riportati nella tabella successiva

X \ Y A B

a 0. 104 0. 096 0. b 0. 260 0. 240 0.

c 0. 156 0. 144 0.

0.52 0.48 1.

per cui ogni ' jl

' n (^) jl  100  f è superiore a 5.

Utilizzando la formula di calcolo semplificata 6.3. 4 la statistica test risulta pari a

2 2 2 2 3 121

 

e l’ipotesi di indipendenza va quindi rifiutata perché la statistica risulta maggiore del quantile 9. 210 che nella chi-

quadrato con 2 gradi di libertà isola alla sua destra un’area pari a 0.01.

14.7 Test sulla bontà di adattamento

Un ulteriore comune utilizzo dei dati campionari è la verifica di ipotesi funzionali, ossia la verifica di ipotesi

circa la distribuzione della variabile di interesse. Anche se generalmente non si è in grado di stabilire con

certezza la distribuzione di Z, è tuttavia possibile che le informazioni parziali in possesso del ricercatore, o

altre considerazioni di varia natura, consentano di formulare un’ipotesi distributiva. In analogia con le

situazioni esaminate in precedenza, lo scopo dell’indagine campionaria consiste nel verificare se l’ipotesi

nulla possa essere ritenuta compatibile o meno sulla base dei dati raccolti.

Le ipotesi di questo genere vengono verificate attraverso i cosiddetti test funzionali che possono essere

utilizzati anche in situazioni diverse come, per esempio, quando si ha interesse a confrontare la distribuzione

di una variabile rilevata su due diverse popolazioni oppure su una stessa popolazione in tempi diversi, al fine

di valutare se si rilevano differenze significative.

La verifica di un’ipotesi funzionale viene generalmente effettuata sulla base della sua funzione di

ripartizione. Data una certa variabile Z, l’ipotesi da sottoporre a verifica assume la forma

H 0 : F   zF 0   z 14.7.

dove la F 0 ( z ) può essere completamente o solo parzialmente specificata, nel senso che l’ipotesi può

riguardare o meno anche il valore dei parametri che compaiono nel modello. Nel caso in cui l’ipotesi venga

completamente specificata si formulano delle ipotesi anche sui valori dei parametri che caratterizzano la

funzione, mentre nel secondo caso l’ipotesi riguarda solo la forma funzionale della F 0 ( z ).

Il criterio generale per la verifica di un’ipotesi 11.7.1 si basa sul confronto fra la distribuzione sotto ipotesi

nulla e la distribuzione della variabile nella popolazione, stimata attraverso i dati campionari raccolti, ossia

attraverso la distribuzione della v.c. X “valore di Z sull’unità estratta”. Successivamente occorre calcolare

una qualche statistica test in grado di misurare la diversità fra le due distribuzioni e determinare la sua

distribuzione di probabilità, in modo da individuare la regione critica e la regione di accettazione dell’ipotesi.

Uno dei test utilizzati frequentemente, soprattutto quando la variabile considerata è di tipo qualitativo o

quantitativo discreto, è la statistica chi-quadrato analizzata in precedenza. In questo caso, però, la statistica si

basa sul confronto fra i valori assunti dalle probabilità calcolate sotto H 0 rispetto ai valori delle

corrispondenti frequenze relative calcolate sul campione osservato.

Considerata una variabile qualitativa o quantitativa discreta Z che assume k determinazioni diverse, si indica

con

P (Z= zj ) =  j per j = 1, 2, …, k 14.7.

la probabilità che Z assuma la generica determinazione z j.

L’ipotesi da verificare può essere espressa nel modo seguente

H 0 : j   0 j per j = 1, 2, …, k 14.7.

e il generico valore di probabilità teorica  0 j va confrontato con la sua stima campionaria, che corrisponde

alla frequenza relativa osservata

n

n

f

j

j ^ 14.7.

pari al rapporto fra il numero dei casi in cui si è rilevata la determinazione in esame rispetto alla numerosità

campionaria.

È evidente che quanto più i valori fj e  0 j risultano simili fra loro, tanto più sembra verosimile l’ipotesi nulla

14.7.3, mentre al crescere delle loro differenze si sarà portati a rifiutare tale ipotesi.

Il test chi-quadrato consente di valutare complessivamente le differenze fra le k coppie di valori fj e  0 j e

assume la forma seguente

   

 

k

j j

j j k π

f π χ n 1 0

2 2 0 1.^ 14.7.

specificare il valore dei parametri che la caratterizzano, il test viene effettuato sostituendo al valore di questi

parametri le corrispondenti stime ottenute sul campione osservato. In questa situazione il numero dei gradi di

libertà della distribuzione chi-quadrato risente del numero di parametri stimati. Indicato con q il numero di

parametri stimati, i g.d.l. della chi-quadrato diventano kq 1.