











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Come verificare ipotesi nulla su parametri di distribuzioni statistiche come media o parametro di una variabile casuale, utilizzando il teorema limite centrale e la statistica t di student. Due casi: uno per la verifica di ipotesi su una media e uno per la verifica di ipotesi su un parametro λ di una distribuzione zero-uno. Il documento include esempi di calcolo e descrizione di come calcolare i valori critici e il p-valore associato alla statistica test.
Tipologia: Dispense
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












14.1 Introduzione
I dati campionari possono essere utilizzati, oltre che per costruire l’intervallo di confidenza di un parametro
ritenuta verosimile o meno, alla luce dei risultati ottenuti sul campione casuale estratto dalla popolazione.
Con il termine ipotesi statistica si indica una supposizione su una qualche caratteristica ignota di una
popolazione. Per esempio, si può voler verificare se un macchinario produce una proporzione adeguata di
pezzi che rispettano caratteristiche prestabilite, se un dado o una moneta sono equilibrati, se un farmaco è
efficace nella cura di una determinata malattia, se esiste o meno una qualche dipendenza fra due variabili o
se la distribuzione di una certa variabile può essere approssimata da un determinato modello teorico.
Le ipotesi sono sottoposte a verifica sulla base del campione estratto e la procedura utilizzata per la verifica
di queste ipotesi costituisce il cosiddetto test statistico.
Per esempio, per verificare se una moneta è equilibrata si potrebbe lanciare più volte la moneta e registrare il
numero di teste e di croci. Si riterrà plausibile l’ipotesi che la moneta sia equilibrata se il numero di teste e di
croci ottenute in un numero sufficientemente elevato di lanci non risultano molto diversi fra loro, ma non si
può stabilire con certezza se un'ipotesi è vera o falsa, dato che uno stesso risultato può derivare da monete
diverse.
Se si lanciasse una moneta equilibrata 100 volte, il numero di teste ottenute potrebbe comunque variare da un
risultato minimo pari a 0 fino ad un massimo pari a 100, anche se ovviamente alcuni risultati sono più
probabili di altri. I risultati più probabili, se la moneta è effettivamente equilibrata, sono i fatti quelli in cui il
numero di teste e di croci non sono troppo diversi fra di loro, ma è possibile ottenere un numero di teste pari
a 0 o pari a 100, anche se la probabilità sarebbe piccolissima e, in entrambi i casi, pari a (0.5) 100 .
Un qualsiasi criterio di decisione circa l’accettazione o il rifiuto di un’ipotesi comporterà quindi il rischio di
commettere due diversi tipi di errore che consistono:
Nel caso della moneta, il risultato campionario potrebbe segnalare che la moneta è equilibrata anche se non
lo è realmente, oppure potrebbe indicare che la faccia “testa” ha una probabilità molto maggiore di “croce”
anche se la moneta fosse equilibrata o, addirittura, se la faccia “croce” avesse in realtà una probabilità
maggiore della faccia “testa”.
Per semplicità nelle pagine successiva si prenderà in considerazione solo il primo tipo di errore, ossia la
probabilità di rifiutare un'ipotesi quando è vera, per cui il metodo che verrà analizzato in seguito viene più
correttamente chiamato test di significatività.
L’ipotesi che si vuole verificare è detta ipotesi nulla ed è indicata con la notazione
seguita dal suo enunciato formale, dove H è l’iniziale del termine inglese Hypothesis.
sia bilanciata corrisponde a
notazione
H 0 , per cui la regola di decisione consiste nell’accettare H 0 se la stima campionaria rientra nell’insieme dei
risultati più probabili sotto H 0 e nel rifiutarla in caso contrario.
Nell’esempio relativo alla moneta si sarà portati a ritenere che la moneta sia equilibrata se, lanciandola un
adeguato numero di volte, si ottiene un numero di teste pressoché uguale al numero di croci, ossia se la
frequenza relativa delle teste si avvicina a 0.5 mentre, al crescere della differenza fra il risultato campionario
ottenuto e 0.5, si sarà sempre più portati a ritenere che la moneta sia sbilanciata.
l’ipotesi H 0.
In altri termini, la regola di decisione su cui si basano i test di significatività consiste nell’accettare l’ipotesi
rifiutarla in caso contrario.
distribuzione dello stimatore sotto ipotesi nulla.
L’insieme dei possibili risultati campionari viene quindi suddiviso nella regione di accettazione di H 0 (che
comprende i risultati più probabili sotto H 0 ) e in una regione di rifiuto o regione critica (che comprende i
risultati che sono invece poco probabili sotto la stessa ipotesi).
compresa nell’intervallo di accettazione dell’ipotesi nulla, questo non implica che H 0 sia effettivamente vera.
Se, per esempio, si fosse ottenuto un numero di teste pari a 501 su 1000 lanci non si rifiuterebbe l’ipotesi che
0.501 oppure a 0.502.
Per questo motivo, quando la stima campionaria è compresa nell’intervallo di accettazione dell’ipotesi nulla,
T rientra infatti anche nell’insieme dei risultati più probabili sotto altre ipotesi, diverse da H 0 , ed è quindi
compreso nell’intervallo di accettazione associato a tutte queste ipotesi.
e la sua verifica viene effettuata in modo diverso a seconda del grado di conoscenza sulla distribuzione della
variabile Z nella popolazione
- Primo caso
Se è noto che la variabile Z ha una distribuzione normale di varianza nota
2
assumendo come vera l’ipotesi nulla 14.2.1, la distribuzione della media campionaria risulta
2
risulterà delimitato dai due quantili che isolano rispettivamente a sinistra e a destra della distribuzione
Considerata infatti la distribuzione dello stimatore “media campionaria” sotto l’ipotesi nulla 14.2.1, ossia
corrispondono ai due quantili che in questa distribuzione isolano il primo sulla sua sinistra ed il secondo sulla
accettazione dell’ipotesi nulla, data dall’insieme dei risultati campionari più probabili sotto l’ipotesi H 0 : se la
media campionaria cade nella regione di accettazione si conclude l’analisi affermando che non si ha motivo
di rifiutare H 0 o che l’ipotesi è compatibile con il risultato campionario.
Gli intervalli a sinistra del valore critico inferiore e a destra del valore critico superiore costituiscono invece
la regione di rifiuto dell'ipotesi. Pertanto, se la media campionaria cade nella regione critica, il valore della
La verifica dell'ipotesi nulla può essere effettuata in modo più semplice, facendo riferimento alla normale
standardizzata. Si considera quindi la statistica test
~N 0 , 1 14.2.
e la regione di accettazione dell’ipotesi è in questo caso costituita dai valori compresi fra i quantili di ordine
ipotesi nulla.
Data la simmetria della distribuzione rispetto allo zero è però sufficiente confrontare il risultato della
statistica test
con il quantile z 1 /2 della normale standardizzata.
Se risulta
z 1 - /
contrario l'ipotesi è compatibile con i risultati campionari e non vi sono motivi per rifiutarla.
Un test di significatività può essere effettuato in modo più accurato mediante il calcolo del p - valore (in
inglese p - value) associato al valore assunto dalla statistica test 14.2.3. Questo p - valore rappresenta la
probabilità che la statistica test assuma un valore più estremo di quello osservato, sempre assumendo
l’ipotesi che H 0 sia vera, per cui quanto più il p - valore è piccolo, tanto meno verosimile appare l’ipotesi
nulla.
c
Se risulta
0
n c
campionario.
Esempio 14.2.
Su un campione casuale di 8 elementi estratto da una popolazione normale sono state rilevate i seguenti valori della
variabile oggetto di studio
1.1 3.1 4.2 4.6 5.0 5.2 5.3 6.
Verificare le ipotesi che la media della popolazione sia pari a 5 al livello di significatività =0.01.
Dai dati campionari risulta
2 2 2 2 E X . EX . S Sc S .
Per la verifica dell’ipotesi
H 0 : = 5
si utilizza la statistica 14.2. 5 che nel caso in esame assume il valore
t
per cui non si ha motivo di rifiutare l’ipotesi nulla al livello di significatività prefissato.
- Terzo Caso
Se la Z si distribuisce in modo normale con varianza ignota e il campione è grande, con una numerosità
superiore a 30 elementi, la verifica di ipotesi 14.2.1 si basa sempre sulla statistica test 14.2.4 la cui
distribuzione però, per il teorema limite centrale, tende a una distribuzione normale.
Pertanto il procedimento approssimato consiste nel calcolare la statistica test 14.2.5 e di confrontare il
risultato ottenuto con il quantile della distribuzione N (0,1) che isola alla sua destra un’area pari ad /2.
Pertanto, se risulta
1 / 2
0
c
campionario.
Esempio 14.2.
Su un campione casuale di 65 uova è stato rilevato lo "spessore del guscio” (in millimetri) ottenendo (^) x 0_._ 32 e
Sc 0_._ (^08). In base a queste informazioni si vuole verificare l'ipotesi che lo spessore medio del guscio sia pari a 0. 3
millimetri al livello di significatività = 0.05.
La verifica dell’ipotesi
H 0 : 0. 3
va effettuata controllando se è verificata la disuguaglianza 14.2.6. Dato che si ottiene
. z 0 975_. ,_
,
l'ipotesi viene rifiutata al livello di significatività = 0.05.
Esempio 14.2.
Sulla base dei dati dell’esempio precedente si verifichi l’ipotesi
H 0 : 0. 3
mediante il calcolo del p - valore.
Il p - valore risulta uguale a
2 1 2. 02 2 1 0. 9783 0. 0434
per cui l’ipotesi nulla deve essere rifiutata per un livello = 0.05, ma sarebbe compatibile con il risultato campionario
ottenuto se si decidesse di lavorare ad un livello = 0.0 1.
- Quarto caso
Se non si ha nessuna informazione circa la distribuzione della variabile Z nella popolazione ma il campione è
grande, con una numerosità superiore a 50 elementi (anche se spesso viene considerata sufficiente una
numerosità campionaria superiore a 30), la verifica di ipotesi 14.2.1 si basa sempre sulla statistica test 14.2. 5
Pertanto il procedimento risulta il medesimo descritto nel caso precedente e l’ipotesi nulla viene rifiutata se è
verificata la disuguaglianza 14.2.6.
verifica di ipotesi sul valore del parametro assume la forma
asintoticamente normale, in base al teorema limite centrale.
0 e varianza
n
π (^) 0 1 π 0 , per
cui la statistica
campionaria per verificare se la differenza fra le stime ottenute è così piccola da poter essere imputata solo
all’effetto di fattori casuali o se invece è elevata, tanto da portare al rifiuto dell’ipotesi nulla di uguaglianza
dei valori dei parametri che caratterizzano le due popolazioni. I campioni considerati sono ovviamente
indipendenti fra di loro, in quanto estratti da popolazioni diverse.
In questo paragrafo è considerata la verifica dell’ipotesi
ossia la verifica dell’ipotesi di uguaglianza dei valori attesi di Z nella prima e nella seconda popolazione,
così come accade quando si vuole confrontare l’effetto di due diversi fertilizzanti sul rendimento per ettaro di
una coltura o l’effetto di due medicinali nella cura di una malattia: se le differenze fra le due medie
campionarie sono così grandi da non poter essere imputate ai soli fattori casuali, si è portati a concludere che
un fertilizzante è migliore rispetto all’altro o che il tempo di guarigione con un medicinale è sensibilmente
minore rispetto all’altro.
Altri esempi comuni del confronto fra i valori medi di una variabile esaminata in due popolazioni distinte si
hanno quando si esamina il rendimento di due diversi titoli, i risultati ottenuti all’esame da studenti che
hanno utilizzato due testi differenti, la durata di funzionamento di prodotti ottenuti con due macchinari
diversi.
La verifica di una ipotesi 14.4.1 viene effettuata in modi diversi a seconda del grado di conoscenza sulla
distribuzione della Z nelle due popolazioni e a seconda della numerosità n 1 e n 2 dei campioni casuali estratti.
Indicata con X 1 la v.c. “valore di Z sull’unità estratta dalla prima popolazione” e con X 2 la v.c. “valore di Z
sull’unità estratta dalla seconda popolazione”, la verifica dell’ipotesi 14.4.1 viene effettuata sulla base del
valore assunto dalla differenza delle due medie campionarie (^) X 1 e (^) X 2. Tanto più questa differenza è piccola
in valore assoluto, tanto più l’ipotesi nulla sembra verosimile sulla base dei dati campionari, mentre H 0
diventa via via più improbabile al crescere dei valori assunti da tale differenza.
Se la numerosità dei due campioni è sufficientemente elevata da poter utilizzare il teorema limite centrale, la
distribuzione di probabilità delle due medie campionarie può essere approssimata da
1
2 1
2
2 2
dove
2
2
Dato che i due campioni provengono da due differenti popolazioni, le v.c. X 1 e X 2 risultano indipendenti
fra loro, per cui la distribuzione approssimata della differenza delle due medie campionarie risulta
2
2 2
1
2 1
ed effettuando la standardizzazione, si ha quindi
0 , 1
2
2 2
1
2 1
1 2 1 2
Di solito le varianze delle popolazioni non sono note, ma possono essere stimate in modo corretto e coerente
mediante le varianze campionarie corrette per cui, al posto della 14.4.2, si utilizza la seguente statistica
0 , 1
2
2 2
1
2 1
1 2 1 2
c c
che, sotto l’ipotesi nulla 14.4.1 assume la forma
0 , 1
2
2 2
1
2 1
1 2
c c
assoluto della statistica 14.4.3 con il quantile z 1 /2 della normale standardizzata.
Se risulta
2
2 2
1
2 1
1 2
c c
z 1 - /2 14.4.
caso contrario l'ipotesi è compatibile con il risultato campionario e non vi sono motivi per rifiutarla.
2
2 2
1
1 1 1 2 1 2
ed effettuando la standardizzazione, risulta quindi
2
2 2
1
1 1
1 2 1 2
Sotto l’ipotesi 14.5.1 la 14.5.2 assume la forma seguente
1 2
0 0
1 2
2
0
1
0 0
1 2
1 2
1 1 2 2 0 0
.
Questo stimatore corrisponde a quello che si ottiene considerando un unico campione costituito dagli n 1
elementi appartenenti al primo campione e dagli n 2 elementi appartenenti al secondo campione.
La statistica test per la verifica dell’ipotesi 14.5.1 corrisponde quindi a
1 2
0 0
1 2
il quantile z 1 /2 della normale standardizzata.
Se risulta
1 2
0 0
1 2
z 1 - /2 14.5.
caso contrario l'ipotesi è compatibile con il risultato campionario e non vi sono motivi per rifiutarla.
Esempio 14.5.
Anni fa venne condotto uno studio per analizzare gli effetti positivi dell’uso di aspirina sulla prevenzione degli attacchi
cardiaci. Su un insieme di 22071 individui vennero formati due gruppi: il gruppo di trattamento e quello di controllo.
Gli individui del gruppo di trattamento ricevettero una dose quotidiana di aspirina mentre quelli di controllo un farmaco
placebo. Lo studio venne condotto per un periodo di 5 anni osservando il numero di decessi per infarto. Si ottennero i
seguenti risultati
Farmaco\Esito Infartuati Non infartuati Placebo 239 10795 11034 Aspirina 139 10898 11037 378 21693 22071
La proporzione dei colpiti da infarto nel gruppo di controllo è 0. 0217 11034
ˆ p 1 , mentre la stessa proporzione nel
gruppo sottoposto a trattamento è 0. 0126 11037
p ˆ 2 . Pertanto risulta 0. 0171 22071
p
E la statistica test 14.5.4 è pari a
.
Dato che il p-valore associato a tale risultato è praticamente nullo, l’ipotesi di uguaglianza fra le due proporzioni va
rifiutata per qualunque livello di significatività.
14.6 Test di indipendenza
Nella prima parte di queste dispense si è studiato l’indice chi-quadrato per misurare il grado di dipendenza
assoluta fra due variabili rilevate contemporaneamente su n unità statistiche. Questa statistica viene
interpretata in chiave inferenziale quando n corrisponde al numero di elementi di un campione casuale. In
questo caso il risultato ottenuto con la 6.3.1 o con la 6.3.2 viene utilizzato per verificare se è verosimile
l’ipotesi che le variabili sono indipendenti nella popolazione da cui il campione è stato estratto.
Indicato rispettivamente con k e l il numero di determinazioni assunte dalle due variabili Z e W, le njl che
compaiono nella 6.3.1 o le fjl che compaiono nella 6.3.2 rappresentano le frequenze congiunte campionarie
relative alle variabili casuali X “valore di Z sull’individuo estratto” e di Y “valore di W sull’individuo
estratto” mentre le
Esempio 14.6.
Si verifichi l’ipotesi di indipendenza fra due variabili Z e W al livello di significatività =0.01 sapendo che su un
campione di 10 0 elementi si sono ottenuti i seguenti risultati relativi alle variabili casuali X “valore di Z sull’individuo
estratto” e di Y “valore di W sull’individuo estratto”
X\Y A B a 0. 02 0. 18 0. 20
b 0. 25 0. 25 0. 50 c 0. 25 0. 05 0. 30
Le frequenze relative teoriche calcolate sotto ipotesi di indipendenza assumono i valori riportati nella tabella successiva
X \ Y A B
a 0. 104 0. 096 0. b 0. 260 0. 240 0.
c 0. 156 0. 144 0.
0.52 0.48 1.
per cui ogni ' jl
' n (^) jl 100 f è superiore a 5.
Utilizzando la formula di calcolo semplificata 6.3. 4 la statistica test risulta pari a
2 2 2 2 3 121
e l’ipotesi di indipendenza va quindi rifiutata perché la statistica risulta maggiore del quantile 9. 210 che nella chi-
quadrato con 2 gradi di libertà isola alla sua destra un’area pari a 0.01.
14.7 Test sulla bontà di adattamento
Un ulteriore comune utilizzo dei dati campionari è la verifica di ipotesi funzionali, ossia la verifica di ipotesi
circa la distribuzione della variabile di interesse. Anche se generalmente non si è in grado di stabilire con
certezza la distribuzione di Z, è tuttavia possibile che le informazioni parziali in possesso del ricercatore, o
altre considerazioni di varia natura, consentano di formulare un’ipotesi distributiva. In analogia con le
situazioni esaminate in precedenza, lo scopo dell’indagine campionaria consiste nel verificare se l’ipotesi
nulla possa essere ritenuta compatibile o meno sulla base dei dati raccolti.
Le ipotesi di questo genere vengono verificate attraverso i cosiddetti test funzionali che possono essere
utilizzati anche in situazioni diverse come, per esempio, quando si ha interesse a confrontare la distribuzione
di una variabile rilevata su due diverse popolazioni oppure su una stessa popolazione in tempi diversi, al fine
di valutare se si rilevano differenze significative.
La verifica di un’ipotesi funzionale viene generalmente effettuata sulla base della sua funzione di
ripartizione. Data una certa variabile Z, l’ipotesi da sottoporre a verifica assume la forma
H 0 : F z F 0 z 14.7.
dove la F 0 ( z ) può essere completamente o solo parzialmente specificata, nel senso che l’ipotesi può
riguardare o meno anche il valore dei parametri che compaiono nel modello. Nel caso in cui l’ipotesi venga
completamente specificata si formulano delle ipotesi anche sui valori dei parametri che caratterizzano la
funzione, mentre nel secondo caso l’ipotesi riguarda solo la forma funzionale della F 0 ( z ).
Il criterio generale per la verifica di un’ipotesi 11.7.1 si basa sul confronto fra la distribuzione sotto ipotesi
nulla e la distribuzione della variabile nella popolazione, stimata attraverso i dati campionari raccolti, ossia
attraverso la distribuzione della v.c. X “valore di Z sull’unità estratta”. Successivamente occorre calcolare
una qualche statistica test in grado di misurare la diversità fra le due distribuzioni e determinare la sua
distribuzione di probabilità, in modo da individuare la regione critica e la regione di accettazione dell’ipotesi.
Uno dei test utilizzati frequentemente, soprattutto quando la variabile considerata è di tipo qualitativo o
quantitativo discreto, è la statistica chi-quadrato analizzata in precedenza. In questo caso, però, la statistica si
basa sul confronto fra i valori assunti dalle probabilità calcolate sotto H 0 rispetto ai valori delle
corrispondenti frequenze relative calcolate sul campione osservato.
Considerata una variabile qualitativa o quantitativa discreta Z che assume k determinazioni diverse, si indica
con
la probabilità che Z assuma la generica determinazione z j.
L’ipotesi da verificare può essere espressa nel modo seguente
H 0 : j 0 j per j = 1, 2, …, k 14.7.
e il generico valore di probabilità teorica 0 j va confrontato con la sua stima campionaria, che corrisponde
alla frequenza relativa osservata
j
pari al rapporto fra il numero dei casi in cui si è rilevata la determinazione in esame rispetto alla numerosità
campionaria.
14.7.3, mentre al crescere delle loro differenze si sarà portati a rifiutare tale ipotesi.
assume la forma seguente
k
j j
j j k π
f π χ n 1 0
2 2 0 1.^ 14.7.
specificare il valore dei parametri che la caratterizzano, il test viene effettuato sostituendo al valore di questi
parametri le corrispondenti stime ottenute sul campione osservato. In questa situazione il numero dei gradi di
libertà della distribuzione chi-quadrato risente del numero di parametri stimati. Indicato con q il numero di
parametri stimati, i g.d.l. della chi-quadrato diventano k q 1.