









































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
CHIARIFICAZIONI SU TEST IPOTESI
Tipologia: Dispense
1 / 81
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










































































Statistica per le decisioni (Note didattiche) Bruno Chiandotto
In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni normali; comunque, la portata generale dei principi enunciati e la logica delle argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni estratti da popolazioni non normali. Argomentazioni diverse devono essere svolte sia nei riguardi della impostazione bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non parametrici; aspetti questi che non vengono qui trattati. E' stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla scorta delle risultanze campionarie. Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già detto, nel primo caso l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa assunzione ( ipotesi ) concernente una specifica entità incognita. La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati soprattutto i problemi di decisione nei quali all'accettazione o al rifiuto di
Statistica per le decisioni Test delle ipotesi statistiche
una certa ipotesi è collegata la scelta di una particolare linea di comportamento.
Definizione 1 (Ipotesi statistica). Un' ipotesi statistica è un'affermazione che specifica parzialmente o completamente la legge di distribuzione della probabilità di una variabile casuale. L'affermazione può riferirsi sia alla forma funzionale della legge di distribuzione che ai parametri caratte- ristici o ai soli parametri caratteristici quando si assuma nota la forma analitica della distribuzione stessa.
Se l' ipotesi , usualmente indicata con il simbolo H 0 e detta ipotesi nulla o ipotesi zero ( ipotesi di lavoro ), specifica completamente la legge di distribuzione della variabile casuale, si dice semplice , nel caso opposto l’ipotesi viene detta composita o composta. Inoltre, se l'ipotesi riguarda i parametri caratteristici di una particolare distribuzione di cui si conosce la forma analitica si parla di ipotesi parametrica ; si dice invece non parametrica (o più correttamente distribution free ), l'ipotesi statistica che non presuppone nota tale forma. Ovviamente l'ipotesi non parametrica, come generalmente accade, può riguardare sia la forma analitica della distribuzione sia i parametri che la caratterizzano. Ad esempio se si ipotizza che l'altezza degli italiani adulti di sesso maschile si distribuisce in modo (approssimativamente) normale con media pari a 1,70 metri e scostamento quadratico medio pari a 0,28 metri. Si sta trattando di una ipotesi statistica semplice (specifica completamente la legge di distribuzione del fenomeno) non parametrica (l'ipotesi riguarda anche la forma della distribuzione). Se invece si dà per acquisito il fatto che l'altezza degli italiani adulti di sesso maschile si distribuisce in modo (approssimativamente) normale, l'ipotesi statistica potrà riguardare i soli
parametri, ad esempio: l'altezza media è pari a 1,70 metri; sarà invece composita se specifica un insieme di valori, ad esempio: l'altezza media degli italiani adulti di sesso maschile è compresa nell'intervallo 1,68 – 1,72 metri.
Definizione 2 (Test di ipotesi). Un test di ipotesi (statistica) è una regola attraverso la
Statistica per le decisioni Test delle ipotesi statistiche
attraverso un'analisi del processo logico seguito nella loro formulazione, o più semplicemente, sempre che sia possibile, confrontando le probabilità che si hanno di commettere degli errori adottando l'una o l'altra procedura per sottoporre a test una stessa ipotesi. Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura: a) rifiutare un'ipotesi quando essa è vera. Si parla in questo caso di errore di I specie o di I tipo ; b) accettare un'ipotesi quando essa è falsa. Si parla in questo caso di errore di II specie o di II tipo. Il processo decisionale sopra illustrato può essere schematicamente riassunto nella tavola che segue.
Stato di natura Azioni
H 0 è vera H 0 è falsa
Si accetta H 0 Decisione corretta
Si commette un
Si rifiuta H (^0)
Si commette un
Decisione corretta
Tab. 1 - Tavola di decisione
La probabilità di commettere un errore di primo tipo , e cioè la probabilità di
il punto campionario. La probabilità di commettere un errore di II tipo , e cioè la probabilità di
Statistica per le decisioni Test delle ipotesi statistiche
Dove H 1 =H 0 , che rappresenta la negazione dell’ipotesi Ho , viene detta ipotesi
alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi, completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o
probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione dell’ipotesi alternativa H 1.
quando essa è falsa viene detta forza o potenza del test relativamente all'ipotesi
detta funzione forza del test. Da rilevare che i termini forza e potenza vengono usati come sinonimi e traducono il termine inglese power. Quanto sopra affermato si riferiva al caso d'ipotesi H 0 semplice. Nel caso di ipotesi nulla composita, si può definire il livello di significatività come
H H α SupP X C/H 0
⊂ Così posto il problema, si vede chiaramente come la migliore soluzione sia rappresentata da un test capace di minimizzare simultaneamente le probabilità di commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire un tale obbiettivo, e cioè, non è sempre possibile individuare un test capace di minimizzare contemporaneamente le probabilità di commettere i due tipi di errore quando la dimensione del campione sia stata fissata. Si dovrà quindi operare in modo diverso; infatti, la procedura che si segue generalmente è quella di fissare la misura della probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di
commettere un errore di II tipo.
cerca il test più potente ( test MP dall’inglese M ost P owerful), cioè, quello che ha il
Statistica per le decisioni Test delle ipotesi statistiche
Teorema 1 (Neyman-Pearson) : Sia X una variabile casuale con funzione di massa o
osservazioni su X. Allora la funzione di verosimiglianza del campione sarà espressa da
=
n 1 2 n i 1 i L θ ;x L θ ;x ,x ,…,x f x; θ
dell'i-esimo elemento campionario.
C tale che
(^1) K x C L θ ;x
L θ ;x ≥ → ∈
e di conseguenza C 0 = C – C 1 (regione di accettazione) consisterà nell'insieme di punti campionari tali che
(^1) K x C L θ ;x
L θ ;x < → ∈
dove K viene scelto in modo che la probabilità di commettere un errore di I
presenta la più bassa probabilità d' errore di II specie , tra le regioni critiche che hanno livello di significatività pari ad α.
Dimostrazione
Siano C 1 e C 1 * due regioni di rifiuto dell’ipotesi nulla H 0 per le quali valgono le relazioni
si vuol dimostrare che se C 1 risulta definito dalle disuguaglianze sopra riportate allora:
Statistica per le decisioni Test delle ipotesi statistiche
si vuole dimostrare, cioè, che il test definito dalla regione C 1 è più potente di quello
definito da una qualunque altre regione critica C 1 * che abbia lo stesso livello di
Si consideri la differenza tra le probabilità di non commettere un errore di II tipo (potenza) relative alle due regioni critiche:
pertanto
in , ,
in , ,
maperleduedisuguaglianzeriportatenell'enunciatodelteoremasiha:
percui
quindi
0 0
0 0 0 0
1 1 0 0
1 0
1 1 0
1 1
1 1 1 1
1 * 1 * 0 1 * 1
1 1 * 0 1 1 *
1 * 1 * 1 * 0 1 1 * 0 1 * 1
1 1 1 0 * 1 * 1 0 * 1 1 *
1 0 1 * 0 1 1
1 1 *
1 0 * 1 1 * 1 * 0 1 * 0
1 * 0 1 * 0 1 * 0 * 1 0
1 0 * 1 * 0
1 * 0 1 1 * * 1 01 1 * 1
1 1
∩ ∩ ∩ ∩
∩ ∩ ∩ ∩
∩ ∩
∩ ∩ ∩ ∩
L x L x K
L x L x L x L x
L x L x L x L x
C L x K L x
C L x K L x
L x L x
L x L x L x L x
PX C H PX C H L x L x
C C
C C C C C C C C
C C C C C C C C
o
C C C C
C C C C C C C C
C C
Bisogna tener presente che, dal punto di vista operativo, quando si procede nella formulazione di un test, lo spazio dei campioni C di riferimento non è lo spazio di
=
n n (^) i i X T X X X n X (^121)
si considera, cioè, la media campionaria X e lo spazio dei campioni relativo a tale
Statistica per le decisioni Test delle ipotesi statistiche
si assuma la disponibilità di un campione casuale x = (x 1 , x 2 , ...., x (^) n ). In queste
condizioni si può pervenire alla individuazione della migliore regione critica C 1 , cioè alla individuazione del test più potente, facendo ricorso al teorema di Neyman-Pearson. Le funzioni di verosimiglianza sotto le ipotesi H 0 e H 1 sono
− − − ∏=
n i 1 21 (xi^ θ^1 )^2 2 n 1
n (^1) i 1 i L θ ;x f(x; θ ) (2 π ) e
− − − ∏=
n i 1 21 (xi^ θ^0 )^2 2 n 0
n (^0) i 1 i L θ ;x f(x; θ ) (2 π ) e
individuata dalla disuguaglianza
e K f(x; )
f(x; ) L ;x
L ;x
n i 1
n i 1 21 (xi^0 )^2 (xi^1 )^2 n i 1 i^0
n i 1 i^1 01
⎤ ⎢⎢⎣
⎡ (^) − − −
=
= (^) = = ∏
∏ (^) θ θ
θ
θ θ
θ
Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene (x θ ) (x θ ) logK 2
1 n i 1
n i 1 i 0 2 i (^12) ⎥ ≥ ⎦
∑= ∑=
moltiplicando per 2 i due termini della disuguaglianza si ha
(x θ ) (x θ ) 2 logK
n i 1
n i 1 ∑ i − 0 2 −∑ i− 1 2 ≥ = = essendo n 02 i 1 0
n i 2 i 1
n i 02 i 1
n i 1 0 ∑ (xi^ θ 0 )^2 ∑ xi^22 θ ∑x n θ ∑x^2 n θ x n θ = = = =
n 12 i 1 1
n i 2 i 1
n i 12 i 1
n i 1 1 ∑(x (^) i^ θ 1 )^2 ∑ x^2 i^2 θ ∑x n θ ∑x^2 n θ x n θ = = = =
dove
Statistica per le decisioni Test delle ipotesi statistiche
n i i
n i i^
n x n n x x 1 1
la relazione di disuguaglianza può essere scritta
1 0
02 12 K 2 n θ θ x 2 logK-n θ^ θ = ⋅ −
Poiché X ha, sotto l'ipotesi nulla H 0 : θ = θ 0 , distribuzione normale con
soddisfa la relazione
2 n θ θ P X^2 logK-n θ^ θ 0 1 0
⋅ −
In pratica l'operazione si semplifica tenendo presente che il membro di destra della disuguaglianza è una funzione costante di K , basterà allora individuare il valore K* che soddisfa la relazione
od anche
/H α 1 / n
K* θ 1 / n P X^ θ
il che equivale alla relazione
dove Z è una variabile casuale normale standardizzata e 1 / n
c = K*^ −^ θ^0 è il punto
Il teorema di Neyman-Pearson consente di derivare la migliore regione critica
Statistica per le decisioni Test delle ipotesi statistiche
significatività prefissato. La distribuzione di R non è sempre facilmente derivabile, in ogni caso si dimostra che, per n abbastanza grande, e se sono soddisfatte certe condizioni generali di regolarità, la variabile casuale W = - 2 log R, ha una legge di
numero di vincoli di uguaglianza puntuali sui parametri specificati dall’ipotesi nulla. Nelle pagine successive verranno discusse alcune procedure per sottoporre a test ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del rapporto di verosimiglianza. Si noti che l'applicazione di tale test al problema della verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson.
5.3.1 Test sulla media Per poter verificare delle ipotesi statistiche si deve avere a disposizione un campione di osservazioni che consenta di poter concludere sulla ragionevolezza dell'ipotesi (nulla) formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola ragionevole), altrimenti si procede al suo rifiuto in favore dell'ipotesi alternativa. Si ammetta di poter disporre di un campione di osservazioni x 1 ,x 2 ,….,x (^) n su una
problemi di test d'ipotesi: a) H 0 : μ = μ 0 H 1 : μ = μ 1 > μ 0 b) H 0 : μ = μ 0 H 1 : μ > μ 1 c) H 0 : μ = μ 0 H 1 : μ < μ 0 d) H 0 : μ = μ 0 H 1 : μ ≠ μ 0
d'errore di I specie che si è disposti a sopportare. L'ipotesi riguarda la media di una distribuzione normale, si sceglie quindi come funzione degli elementi del campione (variabile casuale test) la media campionaria:
Statistica per le decisioni Test delle ipotesi statistiche
n 1 2 n i 1 i X T X ,X ,....,X n^1 X
Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse reale. La procedura di test consisterà quindi nella suddivisione dell'asse reale in due
P ( X⊂C 1 /H 0 ) = α
dove C 1 rappresenta naturalmente la regione critica.
Si è visto in precedenza che la variabile campionaria casuale
S/ n
T = X-^ μ
ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la distribuzione t, con n-1 gradi di libertà anche la variabile casuale
S/ n
T = X-^ μ^0
Caso a) H 0 : μ = μ 0 H 1 : μ = μ 1 > μ 0 L'asse reale viene diviso in due intervalli. Il primo degli intervalli specifica la zona di accettazione, il secondo la zona critica. Il valore numerico di c , detto valore critico del test , si ottiene dalla relazione
caso b) H 0 : μ = μ 0 H 1 : μ > μ 0 In questo caso l'ipotesi alternativa è composita, la procedura di test uniformemente più potente (cioè quella che minimizza la probabilità d'errore di II specie contro ogni specificazione delle ipotesi alternative H 1 ) è esattamente identica a quella indicata nel caso precedente. caso c) H 0 : μ = μ 0 H 1 : μ < μ 0 L'ipotesi alternativa anche in questo caso è composita ma con segno di disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso
Statistica per le decisioni Test delle ipotesi statistiche
commettere un errore di I tipo).
Nei quattro casi sopra esaminati si rifiuta l'ipotesi H 0 se la specifica determinazione della variabile casuale T cade nella zona critica (zona di rifiuto), si accetta altrimenti.
Esempio 2 Si supponga di voler risolvere il seguente problema di test d'ipotesi
x = 26 e della varianza campionaria corretta s 2 = 36 relative ad un campione di 25 elementi estratti da una popolazione normale. Non essendo nota la varianza della popolazione, la regione critica o regione di
casuale t di Student
Sx t =X−^ μ
critica resta quindi individuata dal punto critico c =-tα =-t0,01 =-2,492 che
rappresenta la specifica determinazione della variabile casuale t di Student che ha alla sua sinistra l'1% dei casi. Poiché il valore campionario è
3,33 2, σ / 25 t =^26 −^30 =− <−
Esempio 3 Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35
Il problema di test d'ipotesi da risolvere è
Statistica per le decisioni Test delle ipotesi statistiche
H 0 : μ = 35 H 0 : μ ≠ 35 Essendo la varianza della popolazione una incognita del problema si dovrà procedere ad una sua stima utilizzando i dati campionari
= − ∑= −
n i 1
(^2) (xi x) 2 n 1
essendo x n^1 x 81 x 30,
8 i 1 i
n i 1 i^
= (^) ∑ = ∑ = = = = ∑= − =
8 i 1
(^2) (xi 30,25) (^2) 22, 7 s^1
s = s^2 =4, La determinazione della variabile casuale test che in questo caso, essendo incognita la varianza, è la t di Student, è pari a
s/ n
x- μ s t x^ μ x
libertà; che definiscono la regione critica sono c 1 = - t α / 2 =-3,499 e
c 2 = t α / 2 =3,499. Il valore campionario -2,85 è contenuto nell'intervallo
riscontrata rispetto al valore campionario x = 30,25 a fattori di carattere accidentale.
Esempio 4 Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività) del 5%? Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al
Statistica per le decisioni Test delle ipotesi statistiche
variabile casuale test da utilizzare è, pertanto, la variabile casuale t di Student.
S/ n T = X-^ μ
dove
n 1
(x x) S
n 11 i^2 −
∑=
quindi
(x x) n
10 i 1 2 i^2 2 x (^) ⋅ = =
∑=
La determinazione assunta dalla variabile casuale t di student sotto l'ipotesi nulla
t x^ μ x
regione di accettazione sono − t α (^) / 2 =-3,25 e. t (^) α / 2 =3,25. Essendo 2,8604 < 3,25 si
Esempio 6 Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta dalla nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57, 65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato, quando non sono sottoposte a diete speciali, mostrano un incremento medio di peso (nei primi tre mesi di vita) pari a 65 grammi, ci si domanda se le risultanze campionarie siano tali da poter attribuire alla dieta la differenza riscontrata nell'incremento medio di peso; si vuole sapere cioè se la differenza d = 60,75 - 65 debba essere attribuita alla dieta o se non debba invece essere attribuita a fattori aventi carattere puramente accidentale. Una possibile risposta al quesito si può ottenere applicando la procedura di test sopra illustrata; la procedura può essere riassunta
Statistica per le decisioni Test delle ipotesi statistiche
come segue:
2. si specificano le due ipotesi H 0 : μ = 65
L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il momento, che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi possa essere attribuito all'effetto della dieta; 3. si individua la variabile casuale al test
S/ 12
che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale variabile descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra scritta) sotto l'ipotesi nulla H 0 ; cioè a condizione che la dieta non abbia effetto e che
quindi le differenze tra X e 65 siano da attribuire esclusivamente a fattori accidentali; 4. si determina il valore critico c che soddisfa la relazione
Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di libertà, risulta c = 2,20; 5. si pone a confronto il valore t (la specifica determinazione della variabile casuale T) calcolato sui dati campionari
16,38/ 12
t = 60,75-^65
con il valore critico determinato al punto precedente. Essendo t = -3,63 < -2,20 = -c
l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso. Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di peso inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo unidirezionale. In tal caso si dovrà porre