























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Come calcolare intervalli di confidenza per le stime statistiche di media e frequenza in campionamenti senza ripetizioni e in blocco. Viene presentata la distribuzione campionaria e il calcolo della varianza campionaria. Inoltre, vengono discusse le distribuzioni Student e ipergeometrica e come approssimare queste ultime con una normale standardizzata. Il documento si applica a grandezze che riguardano fenomeni socio-economici.
Tipologia: Dispense
1 / 31
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























Se con lo stimatore Θˆ^ si effettuano numerose stime di θ con vari campioni casua- li di numerosità n , si osserva, però, che alcune di esse sono più frequenti di altre (per cui è legittimo ritenere che alcuni risultati siano più probabili di altri): nasce così l'i- dea di dividere la distribuzione campionaria in due sottoinsiemi, l'uno dove è più pro- babile che si trovi θ e l'altro dove lo è meno: da tutto ciò appare evidente che invece di stimare un solo valore di θ, si può stimare l'intervallo casuale (detto intervallo di confidenza o di fiducia) che contiene θ all'interno con una probabilità prefissata 1−α, denominata livello di confidenza o di fiducia. Ovviamente, α (detto livello di signifi- catività ) fornisce la misura del rischio che si corre nel confidare che l'intervallo ca- suale stimato contenga θ, rischio connesso al fatto che l'indagine è campionaria. In pratica, la realizzazione di numerosi campioni per individuare i risultati più probabili (e, quindi, l'intervallo di confidenza) non avviene mai, perché, in genere, si dispone di un solo campione. Si procede, perciò, indirettamente cercando due valori casuali θˆ^1 << θˆ^2 ), potenzialmente assumibili dallo stimatore Θˆ^ al variare del campio- ne casuale, per i quali Pr ( θˆ 1 <θ<θˆ 2 )=1−α, facendo anche in modo che l’ampiezza dell’intervallo sia minima, perché in tal caso, a parità di α, la stima ottenuta è più precisa. Se la distribuzione campionaria dello stimatore è abbastanza simmetrica, l’intervallo migliore è quello centrato, cioè quello per cui Pr( θ ≤θˆ 1 )=Pr(θ≥θˆ 2 )=α/ (^2).
O
p(θ)
θ^ ^
^
1- α
ϑˆ 1 ϑˆ 2 O
p(θ)
θ^ ^
^
1- α
ϑˆ 1 ϑˆ 2 Fig.2/A Fig.2/B Si fa osservare, però, che per aumentare il livello di fiducia non si può far tendere α a 0. Infatti, aumentando 1−α cresce anche l'ampiezza dell'intervallo diventando pra- ticamente insignificante: ad es., dire che il peso dei nati vivi in Italia è compreso fra 100g e 10kg con probabilità del 99,99999% non ha alcun significato ai fini della co-
noscenza del fenomeno: è evidente, dunque, che, a parità di α, più piccolo è l'inter- vallo e più precisa è la stima effettuata. Per intervalli di confidenza intorno a grandezze che riguardano fenomeni socio- economici, generalmente si assume α = 0 , 05 (cioè 5%) o α = 0 , 01 (cioè 1%).
4.- Intervallo di confidenza per la media di una popolazione normale
Se la popolazione da cui è estratto il campione è normale, è noto che la v.c. T x ˆ (X) =^ μ^ − σ ,^ [8]
al variare del campione nell’universo dei campioni, si distribuisce come una T (^) g di Student con g=n− 1 gradi di libertà. Allora, fissato α, se indichiamo con: t (^) g;α/2 il valore di Tg per il quale Pr(T≥t (^) g;α/2 )=α/2 e, a causa della simmetria della cur- va, con −t (^) g;α/2 il valore di Tg per cui Pr(T≤−tg;α/2 )=α/2, il problema della determina- zione dell’intervallo di confidenza si riduce a trovare nella Tav. dell’Appendice il va- lore di tg;α/2. Infatti, l’intervallo che contiene nel suo interno il valore della variabile fornita dalla [8], con probabilità 1−α, è
− t (^) g; α / 2 <μσˆ(−Xx)<tg;α/ 2. [9]
Moltiplicando, poi, per σˆ( X)tutti i membri della [9], si ha − t (^) g; α / 2 ⋅σˆ(X)<μ−x<tg;α/ 2 ⋅σˆ(X). Aggiungendo x a tutti i membri della precedente relazione, si ottiene infine x − tg; α / 2 ⋅σˆ(X)<μ<x+tg;α/ 2 ⋅σˆ(X). [10] La [10] fornisce l’intervallo di confidenza cercato. Naturalmente, se il campione è sufficientemente ampio (n≥50), allora la distribu- zione della v.c. Tg è ben approssimata da quella della v.c. Z:
-4 -2 0 2 4
t
p(t) n = 2n = 3n = 6
n = ∞
Per cui, indicando con zα il valore di Z tale che P(Z≥zα)=α, la [10] diventa x − zα / 2 ⋅σˆ(X)<μ<x+zα/ 2 ⋅σˆ(X). [11]
Poiché n è piccolo e non è nota la distribuzione della spesa media nell’universo (e, quindi, non è nota la distribuzione campionaria della media), dopo aver calcolato
σˆ( X) con la [ 6 ]: σˆ^2 (X)=S^2 /(n− 1 )ed aver posto 1 / α^ =^1 /^0 ,^05 =^20 , useremo
la [ 12 ]. Ossia
€(100 - 20 10 /× 20) < μ< €(100 + 20 10 /× 20),
cioè l’intervallo cercato è: € 90 < μ < € 110. Se, invece, la popolazione fosse stata normale, le medie campionarie si sarebbero distribuite secondo una Tg di Student; per cui, essendo t20;0,025 =2,08596, per la [10] l’intervallo di confidenza sarebbe stato:
€(100−2,08596·10/ 20 ) < μ < €(100+2,08596·10/ 20 ) € 95,334 < μ < € 104,666. Come si vede, questo intervallo è meno ampio (e, quindi, la stima di μ è più pre- cisa) di quello che si ottiene in assenza di normalità della popolazione.
6.- Le stime puntuali di μ e di σ^2 nel caso di campionamento senza ripeti- zione (o in blocco) Se il campionamento è senza ripetizione (o in blocco) si è già visto (paragra- fo 1.2) che X è uno stimatore corretto di μ; il migliore stimatore di σ^2 è invece
(^2) S 2 N
n 1 ˆ n ⋅ − ⋅ σ = −. [ 14 ] Per verificare se la [ 14 ] è veramente uno stimatore corretto di σ^2 , calcoliamo le medie delle stime delle varianze (corrette e non) riportate nella Tav.6.
Tav.6 - Universo dei campioni, di numerosità 3, estratti in blocco dalla popolazione {20, 21, 22, 23, 24}. Medie campionarie e stime, non corretta (s^2 ) e corret- ta ( (^) σˆ 2 =s^2 nn− 1 NN−^1 ), della varianza. Campioni (^) x s^2 σˆ 2 Campioni (^) x s^2 σˆ^2 {20,21,22} 21,0 0,7 0,8 {20,23,24} 22,3 2,9 3, {20,21,23} 21,3 1,6 1,9 {21,22,23} 22,0 0,7 0, {20,21,24} 21,7 2,9 3,5 {21,22,24} 22,3 1,6 1, {20,22,23} 21,7 1,6 1,9 {21,23,24} 22,7 1,6 1, {20,22,24} 22,0 2,7 3,2 {22,23,24} 23,0 0,7 0,
Si ha E(S 2 ) = 5/3 ≠ σ^2 : perciò S 2 non è uno stimatore corretto di σ^2 ;
mentre E( σˆ^2 ) = 2 = σ^2 : perciò la [ 14 ] è uno stimatore corretto di σ^2.
Per N→ ∞ , la [ 14 ]: (^2) S^2 N
n 1 ˆ n ⋅ − ⋅ σ = − coincide con la
[ 9 ]: (^) n 1 nn 1 S
n i 1 i^2 2 − = −
σ =
, che si usa in pratica quando N è molto elevato.
6.1- Distribuzione campionaria della media
Nel caso di campionamento senza ripetizione (e in blocco) abbiamo già visto che E( X)= μ; lo stimatore della varianza campionaria della media si ottiene, invece, so-
stituendo la [ 14 ]: (^2) S^2 N
n 1 ˆ n ⋅ − ⋅ σ = − nella [ 2 ]: σ^ (X)=σn ⎜⎝⎛NN−− 1 n⎟⎠⎞ 2 2 , cioè
N n n 1
σ = −. [ 16 ] Quanto alla forma della distribuzione campionaria della media, quando la popo- lazione è normale, il rapporto
( X− μ) σˆ(X), [ 17 ]
con σˆ( X) ricavato dalla [ 16 ], al variare del campione nell’universo campionario, si
distribuisce secondo una “Tg di Student” con g=n−1 gradi di libertà. Si ricordi che se la popolazione è normale ed n ≥ 50, oppure se la popolazione non è normale ma n ≥ 100, la distribuzione della [ 17 ] è ben approssimata da una nor- male standardizzata.
Esempio Nell’a.a. 1994-95 gli iscritti al corso di laurea in Economia e Commercio della 1 a Facoltà di Economia dell’Università di Bari sono stati N=9.371. Nel Settembre 1995 sono stati estratti senza ripetizione n=40 studenti i quali hanno avuto un voto medio in Statistica I pari a x =26 trentesimi, con uno scarto quadratico medio s=4 trentesimi. Qual è la stima intervallare del voto medio in tale materia di tutti gli studenti del sud- detto corso di laurea, al livello 1-α=0,95, supponendo normale l’universo dei voti? Stimato l’errore standard della stima tramite la [16], cioè
σˆ 2 =pˆ(n^1 −^ − 1 pˆ) n , [19]
ottenuto sostituendo S^2 =^ pˆ(^1 −pˆ) nella [5]: (^) n 1 nn 1 S.
n i 1 i^2 2 − = −
σ =
7.1- Distribuzione campionaria della frequenza
Nel caso di campionamento bernoulliano, la distribuzione campionaria della fre- quenza è binomiale con μ(^ pˆ^ )=p e varianza il cui stimatore corretto si ottiene sosti-
tuendo la [ 19 ]: σˆ 2 =pˆ(n^1 −− 1 pˆ)n nella [1]: σ^2 (X^ )=σ^2 /n , ossia
n 1 ˆ (^2) (pˆ) pˆ(^1 pˆ) − σ =^ −. [ 20 ]
Una determinazione della v.c. [ 20 ] sarà indicata con σˆ 2 (f). Al crescere di n , la distribuzione binomiale tende a quella normale (in pratica ciò si verifica quando n>30), per cui la variabile (p ˆ− p)/σˆ(pˆ), tende ad una normale
standardizzata quando n è elevato.
0
0,
0,
0,
0,
0 1 2 3 4 5
x
p(x) (^) p=0,
p=0,
n=
0
0,
0,
0,
0,
0 2 4 6 8 10 12 14 16 18 20
x
p(x) n=
n=
n=
p=0,
8.- La stima puntuale della frequenza p nel caso di campionamento senza ripe- tizione (o in blocco)
Nel caso di frequenze relative, il miglior stimatore pˆ^ di p è la funzione che for-
nisce "la frequenza relativa campionaria", e il miglior stimatore di σ^2 è
N
n 1 ˆ 2 pˆ(^1 pˆ)n ⋅ − − σ = − [ 21 ]
(ottenuto sostituendo S 2 = pˆ( 1 −pˆ)nella [ 6 ]).
Ovviamente la [ 21 ]: σˆ 2 =pˆ(^1 n−−p 1 ˆ)n ⋅NN−^1 coincide, per N→ ∞ , con la
[ 19 ]: σˆ 2 =pˆ(n^1 −− 1 pˆ)n, che in pratica si usa ogni qualvolta N è molto elevato.
8.1- Distribuzione campionaria della frequenza
In questo caso la distribuzione campionaria di pˆ è ipergeometrica con E( pˆ )=p e
con varianza il cui stimatore corretto si ottiene sostituendo S 2 = pˆ( 1 −pˆ) nella
[ 16 ]: ˆ (X) nS 1 NNn
σ = − ⋅ , cioè
N n n 1 ˆ 2 (pˆ) pˆ(^1 pˆ) ⋅ − − σ = −. [ 22 ] Naturalmente, se N è molto grande, la distribuzione ipergeometrica è molto pros- sima alla binomiale (in pratica basta che sia n/N<1/10); inoltre, se n>30, la distribu- zione della v.c. (p ˆ− p) σˆ(pˆ), con σˆ (pˆ) fornito dalla [ 22 ], è ben approssimata da una
normale standardizzata.
9.- Intervallo di confidenza per la frequenza
Se n≤30, si usa la Tav.3 dell'Appendice ove sono riportati gli estremi p 1 e p 2 dell’intervallo cercato, in corrispondenza di n∈{2,3,…,36}, x=0,1,…,n, α=0, ed α=0,01. Se invece n>30, è noto che la grandezza
ˆ(pˆ)
p f σ
si distribuisce in pratica come una normale standardizzata, per cui, procedendo in modo analogo a come è stato operato per la media, si ha
f − zα / 2 ⋅σˆ(pˆ)<p<f+zα/ 2 ⋅σˆ(pˆ). [23]
Esempio 1
Supponiamo che in un campione di 10 donne, scelte a caso da una popolazione molto numerosa di donne sposate in età di 18 anni ed oltre, 4 abbiano fatto ricorso ai
2
2 2
2 2
(xi x)^2 (n 1 )ˆ ns σ^ = σ = − σ σ
si distribuisce, al variare del campione di uguale numerosità, secondo la v.c. χ^ g^2 (leg-
gasi chi quadro ) con g=n−1 gradi di libertà (si noti che, essendo σ^2 costante, il solo
vincolo è Σ(^ x^ i −^ x)=0).
La funzione di densità di probabilità di χ^ g^2 è definita e continua nel 1° quadrante,
ha μ=g, σ^2 =2g ed assume forme diverse a seconda del valore di g; essa, inoltre, al crescere di g tende alla normalità. In Fig.IX/2 sono riportate alcune curve per diversi valori di g.
0
0,
0,
0,
0,
0,
0 1 2 3 4 5 6 7 8 9 10
g = 2 g = 6
g = 4
χg^2
p ( χg^2 )
α/2 χg 2
p ( χg^2 )
χg^2 ,α/
α/ χg^2 ,1−α/ Fig.IX/2 Fig.IX/ Se indichiamo (Fig.IX/3) con χ^ g,^2 α/2 e con χ^ g,^2 1 − α/ 2 i due valori soglia della v.c. χ (^) g^2 che fissano, rispettivamente, la coda destra e quella sinistra della distribuzione in
modo che esse delimitano superfici di misura α/2, cioè
P( χg^2 ≤ χ^ g,^2 1 −α / 2 )=α/2 e P( χg^2 ≥ χ^ g,^2 α /2)=α/2, si ha P( χ^2 g , 1 − α/ 2 <n^ s^2 σ^2 <χg^2 ,α/ 2 )=1−α. La precedente relazione pone, dunque, in evidenza che l’intervallo χ (^2) g , 1 − α/ 2 <n s^2 σ^2 <χ^2 g,α/ 2 [18]
contiene nell’interno il valore del rapporto n^ s^2 σ^2 con probabilità 1 −α.
Ricordando, dalla Matematica, che una diseguaglianza cambia verso (cioè da mi- nore diventa maggiore, o viceversa) se si considerano i reciproci dei termini della di- suguaglianza stessa (ad es., poiché 3>2 risulta 1/3<1/2), dalla [18] si ricava
2 (^2) g, / 2
ns
α χ − α
< σ < χ. Moltiplicando tutti i termini della precedente relazione per n·s^2 si deduce, infine, l’intervallo centrale ns ns g g
2 2 2
2 χ (^) ,α / 2 <^ σ^ <χ^2 , 1 −α/ 2 ,^ [19]
il quale contiene σ^2 nell’interno, con probabilità 1−α.
Nella Tav. 4 dell' Appendice sono riportati i valori soglia della v.c. χ^ g^2 ai vari li-
velli di significatività che interessano la ricerca sociale e per 1≤g≤120.
Al crescere di n , la distribuzione del χ (^2) g tende lentamente alla normalità. Si di-
mostra, invece, che la distribuzione di 2 χ (^2) g, al crescere di n , tende più rapidamente
alla normalità, con media μ = 2 g − 1 e varianza σ^2 =1. Per cui, per calcolare i valori
critici di χ (^) g^2 ai vari livelli, quando n>120, ci serviamo del fatto che la variabile
2 χ (^2) g − 2 g− 1 [20]
si distribuisce in pratica secondo una normale standardizzata, quindi, dato che, al va-
riare del campione di numerosità n, (^2) ns^2 σ si distribuisce secondo la v.c.^ χ^ g
2 /^2
2 −z (^) α / 2 < 2 nsσ − 2 (n− 1 )− 1 <zα
2 2 2 n− 2 − 1 −zα / 2 < 2 nsσ < 2 n− 3 +zα
2 / 2 2 2 n^3 z
2 n 3 z^2 ns
α − − α
< σ < − +
pertanto
2 2 2 / 2
2 2 n 3 z
2 ns 2 n 3 z
2 ns α − − α
<σ < − +
è l’intervallo di confidenza cercato.
(n 1 ) N
N n 2 s z
d 2 / 2 −
⋅ (^) α
nN 2 s dz N 2 s zd N n
2 / 2
2 / 2
⋅ (^) α α^ ,
⋅ (^) α 2 s zα^1 1 N d 2 s z n N d^2 / 2
2 / 2
Da cui
(d/ 2 ) s z
n (d/^2 ) s z 2 2 2 / 2
(^222) / 2 α
α
Se N è molto grande risulta s^ Nz ~ 0
(^22) / 2 ⋅ (^) α (^) − , per cui
(d/ 2 )
n s z 2
(^22) / 2 = ⋅ α^ +. [5]
Esempio Si supponga di voler stimare la spesa media giornaliera occorrente ad una fami- glia della Puglia con un errore massimo d/2=0,40 euro ed un livello α=0,01; da un’indagine pilota è noto, inoltre, che s=1,857 euro. Poiché N è grande, questa volta useremo la [5], cioè (^2 2) / 2 2 2 2 2 n s^ z^1 1,857^ 2,57583 1 144 (d / 2) 0, = ×^ α + = × + = (^).
Il valore di n trovato soddisfa l'ipotesi di approssimazione alla normale della di- stribuzione campionaria della media, perciò non si ricorre alla [6]. Da quanto detto appare evidente, poi, che si può trovare n senza conoscere il va- lore della media x : nel nostro caso non è necessario, quindi, conoscere il valore della spesa media.
In definitiva, per determinare la numerosità del campione si fissano: − il livello di significatività α (e, quindi, se la distribuzione campionaria è norma- le, zα/2); − lo scostamento massimo (pari a d/2); − lo scarto quadratico medio s del campione.
Per ognuno di questi punti il ricercatore deve scegliere la metodica più appropria- ta, in relazione alle caratteristiche del fenomeno oggetto di studio.
a) In riferimento al livello di significatività si può dire che il ricercatore deve fis- sare a priori il valore di α, cioè il rischio che è disposto a correre accettando il risulta- to campionario. In genere, nello studio dei fenomeni sociali, si fissa α = 0,05 oppure α = 0,01. Ribadiamo che il valore di α deve essere fissato prima, per non essere tenta- ti di adattare il valore di α ai dati, in modo da far prevalere la tesi che fa comodo di- mostrare.
b) In riferimento allo scostamento massimo, il ricercatore, al momento di fissare l'ampiezza del campione, deve programmare anche la precisione con cui vuol ottenere la media legata all'anzidetto campione: deve, cioè, programmare quanto deve essere lo scostamento massimo tra la media campionaria x e il vero valore μ che è, appunto, pari al semintervallo di confidenza d/2.
c) Il compito più difficile consiste, purtroppo, nel fissare il valore di s (non biso- gna dimenticare, infatti, che s è proprio lo scarto quadratico medio osservato nel campione). Per aggirare l'ostacolo ci possiamo servire dei risultati di studi precedenti, oppure si può decidere di compiere un'indagine pilota.
1.2- Calcolo per distribuzione campionaria della media non normale
Questa volta: x − ( 1 / α)⋅σˆ(X)<μ<x+( 1 / α)⋅σˆ(X), quindi
N
N n (n 1 ) (d/ 2 )^2 s^2 ⋅ − = (^) α − ,
α N( d/ 2 )^2 n−αN(d/ 2 )^2 =s^2 N−s^2 n, [ αN (d/ 2 )^2 +s^2 ]n=[α(d/ 2 )^2 +s^2 ]N, pertanto,
(d/ 2 ) s
n (d/^2 ) s 2 2
2 2 α +
= α +. [6]
Poiché se N è molto grande risulta sN^ ~ 0
2 − , la [6] diventa
1 (d/ 2 )
n s 2
2
α
(d/ 2 ) f(^1 f)z
n (d/^2 ) f(^1 f)z (^22) / 2
(^22) / 2 α
α
mentre, se N è molto grande, dalla [5] si ha
1 (d/ 2 )
n f(^1 f)z 2
(^2) / 2 = − α^ +. [9]
Se usando le formule precedenti si ricava, invece, un valore di n≤30 (per cui non può essere ritenuta valida l'ipotesi di approssimazione della binomiale alla normale), al-
lora porremo f(1−f) al posto di s^2 nella [6], cioè
(d/ 2 ) f(^1 f)
n (d/^2 ) f(^1 f) 2
2 α +^ −
= α + − , [10]
che, per N molto grande, diventa
n = (^) αf((d^1 /− 2 f)) 2 + 1. [11]
Dalle formule anzidette appare evidente che per calcolare n si deve: − fissare α; − fissare d/2, cioè lo scostamento massimo di f da p ; − assegnare il valore di f. Poiché non è possibile conoscere il valore di f prima di aver estratto il campione, allora, per essere sicuri di non prendere un campione che potrebbe fornire informa- zioni poco attendibili, ricaviamo n in modo che f(l−f) sia il massimo possibile, e ciò, com’è noto dalla Matematica (uguagliandone a zero la derivata prima), si ottiene quando f=0,5. Con tale assunzione, nel caso si presuma n>30, la [8] e la [9] diventano
(d/ 2 )^0 ,^25 z
n (d/^2 )^0 ,^25 z 2 2 / 2
(^22) / 2 α
α
(d/ 2 )
n 0 ,^25 z 2
(^2) / 2 = ⋅ α^ + ; [12]
se, invece, usando le [12] si ricava un valore di n≤30, allora, f(l−f)=0,25 si va a sosti- tuire nella [10] o nella [11]. Ossia
(d/ 2 )^0 ,^25
n (d/^2 )^0 ,^25 2
2 α +
= α + , 1 (d/ 2 )
n 0 ,^25 = (^) α 2 + , [13]
a seconda che il valore di N sia piccolo o molto grande. È ovvio che se si ha ragione di credere che f sia prossimo a 0 o a 1, l’ipotesi f=0, non è appropriata per la determinazione della numerosità del campione: in tal caso conviene prima effettuare un’indagine pilota per determinare f e poi, in base a quel valore di f , si calcola n. Naturalmente, se si ha a disposizione un’indagine precedente, ci si serve del valo- re di p (o di f ) determinato in quell’indagine.
I Esempio Si supponga di voler conoscere la percentuale di famiglie della provincia di Pa- lermo che occupano un'abitazione in proprietà, con un errore massimo del 3% ed al livello α=0,05, per vedere se tale percentuale si è modificata rispetto al 2001. Poiché al Censimento 2001, in provincia di Palermo, c'era il 63,3% di abitazioni occupate da famiglie proprietarie delle medesime, nel nostro caso possiamo assumere f=0,633.
Posto α=0,05 (per cui zα/2=1,95996) e d/2 = 0,03, dalla [9] si ricava n = [1,95996 2 · 0,633 · 0,367] / 0,03 2 +1 = 993. Cioè, dobbiamo intervistare 993 famiglie della provincia di Palermo per stimare la frequenza di quelle che abitano in abitazione in proprietà con un errore massimo del 3% e con probabilità del 95%.
II Esempio Si voglia stimare la percentuale di coppie di coniugi baresi che vanno insieme al cinema la domenica, con un errore massimo d/2=0,025 ed al livello α=0,05 (per cui z0,025=1,95996). Poiché non si hanno indagini precedenti, si assume che il prodotto f(1−f) sia massimo (in tal caso, come già detto, f=0,5).
Allora, per la [9], si ha n = [1,95996 2 · 0,5· 0,5]/0,025 2 +1 = 1537+1 = 1538. Bisogna, perciò, campionare 1538 coniugi per stimare la percentuale di essi che va assieme a cinema la domenica, con un errore massimo del 2,5% e con probabilità del 95%. Si noti che, in entrambi gli esempi, N è sufficientemente grande.
T
p(T)
O (^) C
H 0 vera H 1 vera
θ 0 θ 1
Fig. 3
2.- Errori che si possono commettere nella prova d’ipotesi
Quando si vuole provare un'ipotesi, si possono commettere due tipi di errori: − errore di 1 a^ specie: rifiutare H 0 quando è vera, ossia quando il valore empirico del test appartiene alla coda della sua distribuzione sotto l'ipotesi H 0 pur cadendo in TR; la probabilità di commettere un errore di 1a^ specie si indica con α =P( T∈TR H 0 ),
detta ampiezza (o livello di significatività ) del test ; − errore di 2 a^ specie: accettare H 0 quando è falsa, ossia quando il valore empirico del test cade nella zona di accettazione dell'ipotesi H 0 , pur appartenendo in realtà alla coda della distribuzione che caratterizza l'ipotesi H 1 ; la probabilità di commettere un errore di 2 a^ specie si indica con β =P (T ∈TA H 1 ), mentre 1−β è la potenza del test.
3.- Le fasi della verifica di ipotesi
a) stabilire H 0 e H 1 ; b) scegliere il test statistico ; c) individuare la distribuzione campionaria del test; d) fissare la zona di rifiuto di H 0 ; e) si decide di respingere H 0 quando: − il valore empirico t del test cade nella zona di rifiuto individuata dal valore soglia t (^) c ; − cioè quando la probabilità dell’insieme dei valori del test più “estremi” di quel- lo empirico (detta P-value ) è minore di α.
β α
t (^) C
4.- Esempi di verifica di ipotesi
n
p( 1 p) Z f p −
(che al denominatore non prevede la stima dell’errore standard di pˆ
n 1
pˆ( 1 pˆ) n ˆ(pˆ) ˆ^2 − σ = σ = − ma proprio il suo valore “vero” (^) n
p( 1 p) p) n (ˆ
σ = σ =
postulato sotto l’ipotesi di base che la frequenza nella popolazione sia proprio pari a p). Nel nostro caso, se è vera H 0 , il valore empirico del test è quindi z = pf( 1 −−pp**)/n = 0 ,^05 ,^6 ⋅ 0 −, 50 /,^5100 =^0 ,^10 ,⋅ 2510 = 01 , 5 = 2 ;
c) distribuzione campionaria. I valori soglia del test Z sono riportati nella Tav. dell’ Appendice , ai livelli che in- teressano;
O
p(z)
zc z
α = 0,
d) zona di rifiuto. Dal grafico della distribuzione normale standardizzata si ricava che α è il valore
0,