Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Intervalli di confidenza per le stime statistiche: media e frequenza, Dispense di Statistica

Come calcolare intervalli di confidenza per le stime statistiche di media e frequenza in campionamenti senza ripetizioni e in blocco. Viene presentata la distribuzione campionaria e il calcolo della varianza campionaria. Inoltre, vengono discusse le distribuzioni Student e ipergeometrica e come approssimare queste ultime con una normale standardizzata. Il documento si applica a grandezze che riguardano fenomeni socio-economici.

Tipologia: Dispense

2020/2021

Caricato il 24/03/2021

aleecrazy5
aleecrazy5 🇮🇹

4.7

(14)

60 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
86
Se con lo stimatore Θ
ˆ si effettuano numerose stime di θ con vari campioni casua-
li di numerosità n, si osserva, però, che alcune di esse sono più frequenti di altre (per
cui è legittimo ritenere che alcuni risultati siano più probabili di altri): nasce così l'i-
dea di dividere la distribuzione campionaria in due sottoinsiemi, l'uno dove è più pro-
babile che si trovi θ e l'altro dove lo è meno: da tutto ciò appare evidente che invece
di stimare un solo valore di θ, si può stimare l'intervallo casuale (detto intervallo di
confidenza o di fiducia) che contiene θ all'interno con una probabilità prefissata 1−α,
denominata livello di confidenza o di fiducia. Ovviamente, α (detto livello di signifi-
catività) fornisce la misura del rischio che si corre nel confidare che l'intervallo ca-
suale stimato contenga θ, rischio connesso al fatto che l'indagine è campionaria.
In pratica, la realizzazione di numerosi campioni per individuare i risultati più
probabili (e, quindi, l'intervallo di confidenza) non avviene mai, perché, in genere, si
dispone di un solo campione. Si procede, perciò, indirettamente cercando due valori
casuali ˆ1
<
θ<
)
ˆ2
θ, potenzialmente assumibili dallo stimatore
Θ
ˆ al variare del campio-
ne casuale, per i quali Pr )
ˆˆ
(21 θ<θ<θ =1−α, facendo anche in modo che l’ampiezza
dell’intervallo sia minima, perché in tal caso, a parità di α, la stima ottenuta è più
precisa. Se la distribuzione campionaria dello stimatore è abbastanza simmetrica,
l’intervallo migliore è quello centrato, cioè quello per cui
2/)
ˆ
Pr()
ˆ
Pr( 21 α=θθ=θθ .
O
p(θ)
θ
^
^
1-α
1
ˆ
ϑ
2
ˆ
ϑ
O
p(θ)
θ
^
^
1-α
1
ˆ
ϑ
2
ˆ
ϑ
Fig.2/A Fig.2/B
Si fa osservare, però, che per aumentare il livello di fiducia non si può far tendere
α a 0. Infatti, aumentando 1−α cresce anche l'ampiezza dell'intervallo diventando pra-
ticamente insignificante: ad es., dire che il peso dei nati vivi in Italia è compreso fra
100g e 10kg con probabilità del 99,99999% non ha alcun significato ai fini della co-
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica Intervalli di confidenza per le stime statistiche: media e frequenza e più Dispense in PDF di Statistica solo su Docsity!

Se con lo stimatore Θˆ^ si effettuano numerose stime di θ con vari campioni casua- li di numerosità n , si osserva, però, che alcune di esse sono più frequenti di altre (per cui è legittimo ritenere che alcuni risultati siano più probabili di altri): nasce così l'i- dea di dividere la distribuzione campionaria in due sottoinsiemi, l'uno dove è più pro- babile che si trovi θ e l'altro dove lo è meno: da tutto ciò appare evidente che invece di stimare un solo valore di θ, si può stimare l'intervallo casuale (detto intervallo di confidenza o di fiducia) che contiene θ all'interno con una probabilità prefissata 1−α, denominata livello di confidenza o di fiducia. Ovviamente, α (detto livello di signifi- catività ) fornisce la misura del rischio che si corre nel confidare che l'intervallo ca- suale stimato contenga θ, rischio connesso al fatto che l'indagine è campionaria. In pratica, la realizzazione di numerosi campioni per individuare i risultati più probabili (e, quindi, l'intervallo di confidenza) non avviene mai, perché, in genere, si dispone di un solo campione. Si procede, perciò, indirettamente cercando due valori casuali θˆ^1 << θˆ^2 ), potenzialmente assumibili dallo stimatore Θˆ^ al variare del campio- ne casuale, per i quali Pr ( θˆ 1 <θ<θˆ 2 )=1−α, facendo anche in modo che l’ampiezza dell’intervallo sia minima, perché in tal caso, a parità di α, la stima ottenuta è più precisa. Se la distribuzione campionaria dello stimatore è abbastanza simmetrica, l’intervallo migliore è quello centrato, cioè quello per cui Pr( θ ≤θˆ 1 )=Pr(θ≥θˆ 2 )=α/ (^2).

O

p(θ)

θ^ ^

^

1- α

ϑˆ 1 ϑˆ 2 O

p(θ)

θ^ ^

^

1- α

ϑˆ 1 ϑˆ 2 Fig.2/A Fig.2/B Si fa osservare, però, che per aumentare il livello di fiducia non si può far tendere α a 0. Infatti, aumentando 1−α cresce anche l'ampiezza dell'intervallo diventando pra- ticamente insignificante: ad es., dire che il peso dei nati vivi in Italia è compreso fra 100g e 10kg con probabilità del 99,99999% non ha alcun significato ai fini della co-

noscenza del fenomeno: è evidente, dunque, che, a parità di α, più piccolo è l'inter- vallo e più precisa è la stima effettuata. Per intervalli di confidenza intorno a grandezze che riguardano fenomeni socio- economici, generalmente si assume α = 0 , 05 (cioè 5%) o α = 0 , 01 (cioè 1%).

4.- Intervallo di confidenza per la media di una popolazione normale

Se la popolazione da cui è estratto il campione è normale, è noto che la v.c. T x ˆ (X) =^ μ^ − σ ,^ [8]

al variare del campione nell’universo dei campioni, si distribuisce come una T (^) g di Student con g=n− 1 gradi di libertà. Allora, fissato α, se indichiamo con: t (^) g;α/2 il valore di Tg per il quale Pr(T≥t (^) g;α/2 )=α/2 e, a causa della simmetria della cur- va, con −t (^) g;α/2 il valore di Tg per cui Pr(T≤−tg;α/2 )=α/2, il problema della determina- zione dell’intervallo di confidenza si riduce a trovare nella Tav. dell’Appendice il va- lore di tg;α/2. Infatti, l’intervallo che contiene nel suo interno il valore della variabile fornita dalla [8], con probabilità 1−α, è

− t (^) g; α / 2 <μσˆ(−Xx)<tg;α/ 2. [9]

Moltiplicando, poi, per σˆ( X)tutti i membri della [9], si ha − t (^) g; α / 2 ⋅σˆ(X)<μ−x<tg;α/ 2 ⋅σˆ(X). Aggiungendo x a tutti i membri della precedente relazione, si ottiene infine x − tg; α / 2 ⋅σˆ(X)<μ<x+tg;α/ 2 ⋅σˆ(X). [10] La [10] fornisce l’intervallo di confidenza cercato. Naturalmente, se il campione è sufficientemente ampio (n≥50), allora la distribu- zione della v.c. Tg è ben approssimata da quella della v.c. Z:

-4 -2 0 2 4

t

p(t) n = 2n = 3n = 6

n = ∞

Per cui, indicando con zα il valore di Z tale che P(Z≥zα)=α, la [10] diventa x − zα / 2 ⋅σˆ(X)<μ<x+zα/ 2 ⋅σˆ(X). [11]

Poiché n è piccolo e non è nota la distribuzione della spesa media nell’universo (e, quindi, non è nota la distribuzione campionaria della media), dopo aver calcolato

σˆ( X) con la [ 6 ]: σˆ^2 (X)=S^2 /(n− 1 )ed aver posto 1 / α^ =^1 /^0 ,^05 =^20 , useremo

la [ 12 ]. Ossia

€(100 - 20 10 /× 20) < μ< €(100 + 20 10 /× 20),

cioè l’intervallo cercato è: € 90 < μ < € 110. Se, invece, la popolazione fosse stata normale, le medie campionarie si sarebbero distribuite secondo una Tg di Student; per cui, essendo t20;0,025 =2,08596, per la [10] l’intervallo di confidenza sarebbe stato:

€(100−2,08596·10/ 20 ) < μ < €(100+2,08596·10/ 20 ) € 95,334 < μ < € 104,666. Come si vede, questo intervallo è meno ampio (e, quindi, la stima di μ è più pre- cisa) di quello che si ottiene in assenza di normalità della popolazione.

6.- Le stime puntuali di μ e di σ^2 nel caso di campionamento senza ripeti- zione (o in blocco) Se il campionamento è senza ripetizione (o in blocco) si è già visto (paragra- fo 1.2) che X è uno stimatore corretto di μ; il migliore stimatore di σ^2 è invece

(^2) S 2 N

N 1

n 1 ˆ n ⋅ − ⋅ σ = −. [ 14 ] Per verificare se la [ 14 ] è veramente uno stimatore corretto di σ^2 , calcoliamo le medie delle stime delle varianze (corrette e non) riportate nella Tav.6.

Tav.6 - Universo dei campioni, di numerosità 3, estratti in blocco dalla popolazione {20, 21, 22, 23, 24}. Medie campionarie e stime, non corretta (s^2 ) e corret- ta ( (^) σˆ 2 =s^2 nn− 1 NN−^1 ), della varianza. Campioni (^) x s^2 σˆ 2 Campioni (^) x s^2 σˆ^2 {20,21,22} 21,0 0,7 0,8 {20,23,24} 22,3 2,9 3, {20,21,23} 21,3 1,6 1,9 {21,22,23} 22,0 0,7 0, {20,21,24} 21,7 2,9 3,5 {21,22,24} 22,3 1,6 1, {20,22,23} 21,7 1,6 1,9 {21,23,24} 22,7 1,6 1, {20,22,24} 22,0 2,7 3,2 {22,23,24} 23,0 0,7 0,

Si ha E(S 2 ) = 5/3 ≠ σ^2 : perciò S 2 non è uno stimatore corretto di σ^2 ;

mentre E( σˆ^2 ) = 2 = σ^2 : perciò la [ 14 ] è uno stimatore corretto di σ^2.

Per N→ ∞ , la [ 14 ]: (^2) S^2 N

N 1

n 1 ˆ n ⋅ − ⋅ σ = − coincide con la

[ 9 ]: (^) n 1 nn 1 S

(X X)

n i 1 i^2 2 − = −

σ =

, che si usa in pratica quando N è molto elevato.

6.1- Distribuzione campionaria della media

Nel caso di campionamento senza ripetizione (e in blocco) abbiamo già visto che E( X)= μ; lo stimatore della varianza campionaria della media si ottiene, invece, so-

stituendo la [ 14 ]: (^2) S^2 N

N 1

n 1 ˆ n ⋅ − ⋅ σ = − nella [ 2 ]: σ^ (X)=σn ⎜⎝⎛NN−− 1 n⎟⎠⎞ 2 2 , cioè

N

N n n 1

ˆ^2 (X) S^2 ⋅ −

σ = −. [ 16 ] Quanto alla forma della distribuzione campionaria della media, quando la popo- lazione è normale, il rapporto

( X− μ) σˆ(X), [ 17 ]

con σˆ( X) ricavato dalla [ 16 ], al variare del campione nell’universo campionario, si

distribuisce secondo una “Tg di Student” con g=n−1 gradi di libertà. Si ricordi che se la popolazione è normale ed n ≥ 50, oppure se la popolazione non è normale ma n ≥ 100, la distribuzione della [ 17 ] è ben approssimata da una nor- male standardizzata.

Esempio Nell’a.a. 1994-95 gli iscritti al corso di laurea in Economia e Commercio della 1 a Facoltà di Economia dell’Università di Bari sono stati N=9.371. Nel Settembre 1995 sono stati estratti senza ripetizione n=40 studenti i quali hanno avuto un voto medio in Statistica I pari a x =26 trentesimi, con uno scarto quadratico medio s=4 trentesimi. Qual è la stima intervallare del voto medio in tale materia di tutti gli studenti del sud- detto corso di laurea, al livello 1-α=0,95, supponendo normale l’universo dei voti? Stimato l’errore standard della stima tramite la [16], cioè

σˆ 2 =pˆ(n^1 −^ − 1 pˆ) n , [19]

ottenuto sostituendo S^2 =^ pˆ(^1 −pˆ) nella [5]: (^) n 1 nn 1 S.

(X X)

n i 1 i^2 2 − = −

σ =

7.1- Distribuzione campionaria della frequenza

Nel caso di campionamento bernoulliano, la distribuzione campionaria della fre- quenza è binomiale con μ(^ pˆ^ )=p e varianza il cui stimatore corretto si ottiene sosti-

tuendo la [ 19 ]: σˆ 2 =pˆ(n^1 −− 1 pˆ)n nella [1]: σ^2 (X^ )=σ^2 /n , ossia

n 1 ˆ (^2) (pˆ) pˆ(^1 pˆ) − σ =^ −. [ 20 ]

Una determinazione della v.c. [ 20 ] sarà indicata con σˆ 2 (f). Al crescere di n , la distribuzione binomiale tende a quella normale (in pratica ciò si verifica quando n>30), per cui la variabile (p ˆ− p)/σˆ(pˆ), tende ad una normale

standardizzata quando n è elevato.

0

0,

0,

0,

0,

0 1 2 3 4 5

x

p(x) (^) p=0,

p=0,

n=

0

0,

0,

0,

0,

0 2 4 6 8 10 12 14 16 18 20

x

p(x) n=

n=

n=

p=0,

8.- La stima puntuale della frequenza p nel caso di campionamento senza ripe- tizione (o in blocco)

Nel caso di frequenze relative, il miglior stimatore pˆ^ di p è la funzione che for-

nisce "la frequenza relativa campionaria", e il miglior stimatore di σ^2 è

N

N 1

n 1 ˆ 2 pˆ(^1 pˆ)n ⋅ − − σ = − [ 21 ]

(ottenuto sostituendo S 2 = pˆ( 1 −pˆ)nella [ 6 ]).

Ovviamente la [ 21 ]: σˆ 2 =pˆ(^1 n−−p 1 ˆ)n ⋅NN−^1 coincide, per N→ ∞ , con la

[ 19 ]: σˆ 2 =pˆ(n^1 −− 1 pˆ)n, che in pratica si usa ogni qualvolta N è molto elevato.

8.1- Distribuzione campionaria della frequenza

In questo caso la distribuzione campionaria di pˆ è ipergeometrica con E( pˆ )=p e

con varianza il cui stimatore corretto si ottiene sostituendo S 2 = pˆ( 1 −pˆ) nella

[ 16 ]: ˆ (X) nS 1 NNn

σ = − ⋅ , cioè

N

N n n 1 ˆ 2 (pˆ) pˆ(^1 pˆ) ⋅ − − σ = −. [ 22 ] Naturalmente, se N è molto grande, la distribuzione ipergeometrica è molto pros- sima alla binomiale (in pratica basta che sia n/N<1/10); inoltre, se n>30, la distribu- zione della v.c. (p ˆ− p) σˆ(pˆ), con σˆ (pˆ) fornito dalla [ 22 ], è ben approssimata da una

normale standardizzata.

9.- Intervallo di confidenza per la frequenza

Se n≤30, si usa la Tav.3 dell'Appendice ove sono riportati gli estremi p 1 e p 2 dell’intervallo cercato, in corrispondenza di n∈{2,3,…,36}, x=0,1,…,n, α=0, ed α=0,01. Se invece n>30, è noto che la grandezza

ˆ(pˆ)

p f σ

si distribuisce in pratica come una normale standardizzata, per cui, procedendo in modo analogo a come è stato operato per la media, si ha

f − zα / 2 ⋅σˆ(pˆ)<p<f+zα/ 2 ⋅σˆ(pˆ). [23]

Esempio 1

Supponiamo che in un campione di 10 donne, scelte a caso da una popolazione molto numerosa di donne sposate in età di 18 anni ed oltre, 4 abbiano fatto ricorso ai

2

2 2

2 2

(xi x)^2 (n 1 )ˆ ns σ^ = σ = − σ σ

∑ −^ [17]

si distribuisce, al variare del campione di uguale numerosità, secondo la v.c. χ^ g^2 (leg-

gasi chi quadro ) con g=n−1 gradi di libertà (si noti che, essendo σ^2 costante, il solo

vincolo è Σ(^ x^ i −^ x)=0).

La funzione di densità di probabilità di χ^ g^2 è definita e continua nel 1° quadrante,

ha μ=g, σ^2 =2g ed assume forme diverse a seconda del valore di g; essa, inoltre, al crescere di g tende alla normalità. In Fig.IX/2 sono riportate alcune curve per diversi valori di g.

0

0,

0,

0,

0,

0,

0 1 2 3 4 5 6 7 8 9 10

g = 2 g = 6

g = 4

χg^2

p ( χg^2 )

α/2 χg 2

p ( χg^2 )

χg^2 ,α/

α/ χg^2 ,1−α/ Fig.IX/2 Fig.IX/ Se indichiamo (Fig.IX/3) con χ^ g,^2 α/2 e con χ^ g,^2 1 − α/ 2 i due valori soglia della v.c. χ (^) g^2 che fissano, rispettivamente, la coda destra e quella sinistra della distribuzione in

modo che esse delimitano superfici di misura α/2, cioè

P( χg^2 ≤ χ^ g,^2 1 −α / 2 )=α/2 e P( χg^2 ≥ χ^ g,^2 α /2)=α/2, si ha P( χ^2 g , 1 − α/ 2 <n^ s^2 σ^2 <χg^2 ,α/ 2 )=1−α. La precedente relazione pone, dunque, in evidenza che l’intervallo χ (^2) g , 1 − α/ 2 <n s^2 σ^2 <χ^2 g,α/ 2 [18]

contiene nell’interno il valore del rapporto n^ s^2 σ^2 con probabilità 1 −α.

Ricordando, dalla Matematica, che una diseguaglianza cambia verso (cioè da mi- nore diventa maggiore, o viceversa) se si considerano i reciproci dei termini della di- suguaglianza stessa (ad es., poiché 3>2 risulta 1/3<1/2), dalla [18] si ricava

( 2 ) 2 g, 1 / 2

2 (^2) g, / 2

ns

α χ − α

< σ < χ. Moltiplicando tutti i termini della precedente relazione per n·s^2 si deduce, infine, l’intervallo centrale ns ns g g

2 2 2

2 χ (^) ,α / 2 <^ σ^ <χ^2 , 1 −α/ 2 ,^ [19]

il quale contiene σ^2 nell’interno, con probabilità 1−α.

Nella Tav. 4 dell' Appendice sono riportati i valori soglia della v.c. χ^ g^2 ai vari li-

velli di significatività che interessano la ricerca sociale e per 1≤g≤120.

Al crescere di n , la distribuzione del χ (^2) g tende lentamente alla normalità. Si di-

mostra, invece, che la distribuzione di 2 χ (^2) g, al crescere di n , tende più rapidamente

alla normalità, con media μ = 2 g − 1 e varianza σ^2 =1. Per cui, per calcolare i valori

critici di χ (^) g^2 ai vari livelli, quando n>120, ci serviamo del fatto che la variabile

2 χ (^2) g − 2 g− 1 [20]

si distribuisce in pratica secondo una normale standardizzata, quindi, dato che, al va-

riare del campione di numerosità n, (^2) ns^2 σ si distribuisce secondo la v.c.^ χ^ g

2 /^2

2 −z (^) α / 2 < 2 nsσ − 2 (n− 1 )− 1 <zα

( ) 2 ( / 2 )^2

2 2 2 n− 2 − 1 −zα / 2 < 2 nsσ < 2 n− 3 +zα

( ) 2 ( / 2 )^2

2 / 2 2 2 n^3 z

2 n 3 z^2 ns

α − − α

< σ < − +

pertanto

( ) ( / 2 )^2

2 2 2 / 2

2 2 n 3 z

2 ns 2 n 3 z

2 ns α − − α

<σ < − +

è l’intervallo di confidenza cercato.

(n 1 ) N

N n 2 s z

d 2 / 2 −

⋅ (^) α

nN 2 s dz N 2 s zd N n

2 / 2

2 / 2

⎟⎟ =^ −

⋅ (^) α α^ ,

⋅ (^) α 2 s zα^1 1 N d 2 s z n N d^2 / 2

2 / 2

Da cui

N

(d/ 2 ) s z

n (d/^2 ) s z 2 2 2 / 2

(^222) / 2 α

α

= + ⋅. [4]

Se N è molto grande risulta s^ Nz ~ 0

(^22) / 2 ⋅ (^) α (^) − , per cui

(d/ 2 )

n s z 2

(^22) / 2 = ⋅ α^ +. [5]

Esempio Si supponga di voler stimare la spesa media giornaliera occorrente ad una fami- glia della Puglia con un errore massimo d/2=0,40 euro ed un livello α=0,01; da un’indagine pilota è noto, inoltre, che s=1,857 euro. Poiché N è grande, questa volta useremo la [5], cioè (^2 2) / 2 2 2 2 2 n s^ z^1 1,857^ 2,57583 1 144 (d / 2) 0, = ×^ α + = × + = (^).

Il valore di n trovato soddisfa l'ipotesi di approssimazione alla normale della di- stribuzione campionaria della media, perciò non si ricorre alla [6]. Da quanto detto appare evidente, poi, che si può trovare n senza conoscere il va- lore della media x : nel nostro caso non è necessario, quindi, conoscere il valore della spesa media.

In definitiva, per determinare la numerosità del campione si fissano: − il livello di significatività α (e, quindi, se la distribuzione campionaria è norma- le, zα/2); − lo scostamento massimo (pari a d/2); − lo scarto quadratico medio s del campione.

Per ognuno di questi punti il ricercatore deve scegliere la metodica più appropria- ta, in relazione alle caratteristiche del fenomeno oggetto di studio.

a) In riferimento al livello di significatività si può dire che il ricercatore deve fis- sare a priori il valore di α, cioè il rischio che è disposto a correre accettando il risulta- to campionario. In genere, nello studio dei fenomeni sociali, si fissa α = 0,05 oppure α = 0,01. Ribadiamo che il valore di α deve essere fissato prima, per non essere tenta- ti di adattare il valore di α ai dati, in modo da far prevalere la tesi che fa comodo di- mostrare.

b) In riferimento allo scostamento massimo, il ricercatore, al momento di fissare l'ampiezza del campione, deve programmare anche la precisione con cui vuol ottenere la media legata all'anzidetto campione: deve, cioè, programmare quanto deve essere lo scostamento massimo tra la media campionaria x e il vero valore μ che è, appunto, pari al semintervallo di confidenza d/2.

c) Il compito più difficile consiste, purtroppo, nel fissare il valore di s (non biso- gna dimenticare, infatti, che s è proprio lo scarto quadratico medio osservato nel campione). Per aggirare l'ostacolo ci possiamo servire dei risultati di studi precedenti, oppure si può decidere di compiere un'indagine pilota.

1.2- Calcolo per distribuzione campionaria della media non normale

Questa volta: x − ( 1 / α)⋅σˆ(X)<μ<x+( 1 / α)⋅σˆ(X), quindi

N

N n (n 1 ) (d/ 2 )^2 s^2 ⋅ − = (^) α − ,

α N( d/ 2 )^2 n−αN(d/ 2 )^2 =s^2 N−s^2 n, [ αN (d/ 2 )^2 +s^2 ]n=[α(d/ 2 )^2 +s^2 ]N, pertanto,

N

(d/ 2 ) s

n (d/^2 ) s 2 2

2 2 α +

= α +. [6]

Poiché se N è molto grande risulta sN^ ~ 0

2 − , la [6] diventa

1 (d/ 2 )

n s 2

2

α

=. [7]

N

(d/ 2 ) f(^1 f)z

n (d/^2 ) f(^1 f)z (^22) / 2

(^22) / 2 α

α

= + − , [8]

mentre, se N è molto grande, dalla [5] si ha

1 (d/ 2 )

n f(^1 f)z 2

(^2) / 2 = − α^ +. [9]

Se usando le formule precedenti si ricava, invece, un valore di n≤30 (per cui non può essere ritenuta valida l'ipotesi di approssimazione della binomiale alla normale), al-

lora porremo f(1−f) al posto di s^2 nella [6], cioè

N

(d/ 2 ) f(^1 f)

n (d/^2 ) f(^1 f) 2

2 α +^ −

= α + − , [10]

che, per N molto grande, diventa

n = (^) αf((d^1 /− 2 f)) 2 + 1. [11]

Dalle formule anzidette appare evidente che per calcolare n si deve: − fissare α; − fissare d/2, cioè lo scostamento massimo di f da p ; − assegnare il valore di f. Poiché non è possibile conoscere il valore di f prima di aver estratto il campione, allora, per essere sicuri di non prendere un campione che potrebbe fornire informa- zioni poco attendibili, ricaviamo n in modo che f(l−f) sia il massimo possibile, e ciò, com’è noto dalla Matematica (uguagliandone a zero la derivata prima), si ottiene quando f=0,5. Con tale assunzione, nel caso si presuma n>30, la [8] e la [9] diventano

N

(d/ 2 )^0 ,^25 z

n (d/^2 )^0 ,^25 z 2 2 / 2

(^22) / 2 α

α

(d/ 2 )

n 0 ,^25 z 2

(^2) / 2 = ⋅ α^ + ; [12]

se, invece, usando le [12] si ricava un valore di n≤30, allora, f(l−f)=0,25 si va a sosti- tuire nella [10] o nella [11]. Ossia

N

(d/ 2 )^0 ,^25

n (d/^2 )^0 ,^25 2

2 α +

= α + , 1 (d/ 2 )

n 0 ,^25 = (^) α 2 + , [13]

a seconda che il valore di N sia piccolo o molto grande. È ovvio che se si ha ragione di credere che f sia prossimo a 0 o a 1, l’ipotesi f=0, non è appropriata per la determinazione della numerosità del campione: in tal caso conviene prima effettuare un’indagine pilota per determinare f e poi, in base a quel valore di f , si calcola n. Naturalmente, se si ha a disposizione un’indagine precedente, ci si serve del valo- re di p (o di f ) determinato in quell’indagine.

I Esempio Si supponga di voler conoscere la percentuale di famiglie della provincia di Pa- lermo che occupano un'abitazione in proprietà, con un errore massimo del 3% ed al livello α=0,05, per vedere se tale percentuale si è modificata rispetto al 2001. Poiché al Censimento 2001, in provincia di Palermo, c'era il 63,3% di abitazioni occupate da famiglie proprietarie delle medesime, nel nostro caso possiamo assumere f=0,633.

Posto α=0,05 (per cui zα/2=1,95996) e d/2 = 0,03, dalla [9] si ricava n = [1,95996 2 · 0,633 · 0,367] / 0,03 2 +1 = 993. Cioè, dobbiamo intervistare 993 famiglie della provincia di Palermo per stimare la frequenza di quelle che abitano in abitazione in proprietà con un errore massimo del 3% e con probabilità del 95%.

II Esempio Si voglia stimare la percentuale di coppie di coniugi baresi che vanno insieme al cinema la domenica, con un errore massimo d/2=0,025 ed al livello α=0,05 (per cui z0,025=1,95996). Poiché non si hanno indagini precedenti, si assume che il prodotto f(1−f) sia massimo (in tal caso, come già detto, f=0,5).

Allora, per la [9], si ha n = [1,95996 2 · 0,5· 0,5]/0,025 2 +1 = 1537+1 = 1538. Bisogna, perciò, campionare 1538 coniugi per stimare la percentuale di essi che va assieme a cinema la domenica, con un errore massimo del 2,5% e con probabilità del 95%. Si noti che, in entrambi gli esempi, N è sufficientemente grande.

T

p(T)

O (^) C

H 0 vera H 1 vera

θ 0 θ 1

Fig. 3

2.- Errori che si possono commettere nella prova d’ipotesi

Quando si vuole provare un'ipotesi, si possono commettere due tipi di errori: − errore di 1 a^ specie: rifiutare H 0 quando è vera, ossia quando il valore empirico del test appartiene alla coda della sua distribuzione sotto l'ipotesi H 0 pur cadendo in TR; la probabilità di commettere un errore di 1a^ specie si indica con α =P( T∈TR H 0 ),

detta ampiezza (o livello di significatività ) del test ; − errore di 2 a^ specie: accettare H 0 quando è falsa, ossia quando il valore empirico del test cade nella zona di accettazione dell'ipotesi H 0 , pur appartenendo in realtà alla coda della distribuzione che caratterizza l'ipotesi H 1 ; la probabilità di commettere un errore di 2 a^ specie si indica con β =P (T ∈TA H 1 ), mentre 1−β è la potenza del test.

3.- Le fasi della verifica di ipotesi

a) stabilire H 0 e H 1 ; b) scegliere il test statistico ; c) individuare la distribuzione campionaria del test; d) fissare la zona di rifiuto di H 0 ; e) si decide di respingere H 0 quando: − il valore empirico t del test cade nella zona di rifiuto individuata dal valore soglia t (^) c ; − cioè quando la probabilità dell’insieme dei valori del test più “estremi” di quel- lo empirico (detta P-value ) è minore di α.

β α

TA TR

t (^) C

4.- Esempi di verifica di ipotesi

  1. I maschi e le femmine che sostengono gli esami di 3 a^ media nella città di Roma so- no all’incirca uguali. In un campione casuale semplice di 100 respinti si sono tro- vati 60 maschi. Fissato α =0,05, verificare l’ipotesi H 0 che fra i bocciati i maschi siano uguali alle femmine contro l’ipotesi H 1 che siano maggiori. Se indichiamo con p la frequenza dei maschi bocciati nell’universo dei bocciati e con p=0,5 quella ipotizzata, i dati del problema sono: n=100, p=0,5, f=0,6, α=0,05. Le fasi della verifica sono: a) H 0 : p=p* H 1 : p>p* ; b) scelta e calcolo del test. La distribuzione campionaria della frequenza è binomiale, ma poiché nel caso n> tale distribuzione è quasi normale, useremo il test Z

n

p( 1 p) Z f p −

(che al denominatore non prevede la stima dell’errore standard di pˆ

n 1

pˆ( 1 pˆ) n ˆ(pˆ) ˆ^2 − σ = σ = − ma proprio il suo valore “vero” (^) n

p( 1 p) p) n (ˆ

σ = σ =

postulato sotto l’ipotesi di base che la frequenza nella popolazione sia proprio pari a p). Nel nostro caso, se è vera H 0 , il valore empirico del test è quindi z = pf( 1 −−pp**)/n = 0 ,^05 ,^6 ⋅ 0 −, 50 /,^5100 =^0 ,^10 ,⋅ 2510 = 01 , 5 = 2 ;

c) distribuzione campionaria. I valori soglia del test Z sono riportati nella Tav. dell’ Appendice , ai livelli che in- teressano;

O

p(z)

zc z

α = 0,

d) zona di rifiuto. Dal grafico della distribuzione normale standardizzata si ricava che α è il valore

Z

P(Z)

0,