Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Intervalli di confidenza per la media di una popolazione, Appunti di Statistica Economica

Come costruire intervalli di confidenza per la media di una popolazione quantitativa, con varianza nota o incognita. Vengono presentati i risultati teorici e le formule per il calcolo degli intervalli, con esempi numerici e istruzioni per la determinazione della dimensione campionaria ottimale.

Tipologia: Appunti

2018/2019

Caricato il 15/04/2019

marta-petruzzelli-1
marta-petruzzelli-1 🇮🇹

2 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Intervalli di confidenza
Francesco Lagona
1 Introduzione
Questa dispensa riassume schematicamente i principali risultati discussi a
lezione sulla costruzione di intervalli di confidenza.
2 Intervalli di confidenza per la media di una
popolazione
Supponiamo di aver a che fare con una variabile statistica quantitativa Xche
si distribuisce nella popolazione di riferimento con media µe varianza σ2. Si
desidera costruire un intervallo di confidenza per µal livello 1 αsulla base
di un campione casuale semplice
(x1. . . xn)
di dimensione n.`
E necessario distinguere il caso in cui la varianza della
popolazione σ2`e nota da quello in cui tale varianza `e incognita.
2.1 Varianza nota
Si tratta di un caso abbastanza raro nelle applicazioni, ma in certe circostanze
`e possibile che indagini precedenti a quella effettuata rendano possibile una
conoscenza esatta della varianza σ2. La costruzione di un intervallo di confi-
denza per µsotto l’assunzione di varianza nota, si basa sul seguente risultato:
la media campionaria
¯x=1
n
n
X
i=1
xi
`e una variabile aleatoria che si distribuisce approssimativamente come una
normale
N(µ, σ2
n)
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Intervalli di confidenza per la media di una popolazione e più Appunti in PDF di Statistica Economica solo su Docsity!

Intervalli di confidenza

Francesco Lagona

1 Introduzione

Questa dispensa riassume schematicamente i principali risultati discussi a lezione sulla costruzione di intervalli di confidenza.

2 Intervalli di confidenza per la media di una

popolazione

Supponiamo di aver a che fare con una variabile statistica quantitativa X che si distribuisce nella popolazione di riferimento con media μ e varianza σ^2. Si desidera costruire un intervallo di confidenza per μ al livello 1 − α sulla base di un campione casuale semplice

(x 1... xn)

di dimensione n. E necessario distinguere il caso in cui la varianza dellapopolazione σ^2e nota da quello in cui tale varianza `e incognita.

2.1 Varianza nota

Si tratta di un caso abbastanza raro nelle applicazioni, ma in certe circostanze `e possibile che indagini precedenti a quella effettuata rendano possibile una conoscenza esatta della varianza σ^2. La costruzione di un intervallo di confi- denza per μ sotto l’assunzione di varianza nota, si basa sul seguente risultato: la media campionaria

¯x =

n

∑^ n

i=

xi

`e una variabile aleatoria che si distribuisce approssimativamente come una normale

N (μ,

σ^2 n

e tale approssimazione migliora all’aumentare della dimensione campionaria n. Se dunque usiamo la media campionaria come stimatore della media della popolazione, il fatto che la sua distribuzione sia centrata sul valore vero del parametro μ indica che ¯x e uno stimatore non distorto. Inoltre, il rapporto σ^2 n misura la precisione dello stimatore: come ci si potrebbe aspettare, tale precisionee tanto minore quanto piu elevatae la varianza σ^2 e tanto maggiore quanto piu elevatae la dimensione campionaria n. In taluni casi, la variabile X si distribuisce esattamente come una nor- male: solo in queste circostanze ¯x si distribuisce esattamente secondo la normale N (μ, σ^2 /n). In tutti gli altri casi, la distribuzione della media coampionaria e solo approssimata e dunque i risultati che seguono valgo- no in modo approssimato, sebbenee importante ricordare che la qualit`a dell’approssimazione migliora al crescere di n. Dal fatto che ¯x ∼ N (μ, σ^2 /n), si deduce che x¯ − μ √ σ^2 n

∼ N (0, 1).

Per ogni valore di probabilit`a 1 − α, possiamo allora scrivere che

P (−zα/ 2 ≤

x¯ − μ √ σ^2 n

≤ zα/ 2 ) = 1 − α

dove zα/ 2 e il quantile della normale di ordine 1 − α/2, ovvero il punto che si lascia a sinistra un’area sotto la normale pari a 1 − α/2. Ad esempio, se 1 − α = 0.95, allora zα/ 2 = 1.96 (il calcolo del quantile zα/ 2 corrispondente al livello di probabilita 1 − α va compiuto usando le opportune tavole o un PC). Un intervallo di confidenza pu`o allora essere costruito sulla base della seguente catena di uguaglianze:

1 − α = P (−zα/ 2 ≤

x¯ − μ √ σ^2 n

≤ zα/ 2 ) = 1 − α

= P (−zα/ 2

σ^2 n

≤ x¯ − μ ≤ zα/ 2

σ^2 n

= P (−x¯ − zα/ 2

σ^2 n

≤ −μ ≤ −x¯ + zα/ 2

σ^2 n

= P (¯x − zα/ 2

σ^2 n

≤ μ ≤ x¯ + zα/ 2

σ^2 n

per cui il raggio dell’intervallo `e dato da

z 0. 025

e l’intervallo `e dunque dato da

(9. 766 − 2. 479 , 9 .766 + 2.479) = (7. 287 , 12 .245).

2.2 Varianza incognita

Nella maggior parte delle applicazioni, e difficile avere una stima attendibile della varianza σ^2 della popolazione e si preferisce in genere stimarla sulla base del campione estratto. Una stima non distorta della varianza della popolazionee data da

σˆ^2 =

n − 1

∑^ n

i=

(xi − x¯)^2 =

n n − 1

n

∑^ n

i=

x^2 i − x¯^2

che non e altro che la varianza campionaria corretta dal fattore (^) nn− 1. Tale correzione dipende dal fatto che, per piccoli campioni, la varianza campionar- iae uno stimatore distorto della varianza della popolazione, cio`e la sua dis- tribuzione campionaria non ha come valore atteso il valore vero del parametro σ^2. Per grandi campioni, il fattore di correzione (^) n−n 1 ≈ 1 e dunque l’u- so della varianza campionaria fornisce stime attendibili della varianza della popolazione. In questo caso, per costruire un intervallo di confidenza della media μ della popolazione, occorre utilizzare il fatto che la distribuzione della variabile aleatoria x¯ − μ √ σˆ^2 n

segue approssimativamente quella di una t di Student con n − 1 gradi di liberta, dove ne la dimensione del campione estratto e che tale approssi- mazione migliora all’aumentare di n. La distribuzione t di Student e molto simile a quella di una normale standardizzata. Essae infatti centrata sullo 0 e simmetrica rispetto ad esso. Si differenzia dalla distribuzione normale in quanto ha delle code “piu” pesanti, ovvero valori lontani dallo 0 hanno una probabilita di essere estratti piu elevata di quella che avrebbero avuto se fossero stati estratti da una normale standardizzata. Tali differenze si atten- uano sempre piu all’aumentare della numerosita campionaria, per cui quando ne molto elevato, si pu`o utilizzare la distribuzione normale standardizzata in luogo della t.

La costruzione dell’intervallo di confidenza segue linee analoghe a quelle mostrate nella sezione precedente. Si indichi pertanto con tn− 1 ,α/ 2 il quantile di ordine 1 − α/2 di una t di Student di n − 1 gradi di liberta, ovvero il punto che si lascia a sinistra un’area sotto la t pari a 1 − α/2. Ad esempio, se 1 − α = 0.95 e il campione ha numerosita n = 10, allora tn− 1 ,α/ 2 = 2. 262 (il calcolo del quantile tn− 1 ,α/ 2 corrispondente al livello di probabilita 1 − α va compiuto usando le opportune tavole o un PC). Un intervallo di confidenza puo allora essere costruito sulla base della seguente catena di uguaglianze:

1 − α = P (−tn− 1 ,α/ 2 ≤

x¯ − μ √ ˆσ^2 n

≤ tn− 1 ,α/ 2 ) = 1 − α

= P (−tn− 1 ,α/ 2

σˆ^2 n

≤ x¯ − μ ≤ tn− 1 ,α/ 2

ˆσ^2 n

= P (−x¯ − tn− 1 ,α/ 2

ˆσ^2 n

≤ −μ ≤ −x¯ + tn− 1 ,α/ 2

σˆ^2 n

= P (¯x − tn− 1 ,α/ 2

σˆ^2 n

≤ μ ≤ x¯ + tn− 1 ,α/ 2

σˆ^2 n

In altre parole, e approssimativamente uguale a 1 − α la probabilita che i due estremi dell’intervallo ( x ¯ − tn− 1 ,α/ 2

ˆσ^2 n

, x¯ + tn− 1 ,α/ 2

σˆ^2 n

contengano il valore “vero” della media μ della popolazione. Considerando l’esempio precedente sulle durate delle telefonate, un in- tervallo di confidenza costruito stimando la varianza della popolazione al livello 1 − α = 0.95 pu`o essere costruito stimando dapprima la varianza della popolazione

σˆ^2 =

n n − 1

( (^) n ∑

i=

(xi − ¯x)^2

calcolando poi l’errore standard della stima √ ˆσ^2 n

e infine il raggio dell’intervallo dato da:

t 9 , 0. 025

ˆσ^2 n

In altre parole, per ottenere un intervallo di confidenza di un’ampiezza non superiore a d∗, `e necessario considerare il minimo intero n che verifica la (1), ovvero

n∗^ =

2 σzα/ 2 d∗

dove con dxe indichiamo il piu’ piccolo intero superiore ad x (ad esem- pio: d 4. 1 e = 5; la funzione dxe si chiama ’cielo’ di x). Come applicazione numerica, consideriamo il seguente esempio. Esempio Da informazioni derivanti da una precedente analisi, si sa che la durata delle telefonate che arrivano ad un call center si distribuisce in modo approssimativamente normale con media μ incognita e varianza σ^2 = 16 minuti quadrati. Si desidera calcolare la dimensione campionaria minima necessaria per costruire un intervallo della durata media delle chiamate al livello 95% che abbia un’ampiezza massima di 5 minuti. La dimensione richiesta e’ data da

n∗^ =

2 σzα/ 2 d∗

= d 9. 83 e = 10

Si osservi che la conoscenza di σ^2 e cruciale per la determinazione della dimensione campionaria ottimale. Quando la varianza della popolazionee incognita, si usa considerare un valore cautelativo per σ^2 , ponendo σ pari a 4 o 6 volte il campo di variazione atteso per la variabile di interesse. Ad esempio, se pensiamo che le telefonate al call center possano durare da un minimo di 0 minuti ad un massimo di 30 minuti, utilizzeremo σ^2 = (4 ∗ 30)^2 o σ^2 = (6 ∗ 30)^2. Naturalmente ci si aspetta che la varianza abbia valori piu bassi, mae meglio utilizzare una dimensione campionaria troppo elevata che una troppo bassa.

4 Intervalli di confidenza per proporzioni

Supponiamo di aver a che fare con una variabile statistica dicotomica X che si distribuisce nella popolazione di riferimento secondo la tabella di frequenze relative

x 0 1 − θ 1 θ 1

dove θ indica la proporzione (incognita) degli individui che posseggono la modalit`a 1. Si desidera costruire un intervallo di confidenza per θ al livello 1 − α sulla base di un campione casuale semplice

(x 1... xn)

di dimensione n. Come vedremo, non e qui necessario distinguere casi diversi, poiche la precisione dello stimatore che utilizzeremo per θ dipende comunque dal valore incognito assunto da θ. La costruzione dell’intervallo si basa sul seguente risultato: la frequenza relativa campionaria

θ^ ˆ = ¯x =^1 n

∑^ n

i=

xi

`e una variabile aleatoria che si distribuisce approssimativamente come una normale

N (θ,

θˆ(1 − θˆ) n

e tale approssimazione migliora all’aumentare della dimensione campionaria n. La frequenza relativa campionaria θˆ non e altro che una media cam- pionaria, essendo le osservazioni dicotomiche. Continueremo tuttavia a far riferimento a θˆ invece che a ¯x per tenere ben distinto il caso di stima di medie da quello di stima di proporzioni (per la verita non si tratta di casi distinti, ma queste sono questioni da risolvere in eventuali futuri corsi di statistica successivi a questo). Se dunque usiamo θˆ come stimatore di θ, il fatto che la sua distribuzione sia centrata sul valore vero del parametro θ indica che θˆ `e uno stimatore

non distorto. Inoltre, il rapporto

ˆθ(1−θˆ) n e una stima della precisione dello stimatore: come sempre, tale precisionee tanto maggiore quanto piu elevatae la dimensione campionaria n. C’e tuttavia un’importante differenza da osservare qui rispetto a quanto discusso nel caso della stima di medie. Mentre infatti la precisione dello stimatore di una media non dipende dal valore vero assunto dal parametro di interesse, qui la precisione varia al variare del valore assunto da θ. In particolare, ci si accorge che la funzione θ(1 − θ)e una funzione concava che vale 0 quando θ = 0, 1 e raggiunge il suo massimo quando θ = 0.5. Se ne deduce che a parita di dimensione campionaria e di livello di copertura otteremo intervalli di confidenza generalmente piu stretti quando θ si trova vicino agli estremi 0 e 1, e pi`u larghi quando θ si trova in un intorno di 0.5.

Naturalmente, in questo caso la precisione dello stimatore (e quindi l’ampiez- za dell’intervallo) dipende dal valore assunto da θ, che e incognito. E dunque necessario usare come misura cautelativa la quantit`a

θ(1 − θ) = 0. 52 = 0. 25

e procedere sulle linee della sezione dedicata alla dimensione campionaria nel calcolo di intervalli di confidenza per medie. Piu precisamente, per ogni dimensione n l’ampiezza dell’intervallo (ad un prefissato livello 1 − α) raggiungera al pi`u il valore

d = 2zα/ 2

n

Se dunque desideriamo calcolare la dimensione minima richiesta per avere un intervallo per θ che non superi l’ampiezza massima d∗, dobbiamo cercare il minimo valore di n tale che

2 zα/ 2

n

≤ d∗

ovvero tale che

4 z^2 α/ 2

n

≤ (d∗)^2

o ancora tale che

n ≥ 4 z α/^22

(d∗)^2

(zα/ 2 d∗

La dimensione ottimale n∗^ `e dunque data da

n∗^ = d

zα/ 2 (d∗

e

Secondo tale formula, se ad esempio programmiamo un’indagine d’opin- ione per stimare la proporzione degli elettori di un collegio elettorale che voteranno per un certo partito politico e desideriamo un intervallo di confi- denza che al livello 1 − α = 0.95 non superi l’ampiezza di 2 punti percentuali (d∗^ = 0.02), avremo bisogno di un minimo di

n∗^ = d

e = 9604

elettori da intervistare.

6 Inferenza sulla differenza tra medie

Supponiamo di aver a che fare con due campioni di osservazioni, diciamo (x 1 ...xn 1 ) e (y 1 ...yn 2 ), estratti indipendentemente da due popolazioni dove la stessa variabile quantitativa si distribuisce rispettivamente con medie μ 1 e μ 2 e con varianze σ^21 e σ^22. Indichiamo inoltre, rispettivamente, con ¯x e ¯y le due medie aritmetiche campionarie. Si desidera costruire un intervallo di confidenza al livello 1 − α per la differenza tra le medie μ 1 − μ 2. Si pensi all’interpretazione di un intervallo di confidenza di questo tipo: se esso contiene lo 0, diremo che le due medie non sono significativamente diverse tra loro al livello 1 − α, poich`e non possiamo escludere che il valore vero del parametro d’interesse sia pari a μ 1 − μ 2 = 0. Per la costruzione dell’intervallo in questione (e sotto l’ipotesi che i due campioni siano stati estratti indipendentemente l’uno dall’altro) possiamo distinguere i seguenti casi:

varianze uguali e note: (σ^21 = σ 22 = σ^2 ) in questo caso, la variabile aleato- ria (¯x − y¯) − (μ 1 − μ 2 ) √ σ^2 n 1 +^

σ^2 n 2 si distribuisce come una normale standardizzata e l’intervallo di confi- denza desiderato e’ dato da:

x¯ − y¯ ± zα/ 2 σ

n 1

n 2

varianze diverse e note: (σ^21 6 = σ 22 ) in questo caso la variabile aleatoria

x¯ − y¯ − (μ 1 − μ 2 ) √ σ^21 n 1 +^

σ^22 n 2 si distribuisce come una normale standardizzata e l’intervallo di confi- denza desiderato e’ dato da:

x¯ − y¯ ± zα/ 2

σ 12 n 1

σ^22 n 2

varianze uguali ma incognite: (σ^21 = σ 22 = σ^2 ) in questo caso, una stima della varianza comune σ^2 e’ data dalla cosiddetta varianza campionaria pooled σ ˆ^2 =

∑n 1 i=1(xi^ −^ x¯)

(^2) + ∑n 2 i=1(yi^ −^ ¯y)

2 n 1 + n 2 − 2

universita hanno conseguito in media un voto medio al secondo anno inferiore a quello conseguito dagli iscritti alla seconda universita. Si os- servi che, sulla base di tale intervallo che non comprende lo zero, si puo affermare che i voti medi nelle due universita sono significativamente differenti, al livello 1 − α.

Varianze note e diverse Se invece gli uffici statistici delle due universit`a hanno pubblicato recentemente (rispetto alla nostra analisi) delle tabelle da cui si evince che le due popolazioni hanno varianze diverse, possi- amo decidere di considerare queste come note. Supponendo di avere σ^21 = 16 e σ 22 = 4, l’intervallo di confidenza desiderato sara’ dato da

x¯ − y¯ ± zα/ 2

σ^21 n 1

σ 22 n 2

n 1

n 2

ovvero (− 2. 88 , − 0 .52).

varianze uguali ma incognite Se non reputiamo attendibili le statistiche del MIUR ne quelle dei due atenei, non ci rimane altra scelta che as- sumere incognite le due varianze. Se ci sono informazioni sufficienti per assumere che tuttavia i voti hanno la stessa dispersione nelle due universita, possiamo usare la formula contenente la varianza pooled per l’intervallo desiderato, se conosciamo le deviazioni standard dei due campioni. Supponendo che le seguenti siano le devazioni standard dei due campioni: √√ √ √ 1 n 1

∑^ n^1

i=

(xi − x¯)^2 =

n 2

∑^ n^2

i=

(yi − y¯)^2

allora la varianza pooled e’ data da

σˆ^2 =

e possiamo calcolare gli estremi dell’intervallo desiderato come segue:

x¯−y¯±tn 1 +n 2 − 2 ,α/ 2 ˆσ

n 1

n 2

dato che, essendo n 1 + n 2 − 2 > 100, si ha tn 1 +n 2 − 2 ,α/ 2 ≈ zα/ 2

7 Differenza tra due proporzioni

Supponiamo di aver a che fare con due campioni indipendenti, diciamo (x 1 ...xn 1 ) e (y 1 ...yn 2 ), estratti rispettivamente da due popolazioni in cui una stessa variabile dicotomica si distribuisce secondo le due tabelle:

pop.ne 1 x 0 1 − θ 1 1 θ 1 1

pop.ne 2 y 0 1 − θ 2 1 θ 2 1

Indichiamo inoltre, rispettivamente, con θˆ 1 = ¯x e θˆ 2 = ¯y le due frequenze relative campionarie. Si desidera costruire un intervallo di confidenza al livello 1 − α per la differenza tra le proporzioni θ 1 − θ 2. L’importanza di un intervallo del genere e chiara: se l’intervallo contiene lo 0, diremo che le due proporzioni non sono significativamente diverse, al livello 1 − α. Il risultato che usiamo per costruire il nostro intervalloe il seguente. Sia

θˆ = n^1

ˆθ 1 + n 2 θˆ 2 n 1 + n 2

allora θˆ 1 − ˆθ 2 √ θ^ ˆ(1 − θˆ)

1 n 1 +^

1 n 2

) ∼^ N^ (0,^ 1).

Si tratta al solito di un risultato approssimato, ma la qualita di tale risultatoe sempre migliore man mano che crescono le dimensioni campionarie n 1 e n 2. Da tale risultato, si deduce che un intervallo di confidenza per la differenza tra due proporzioni al livello 1 − α `e dato dagli estremi

θˆ 1 − θˆ 2 − zα/ 2

θ^ ˆ(1 − θˆ)

n 1

n 2

θ^ ˆ 1 − θˆ 2 + zα/ 2

θ^ ˆ(1 − θˆ)

n 1

n 2

Supponiamo ad esempio di aver effettuato due sondaggi di opinione in date successive chiedendo agli intervistati la preferenza per un determinato partito politico. In particolare, supponiamo di aver intervistato 100 elettori durante il primo sondaggio e 200 elettori durante il secondo sondaggio, otte- nendo una percentuale di elettori favorevoli del 40% nel primo e del 42% nel