Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Calcoli statistici: differenza tra medie campionarie di due popolazioni normali, Sintesi del corso di Statistica Descrittiva

Come calcolare la differenza tra due medie campionarie di due popolazioni normali e come calcolare l'intervallo di confidenza per questa differenza. Viene inoltre spiegato come verificare l'ipotesi nulla di uguaglianza delle medie e come calcolare la statistica test per questa ipotesi.

Tipologia: Sintesi del corso

2019/2020

Caricato il 06/09/2020

.19012
.19012 🇮🇹

5 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 21
CONFRONTI TRA DUE POPOLAZIONI
In questo capitolo ci occuperemo del confronto fra due popolazioni. Tutto quello di cui parleremo sarà
riferito non più all’inferenza su una popolazione dalla quale estraiamo un campione ma, bensì, quello che
faremo sarà partire da due popolazioni, prendere un campione da una e un campione dall’altra e cercare di
confrontarli tra di loro.
INFERENZA SULLE MEDIE DI DUE POPOLAZIONI NORMALI
Se sono in una distribuzione normale la distribuzione campionaria della media è una normale con media pari
alla media della popolazione e varianza pari alla varianza della popolazione fratto N.
Mentre, se noi consideriamo due medie di questo tipo avremo la differenza tra due variabili casuali
distribuite normalmente: la prima con media µ1 e varianza σ21/N e la seconda con media µN e la seconda con media µ2 e varianza σ22/N e la seconda con media µN.
Se faccio la differenza tra X medio 1 e X medio 2, ossia tra le due medie campionarie, avrò che il valore
atteso della differenza è uguale alla differenza dei valori attesi.
E(
X1
-
X
2
) = µ1 - µ2
Se invece calcolo la varianza della differenza, ossia la varianza di X medio 1 e X medio 2, questa sarà data
dalla somma delle due varianze.
σ
2
X
1
X
2
=
(
X
1
X
2
)
−(μ
1
μ
2
)
σ
X
1
X
2
La differenza tra le due medie campionarie è una variabile casuale normale, se le due popolazioni di
partenza sono normali, con media µ1 - µ2 e varianza σ21/N e la seconda con media µn1 + σ22/N e la seconda con media µn2: ciò vuol dire che posso fare una
standardizzazione come la formula:
ZX1X2
=
(
X1X2
)
−(μ1μ2)
σX1X2
Questa variabile casuale ha una distribuzione normale standardizzata, ossia una variabile meno il suo valore
atteso fratto la deviazione standard. Alla fine di questa procedura, quello che otteniamo è una variabile
casuale Z distribuita come una normale standardizzata. Affinché questo sia vero devono valore le suddette
condizioni: le due popolazioni devono essere normali, la prima con media µ1 e varianza σ21 e la seconda con
media µ2 e varianza σ22.
(Insisto su questo concetto: Se le due popolazioni sono distribuite normalmente allora X medio 1 e X medio
2 è una combinazione lineare di due variabili causali normali indipendenti e i due coefficienti che generano
la combinazione lineare sono rispettivamente 1 e -1).
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Calcoli statistici: differenza tra medie campionarie di due popolazioni normali e più Sintesi del corso in PDF di Statistica Descrittiva solo su Docsity!

CAPITOLO 21

CONFRONTI TRA DUE POPOLAZIONI

In questo capitolo ci occuperemo del confronto fra due popolazioni. Tutto quello di cui parleremo sarà

riferito non più all’inferenza su una popolazione dalla quale estraiamo un campione ma, bensì, quello che

faremo sarà partire da due popolazioni, prendere un campione da una e un campione dall’altra e cercare di

confrontarli tra di loro.

INFERENZA SULLE MEDIE DI DUE POPOLAZIONI NORMALI

Se sono in una distribuzione normale la distribuzione campionaria della media è una normale con media pari

alla media della popolazione e varianza pari alla varianza della popolazione fratto N.

Mentre, se noi consideriamo due medie di questo tipo avremo la differenza tra due variabili casuali

distribuite normalmente: la prima con media μ 1

e varianza σ

2

1

/N e la seconda con media μN e la seconda con media μ 2

e varianza σ

2

2

/N e la seconda con media μN.

Se faccio la differenza tra X medio 1 e X medio 2, ossia tra le due medie campionarie, avrò che il valore

atteso della differenza è uguale alla differenza dei valori attesi.

E(

X

1

X

2

) = μ

1

  • μ

2

Se invece calcolo la varianza della differenza, ossia la varianza di X medio 1 e X medio 2, questa sarà data

dalla somma delle due varianze.

σ

2

X

1

X

2

X

1

− X

2

−( μ

1

μ

2

σ

X 1

X 2

La differenza tra le due medie campionarie è una variabile casuale normale, se le due popolazioni di

partenza sono normali, con media μ 1 -

μ 2

e varianza σ

2

1

/N e la seconda con media μn1 + σ

2

2

/N e la seconda con media μn2: ciò vuol dire che posso fare una

standardizzazione come la formula:

Z

X

1

X

2

X

1

− X

2

−( μ

1

μ

2

σ

X 1

X 2

Questa variabile casuale ha una distribuzione normale standardizzata, ossia una variabile meno il suo valore

atteso fratto la deviazione standard. Alla fine di questa procedura, quello che otteniamo è una variabile

casuale Z distribuita come una normale standardizzata. Affinché questo sia vero devono valore le suddette

condizioni: le due popolazioni devono essere normali, la prima con media μ 1

e varianza σ

2

1

e la seconda con

media μ 2

e varianza σ

2

2

(Insisto su questo concetto: Se le due popolazioni sono distribuite normalmente allora X medio 1 e X medio

2 è una combinazione lineare di due variabili causali normali indipendenti e i due coefficienti che generano

la combinazione lineare sono rispettivamente 1 e -1).

Q uesti 3 grafici sono dei grafici esemplificativi tra i quali si vede che se X1 medio ha distribuzione così e

X2 medio ha distribuzione così, la loro differenza ha una distribuzione ugualmente normale, ma ha una

varianza maggiore (per questo motivo è più larga).

INTERVALLI DI CONFIDENZA

Per la costruzione degli intervalli di confidenza utilizziamo come stimatore la differenza tra le due medie

campionarie, cioè X1 medio – X2 medio, e siccome abbiamo detto che questa quantità ha una distribuzione

normale standardizzata posso affermare che questa quantità è compresa tra il quantile di livello alfa mezzi e

il quantile di livello 1 – alfa mezzi, con probabilità pari ad 1 meno alfa

P¿ ¿ 1 - ( alfa )

Invertendo questa disuguaglianza, cioè facendo in modo che all’interno della disuguaglianza compaia solo

μ1 - μ2, ottengo quello che possiamo osservare nella formula

P¿ = 1 - ∝ ¿)

La differenza tra le due medie è compresa tra questi due estremi con probabilità pari ad 1 meno alfa. Come

sono fatti i due estremi? L’estremo positivo ha la differenza delle due medie + una quantità, l’estremo

negativo ha la differenza delle due medie campionarie – la stessa quantità.

Infine, quando effettivamente osservo un campione ottengo gli estremi degli intervalli di confidenza che

sono dati dalle formule

l

1

=¿ x

1

x

2

z

1 −

α

2

σ

X

1

X

2

l

2

=¿ x

1

x

2

z

1 −

α

2

σ

X

1

X

2

Sono sostanzialmente la stessa cosa salvo che la media campionaria è sostituita dai valori della media

campionaria.

Esempio 1:

Ci sono due campioni. L’ampiezza è più o meno simile: n1 = 29 unità, n2=28 unità.

Abbiamo calcolato le medie campionarie che sono risultate pari a 1,54 e 1,19.

questa tabella contiene l’ipotesi nulla, le tre ipotesi alternative, la statistica test e la zona di rifiuto. Le

regioni di rifiuto corrispondono alle tre ipotesi alternative.

IPOTESI ALTERNATIVA UNIDIREZIONALE DESTRA (la prima riga nella tabella):

la media della prima popolazione è maggiore della media della seconda. Se questo è vero allora la media

campionaria del campione estratto dalla prima popolazione sarà più verosimilmente maggiore della media

campionaria del secondo campione. Questa statistica avrà valore grande, motivo per cui la regione di rifiuto

sarà nella coda destra ossia sarà data da quei valori maggiori del quantile di livello 1 – alfa.

Ipotesi alternativa unidirezionale sinistra (la seconda riga nella tabella):

la media della prima popolazione è minore della media della seconda. Se questo è vero allora la media

campionaria del campione estratto dalla prima popolazione sarà minore della media campionaria del

secondo campione. Questa statistica avrà valore piccolo, motivo per cui rifiuterà l’ipotesi nulla quando il

valore della statistica test sarà inferiore del quantile di livello alfa della normale standardizzata.

Ipotesi alternativa bidirezionale (la terza riga nella tabella):

se sotto l’ipotesi alternativa i valori delle due medie sono diversi tra di loro, cioè π 1

può essere

indifferentemente maggiore o minore di π 2

, la regione di rifiuto è costruita nelle due code della normale

standardizzata. Avremo valori più piccoli di Z con alfa mezzi e più grandi di Z con 1 – alfa mezzi. Essi sono

i valori che costituiscono la regione di rifiuto.

Esempio 2:

Vengono utilizzati gli stessi dati utilizzati nel primo esempio salvo che nel primo ci si è calcolati l’intervallo di

confidenza, in questo esempio viene effettuata la verifica di ipotesi. Si verifichi l’ipotesi che i due tipi di cibo abbiano lo

stesso contenuto medio di energia metabolizzabile contro l’alternativa che il cibo A abbia un contenuto medio superiore. Si

ponga  = 0,05.

Ipotesi nulla: π 1

= π 2

 contenuto medio del primo cibo = contenuto medio del secondo

Ipotesi alternativa: π 1

π 2

 ipotesi alternativa unidirezionale destra.

La statistica test è data dalla differenza delle due medie fratto la deviazione standard e quindi avremo che sarà data da

1,54 – 1,19/N e la seconda con media μradice quadrata di 0,0062 = 4,445.

Ipotesi alternativa unidirezionale destra  livello di significatività 5%

4,445 lo confronto con Z con 1 – alfa ossia quantile 95% che vale 1,645.

Il valore della statistica test è superiore del quantile e vuol dire che mi trovo nella coda destra della regione di rifiuto e

quindi questo fa si che possa affermare che il valore assunto dalla statistica test appartiene alla zona di rifiuto e

l’ipotesi nulla viene rifiutata.

Esempio 3:

Possiamo effettuare il test della verifica delle ipotesi oltre che confrontando il valore della statistica test con il

quantile, calcolando il livello di significatività osservato. Esso si definisce come la probabilità di osservare il valore

della statistica test più estremo di quello che abbiamo effettivamente osservato. Nell’esempio precedente il valore

osservato è 4,445, per calcolare il livello di significatività osservato bisogna calcolare la probabilità che una normale

standardizzata sia maggiore di 4,445.

In generale, se l’ipotesi alternativa è unidirezionale destra, per calcolare alfa (oss) bisogna calcolare la probabilità che

la statistica test sia maggiore di quella osservata sotto l’ipotesi nulla. Rifiuto l’ipotesi nulla quando il livello di

significatività osservato è molto piccolo.

Riprendendo l’esempio: il valore della statistica test è 4,445. Per calcolare alfa (oss) devo calcolare la probabilità che

Z sia maggiore di 4,445. Perché Z? perché Z è la distribuzione sotto l’ipotesi nulla quindi condizionatamente ha delta

maggiore di 0. Tale probabilità è 0,0000044. È un numero molto piccolo e quindi questo valore mi conferma il fatto

che devo rifiutare l’ipotesi nulla in favore dell’ipotesi alternativa unidirezionale destra.

PICCOLI CAMPIONI

Quanto assunto precedentemente è basato sull’assunzione che le varianze siano numeri noti. Ora,

assumiamo che le due popolazioni hanno la stessa varianza ma incognita.

Se supponiamo che le varianze sono uguali, calcolo una stima della varianza comune.

La calcolo facendo le due varianze campionarie: S 1

2

e S 2

2

S

c

2

è la varianza comune.

S

c

2

S

1

2

( n

1

− 1 ) + S

2

2

( n

2

n

1

  • n

2

Dopo di che, calcolo la statistica campionaria

T

X

1

X

2

X

1

− X

2

−( μ

1

μ

2

S

c

n

1

n

2

che è data dalla differenza tra le due medie meno la differenza tra le medie delle popolazioni diviso la

definizione standard campionaria comune per la radice quadrata di quello che c’è scritto. Questa statistica

campionaria ha distribuzione T di Student con n 1

  • n 2

-2 gradi di libertà.

Questa statistica mi permette di calcolare l’intervallo di confidenza nel caso in cui ci sono due varianze

uguali ma incognite.

INTERVALLO DI CONFIDENZA

Dato che la statistica campionaria ha distribuzione T di Student con n 1

  • n 2

-2 gradi di libertà, posso dire che

questa quantità è compresa tra i due quantili della T di Student con probabilità pari a 1 – alfa.

Nella formula

P¿

( alfa )

a destra ho il quantile di livello 1 – alfa mezzi della T di Student con n 1

  • n 2

-2 gradi di libertà, a sinistra ho

lo stesso quantile cambiato di segno (ricorda che la T di Student è una distribuzione simmetrica intorno allo

zero come la normale standardizzata). Posso liberare questa diseguaglianza dal denominatore per ottenere gli

estremi di intervallo di confidenza che possiamo vedere nella formula

l

1

t

1 −

α

2

S

c

n

1

n

2

l

2

t

1 −

α

2

S

c

n

1

n

2

Esempio 4:

Si determini l’intervallo di confidenza al 99% per la differenza tra le medie delle due popolazioni.

Prima cosa che calcolo è la varianza complessiva: per farlo devo fare la media delle due varianze campionarie 

131,65.

Secondo passaggio calcolo gli estremi dell’intervallo di confidenza.

L’intervallo di confidenza è completamente negativo.

Esempio 5: verifica di ipotesi

Con gli stessi dati dell’Esempio 4, si stabilisca se l’aumento medio del peso dei ratti trattati con l’ormone è

significativamente superiore a quello dei ratti non trattati. Si ponga  = 0,01.

Sotto l’ipotesi nulla la statistica test ha una distribuzione campionaria T di Student. La regione di rifiuto sarà data da

quei valori della statistica maggiore del quantile 1 meno alfa della T di Student.

Effettuiamo la verifica di ipotesi data da delta = 0 come ipotesi nulla e delta < 0 come ipotesi alternativa.

La zona di rifiuto è per quei valori di T inferiori al quantile di livello alfa della T di Student con 28 gradi di

libertà. Questo quantile è uguale a -2,467.

La statistica test è -3,771. Questo valore lo confronto con -2,467, e dato che -3,771 è minore di -2,467 per

cui si trova nella regione di rifiuto e rifiuto l’ipotesi nulla.

Il sistema di ipotesi non cambia in quanto abbiamo ipotesi nulla  π 1

=π 2

contro le tre ipotesi alternative che

rispettivamente sono: unidirezionale sinistra, unidirezionale destra e bidirezionale. La statistica test è data

dalla differenza tra le medie campionarie diviso la deviazione standard di quella differenza. Le tre regioni di

rifiuto sono nella coda sinistra, destra e nelle due code destra e sinistra della normale standardizzata.

Nel caso in cui l’ipotesi alternativa è unidirezionale destra: determino il quantile di livello alfa, se il valore

della statistica test è più a destra (è più estremo) allora rifiuterò l’ipotesi nulla. Se è a sinistra non la rifiuterò.

Esempio 6:

Il campione di coloro che hanno consumato pesce ha una media inferiore rispetto a quelli che non hanno consumato

pesce. Bisogna determinare l’intervallo di confidenza.

Alfa mezzi è uguale a 0.05. Z con 1 meno alfa mezzi è 1,645.

l1 e l2 sono i due estremi dell’intervallo di confidenza tra le medie. I risultati mi permettono di dire che la differenza

tra le medie del colesterolo è positiva, quindi l’intervallo di confidenza è sempre positivo.

Esempio 7:

Con gli stessi dati dell’Esempio 6, si stabilisca se il livello medio del colesterolo nei consumatori di pesce è

significativamente inferiore rispetto a quello dei non consumatori. Si ponga  = 0,05.

Vogliamo verificare l’ipotesi nulla (che le due medie sono uguali) contro l’ipotesi alternativa unidirezionale destra.

Avremo  = 1 − 2 = 0 contro  = 1 −  2  0.

La statistica test è data dalla differenza delle due medie campionarie diviso la deviazione standard.

La statistica campionaria, appena la calcolo, la devo confrontare con l’ipotesi alternativa unidirezionale destra. Devo

calcolare il quantile di livello alfa che in questo caso è 1,645.

La statistica test equivale a 8,32. Un valore molto elevato rispetto a quello del quantile. Vuol dire che la statistica test

ha un valore più estremo e mi porta a rifiutare l’ipotesi nulla. Poiché il valore assunto dalla statistica test appartiene

alla zona di rifiuto, l’ipotesi nulla viene rigettata.

POPOLAZIONI BERNOULLIANE

Quando parliamo di grandi campioni, viene fuori il fatto di considerare il caso particolare di due popolazioni

Bernoulliane riferite allo stesso fenomeno. Abbiamo due popolazioni per le quali vogliamo confrontare la

probabilità di successo.

Siano π 1

= p 1

e π 2

= p 2

le medie delle due popolazioni Bernoulliane e siano σ 1

2

= p 1

(1 – p 1

) e σ 2

2

= p 2

(1 – p 2

) le

loro rispettive varianze.

La statistica campionaria sarà data dalla differenza tra le due proporzioni campionarie meno la differenza tra

le due proporzioni della popolazione diviso la radice quadrata di quello che c’è scritto

Z

^ p 1 − ^ p

2

Tale statistica ha una distribuzione prossima alla normale standard. Da questa espressione possiamo

affermare che la statistica campionaria che ha distribuzione normale standard è compresa tra due quantili di

livello alfa mezzi e 1 – alfa mezzi come possiamo osservare nella formula

P

Da questa espressione si possono ottenere gli estremi dell’intervallo di confidenza:

l

1

z

1 −

α

2

^

σ ^ p

1

− ^ p

2

l

2

z

1 −

α

2

^

σ ^ p

1

− ^ p

2

Esempio 8:

In uno studio sulla diffusione del lavoro a tempo parziale tra gli studenti, il preside di una facoltà fa effettuare

un’indagine campionaria. Si determini l’intervallo di confidenza al 95% per la differenza delle proporzioni di studenti

lavoratori tra i maschi e le femmine.

Voglio confrontare se la proporzione di coloro che lavoro a tempo parziale sia diversa nei due gruppi: maschi e

femmine.

Vediamo subito che la dimensione campionaria è molto elevata perché nel gruppo dei maschi la dimensione

campionaria è 1385 mentre nel gruppo delle femmine è 810.

Le due proporzioni saranno date da 235/N e la seconda con media μ1385 e 127/N e la seconda con media μ810.

Il quantile che considero nella costruzione dell’intervallo di confidenza è 1,96.

Posso ottenere gli estremi dell’intervallo di confidenza che saranno dati dalla differenza tra le due proporzioni

campionarie meno o più il quantile della normale standardizzata (1,96) per la deviazione standard ossia la radice

quadrata della varianza.

Ottengo un intervallo di confidenza dove l’estremo inferiore è negativa e l’estremo superiore è positivo. L’intervallo

di confidenza quindi contiene lo zero. La differenza delle proporzioni di lavoratori a tempo parziale tra gli studenti e le

studentesse è compresa verosimilmente nell’intervallo.

VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE PROPORZIONI DEI

GRANDI CAMPIONI

La statistica test è data dalla differenza tra le due proporzioni campionarie diviso la deviazione

standard.

La distribuzione campionaria è la normale standardizzata sotto l’ipotesi nulla.

Cosa cambia? Quando vado a fare la verifica di ipotesi cambia che sotto l’ipotesi nulla ho p 1

= p 2

: quindi la

proporzione di successo è la stessa. Sotto l’ipotesi nulla come andrò a calcolare la deviazione standard

campionaria? La calcolerà con un'unica stima della varianza complessiva perché sotto l’ipotesi nulla p 1

= p 2

L’unica cosa a cui bisogna fare attenzione quando si parla di proporzioni campionarie è che a seconda che io

faccia intervallo di confidenza o verifica di ipotesi, la deviazione standard al denominare è calcolata in modo

diverso.

VERIFICA DI IPOTESI

L’ipotesi nulla da verificare è

H

0

: σ =

p

1

p

2

= 0, a fronte di una delle tre ipotesi alternative

H

1

: δ =

p

1

p

2

H

1

: δ =

p

1

p

2

H

1

: δ =

p

1

p

2

Per l’individuazione della statistica test, va osservato che l’ipotesi nulla di uguaglianza delle medie delle due

popolazioni si riflette sulla varianza della variabile casuale

^ p

1

− ^ p

2

. Infatti, essendo

σ

2

^ p

1

− ^ p

2

p

1

( 1 − p

1

n

j

p

2

( 1 − p

2

n

2

Se

p

1

= p

2

= p, come postula l’ipotesi nulla, abbiamo

Anche per la F di Fisher possiamo definire il quantile come quella quantità che lascia alla sua sinistra una certa

quantità pari a p.

La F di Fisher ci serve per confrontare due popolazioni non in termini di media, ma in termini di varianza.

Siano C1 e C2 due campioni indipendenti provenienti dalle popolazioni normali P1 e P2 aventi la stessa varianza.

Allora il rapporto

F =

S

1

2

S

2

2

Ha distribuzione F di Fisher con n

1

-1 e n

2

-1 gradi di libertà.

Possiamo affermare che l’ipotesi nulla è l’ipotesi di uguaglianza tra le due varianze, mentre le ipotesi alternative

possono essere unidirezionale sinistra, destra e bidirezionale. La statistica test è data dal rapporto tra le due varianze

campionarie. La regione di rifiuto è data dalle code sinistra, destre o entrambe le code a seconda della forma di ipotesi

alternativa.

Esempio 10:

In un’industria alimentare, vengono utilizzate due tipi di confezionatrici, A e B. Il dubbio è che le confezioni

realizzate con la macchina A presentino una variabilità più elevata. Vengono osservati i pesi in grammi di due

campioni casuali di confezioni. Si sottoponga a verifica l’ipotesi che le due macchine si equivalgono quanto alla

variabilità dei pesi delle confezioni realizzate. Si ponga =0,05.

La macchina A ha una deviazione standard quindi in teoria l’ipotesi alternativa è unidirezionale destra.

La statistica test è data dal rapporto tra le due varianze: 2,

2,698 lo confronto con il valore soglia al 95% della F di Fisher con 30 al numeratore e 27 al denominare gradi di

libertà. (vado alle tavole di pagina 595 e seguenti  importante: questa tavola considera solo la coda destra perché

la distribuzione è asimmetrica ) Il valore soglia è 1,884.

Poiché il valore assunto dalla statistica test cade nella zona di rifiuto, l’ipotesi nulla viene rifiutata.