






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Come calcolare la differenza tra due medie campionarie di due popolazioni normali e come calcolare l'intervallo di confidenza per questa differenza. Viene inoltre spiegato come verificare l'ipotesi nulla di uguaglianza delle medie e come calcolare la statistica test per questa ipotesi.
Tipologia: Sintesi del corso
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







In questo capitolo ci occuperemo del confronto fra due popolazioni. Tutto quello di cui parleremo sarà
riferito non più all’inferenza su una popolazione dalla quale estraiamo un campione ma, bensì, quello che
faremo sarà partire da due popolazioni, prendere un campione da una e un campione dall’altra e cercare di
confrontarli tra di loro.
Se sono in una distribuzione normale la distribuzione campionaria della media è una normale con media pari
alla media della popolazione e varianza pari alla varianza della popolazione fratto N.
Mentre, se noi consideriamo due medie di questo tipo avremo la differenza tra due variabili casuali
distribuite normalmente: la prima con media μ 1
e varianza σ
2
1
/N e la seconda con media μN e la seconda con media μ 2
e varianza σ
2
2
/N e la seconda con media μN.
Se faccio la differenza tra X medio 1 e X medio 2, ossia tra le due medie campionarie, avrò che il valore
atteso della differenza è uguale alla differenza dei valori attesi.
1
2
) = μ
1
2
Se invece calcolo la varianza della differenza, ossia la varianza di X medio 1 e X medio 2, questa sarà data
dalla somma delle due varianze.
σ
2
X
1
− X
2
1
2
−( μ
1
− μ
2
σ
X 1
− X 2
La differenza tra le due medie campionarie è una variabile casuale normale, se le due popolazioni di
partenza sono normali, con media μ 1 -
μ 2
e varianza σ
2
1
/N e la seconda con media μn1 + σ
2
2
/N e la seconda con media μn2: ciò vuol dire che posso fare una
standardizzazione come la formula:
X
1
− X
2
1
2
−( μ
1
− μ
2
σ
X 1
− X 2
Questa variabile casuale ha una distribuzione normale standardizzata, ossia una variabile meno il suo valore
atteso fratto la deviazione standard. Alla fine di questa procedura, quello che otteniamo è una variabile
casuale Z distribuita come una normale standardizzata. Affinché questo sia vero devono valore le suddette
condizioni: le due popolazioni devono essere normali, la prima con media μ 1
e varianza σ
2
1
e la seconda con
media μ 2
e varianza σ
2
2
(Insisto su questo concetto: Se le due popolazioni sono distribuite normalmente allora X medio 1 e X medio
2 è una combinazione lineare di due variabili causali normali indipendenti e i due coefficienti che generano
la combinazione lineare sono rispettivamente 1 e -1).
Q uesti 3 grafici sono dei grafici esemplificativi tra i quali si vede che se X1 medio ha distribuzione così e
X2 medio ha distribuzione così, la loro differenza ha una distribuzione ugualmente normale, ma ha una
varianza maggiore (per questo motivo è più larga).
Per la costruzione degli intervalli di confidenza utilizziamo come stimatore la differenza tra le due medie
campionarie, cioè X1 medio – X2 medio, e siccome abbiamo detto che questa quantità ha una distribuzione
normale standardizzata posso affermare che questa quantità è compresa tra il quantile di livello alfa mezzi e
il quantile di livello 1 – alfa mezzi, con probabilità pari ad 1 meno alfa
P¿ ¿ 1 - ∝ ( alfa )
Invertendo questa disuguaglianza, cioè facendo in modo che all’interno della disuguaglianza compaia solo
μ1 - μ2, ottengo quello che possiamo osservare nella formula
La differenza tra le due medie è compresa tra questi due estremi con probabilità pari ad 1 meno alfa. Come
sono fatti i due estremi? L’estremo positivo ha la differenza delle due medie + una quantità, l’estremo
negativo ha la differenza delle due medie campionarie – la stessa quantità.
Infine, quando effettivamente osservo un campione ottengo gli estremi degli intervalli di confidenza che
sono dati dalle formule
l
1
=¿ x
1
− x
2
z
1 −
α
2
σ
X
1
− X
2
l
2
=¿ x
1
− x
2
z
1 −
α
2
σ
X
1
− X
2
Sono sostanzialmente la stessa cosa salvo che la media campionaria è sostituita dai valori della media
campionaria.
Esempio 1:
Ci sono due campioni. L’ampiezza è più o meno simile: n1 = 29 unità, n2=28 unità.
Abbiamo calcolato le medie campionarie che sono risultate pari a 1,54 e 1,19.
questa tabella contiene l’ipotesi nulla, le tre ipotesi alternative, la statistica test e la zona di rifiuto. Le
regioni di rifiuto corrispondono alle tre ipotesi alternative.
IPOTESI ALTERNATIVA UNIDIREZIONALE DESTRA (la prima riga nella tabella):
la media della prima popolazione è maggiore della media della seconda. Se questo è vero allora la media
campionaria del campione estratto dalla prima popolazione sarà più verosimilmente maggiore della media
campionaria del secondo campione. Questa statistica avrà valore grande, motivo per cui la regione di rifiuto
sarà nella coda destra ossia sarà data da quei valori maggiori del quantile di livello 1 – alfa.
Ipotesi alternativa unidirezionale sinistra (la seconda riga nella tabella):
la media della prima popolazione è minore della media della seconda. Se questo è vero allora la media
campionaria del campione estratto dalla prima popolazione sarà minore della media campionaria del
secondo campione. Questa statistica avrà valore piccolo, motivo per cui rifiuterà l’ipotesi nulla quando il
valore della statistica test sarà inferiore del quantile di livello alfa della normale standardizzata.
Ipotesi alternativa bidirezionale (la terza riga nella tabella):
se sotto l’ipotesi alternativa i valori delle due medie sono diversi tra di loro, cioè π 1
può essere
indifferentemente maggiore o minore di π 2
, la regione di rifiuto è costruita nelle due code della normale
standardizzata. Avremo valori più piccoli di Z con alfa mezzi e più grandi di Z con 1 – alfa mezzi. Essi sono
i valori che costituiscono la regione di rifiuto.
Esempio 2:
Vengono utilizzati gli stessi dati utilizzati nel primo esempio salvo che nel primo ci si è calcolati l’intervallo di
confidenza, in questo esempio viene effettuata la verifica di ipotesi. Si verifichi l’ipotesi che i due tipi di cibo abbiano lo
stesso contenuto medio di energia metabolizzabile contro l’alternativa che il cibo A abbia un contenuto medio superiore. Si
ponga = 0,05.
Ipotesi nulla: π 1
= π 2
contenuto medio del primo cibo = contenuto medio del secondo
Ipotesi alternativa: π 1
π 2
ipotesi alternativa unidirezionale destra.
La statistica test è data dalla differenza delle due medie fratto la deviazione standard e quindi avremo che sarà data da
1,54 – 1,19/N e la seconda con media μradice quadrata di 0,0062 = 4,445.
Ipotesi alternativa unidirezionale destra livello di significatività 5%
4,445 lo confronto con Z con 1 – alfa ossia quantile 95% che vale 1,645.
Il valore della statistica test è superiore del quantile e vuol dire che mi trovo nella coda destra della regione di rifiuto e
quindi questo fa si che possa affermare che il valore assunto dalla statistica test appartiene alla zona di rifiuto e
l’ipotesi nulla viene rifiutata.
Esempio 3:
Possiamo effettuare il test della verifica delle ipotesi oltre che confrontando il valore della statistica test con il
quantile, calcolando il livello di significatività osservato. Esso si definisce come la probabilità di osservare il valore
della statistica test più estremo di quello che abbiamo effettivamente osservato. Nell’esempio precedente il valore
osservato è 4,445, per calcolare il livello di significatività osservato bisogna calcolare la probabilità che una normale
standardizzata sia maggiore di 4,445.
In generale, se l’ipotesi alternativa è unidirezionale destra, per calcolare alfa (oss) bisogna calcolare la probabilità che
la statistica test sia maggiore di quella osservata sotto l’ipotesi nulla. Rifiuto l’ipotesi nulla quando il livello di
significatività osservato è molto piccolo.
Riprendendo l’esempio: il valore della statistica test è 4,445. Per calcolare alfa (oss) devo calcolare la probabilità che
Z sia maggiore di 4,445. Perché Z? perché Z è la distribuzione sotto l’ipotesi nulla quindi condizionatamente ha delta
maggiore di 0. Tale probabilità è 0,0000044. È un numero molto piccolo e quindi questo valore mi conferma il fatto
che devo rifiutare l’ipotesi nulla in favore dell’ipotesi alternativa unidirezionale destra.
Quanto assunto precedentemente è basato sull’assunzione che le varianze siano numeri noti. Ora,
assumiamo che le due popolazioni hanno la stessa varianza ma incognita.
Se supponiamo che le varianze sono uguali, calcolo una stima della varianza comune.
La calcolo facendo le due varianze campionarie: S 1
2
e S 2
2
c
2
è la varianza comune.
c
2
1
2
1
2
2
2
n
1
2
Dopo di che, calcolo la statistica campionaria
X
1
− X
2
1
2
−( μ
1
− μ
2
c
√
n
1
n
2
che è data dalla differenza tra le due medie meno la differenza tra le medie delle popolazioni diviso la
definizione standard campionaria comune per la radice quadrata di quello che c’è scritto. Questa statistica
campionaria ha distribuzione T di Student con n 1
-2 gradi di libertà.
Questa statistica mi permette di calcolare l’intervallo di confidenza nel caso in cui ci sono due varianze
uguali ma incognite.
Dato che la statistica campionaria ha distribuzione T di Student con n 1
-2 gradi di libertà, posso dire che
questa quantità è compresa tra i due quantili della T di Student con probabilità pari a 1 – alfa.
Nella formula
∝ ( alfa )
a destra ho il quantile di livello 1 – alfa mezzi della T di Student con n 1
-2 gradi di libertà, a sinistra ho
lo stesso quantile cambiato di segno (ricorda che la T di Student è una distribuzione simmetrica intorno allo
zero come la normale standardizzata). Posso liberare questa diseguaglianza dal denominatore per ottenere gli
estremi di intervallo di confidenza che possiamo vedere nella formula
l
1
t
1 −
α
2
c
√
n
1
n
2
l
2
t
1 −
α
2
c
√
n
1
n
2
Esempio 4:
Si determini l’intervallo di confidenza al 99% per la differenza tra le medie delle due popolazioni.
Prima cosa che calcolo è la varianza complessiva: per farlo devo fare la media delle due varianze campionarie
131,65.
Secondo passaggio calcolo gli estremi dell’intervallo di confidenza.
L’intervallo di confidenza è completamente negativo.
Esempio 5: verifica di ipotesi
Con gli stessi dati dell’Esempio 4, si stabilisca se l’aumento medio del peso dei ratti trattati con l’ormone è
significativamente superiore a quello dei ratti non trattati. Si ponga = 0,01.
Sotto l’ipotesi nulla la statistica test ha una distribuzione campionaria T di Student. La regione di rifiuto sarà data da
quei valori della statistica maggiore del quantile 1 meno alfa della T di Student.
Effettuiamo la verifica di ipotesi data da delta = 0 come ipotesi nulla e delta < 0 come ipotesi alternativa.
La zona di rifiuto è per quei valori di T inferiori al quantile di livello alfa della T di Student con 28 gradi di
libertà. Questo quantile è uguale a -2,467.
La statistica test è -3,771. Questo valore lo confronto con -2,467, e dato che -3,771 è minore di -2,467 per
cui si trova nella regione di rifiuto e rifiuto l’ipotesi nulla.
Il sistema di ipotesi non cambia in quanto abbiamo ipotesi nulla π 1
=π 2
contro le tre ipotesi alternative che
rispettivamente sono: unidirezionale sinistra, unidirezionale destra e bidirezionale. La statistica test è data
dalla differenza tra le medie campionarie diviso la deviazione standard di quella differenza. Le tre regioni di
rifiuto sono nella coda sinistra, destra e nelle due code destra e sinistra della normale standardizzata.
Nel caso in cui l’ipotesi alternativa è unidirezionale destra: determino il quantile di livello alfa, se il valore
della statistica test è più a destra (è più estremo) allora rifiuterò l’ipotesi nulla. Se è a sinistra non la rifiuterò.
Esempio 6:
Il campione di coloro che hanno consumato pesce ha una media inferiore rispetto a quelli che non hanno consumato
pesce. Bisogna determinare l’intervallo di confidenza.
Alfa mezzi è uguale a 0.05. Z con 1 meno alfa mezzi è 1,645.
l1 e l2 sono i due estremi dell’intervallo di confidenza tra le medie. I risultati mi permettono di dire che la differenza
tra le medie del colesterolo è positiva, quindi l’intervallo di confidenza è sempre positivo.
Esempio 7:
Con gli stessi dati dell’Esempio 6, si stabilisca se il livello medio del colesterolo nei consumatori di pesce è
significativamente inferiore rispetto a quello dei non consumatori. Si ponga = 0,05.
Vogliamo verificare l’ipotesi nulla (che le due medie sono uguali) contro l’ipotesi alternativa unidirezionale destra.
Avremo = 1 − 2 = 0 contro = 1 − 2 0.
La statistica test è data dalla differenza delle due medie campionarie diviso la deviazione standard.
La statistica campionaria, appena la calcolo, la devo confrontare con l’ipotesi alternativa unidirezionale destra. Devo
calcolare il quantile di livello alfa che in questo caso è 1,645.
La statistica test equivale a 8,32. Un valore molto elevato rispetto a quello del quantile. Vuol dire che la statistica test
ha un valore più estremo e mi porta a rifiutare l’ipotesi nulla. Poiché il valore assunto dalla statistica test appartiene
alla zona di rifiuto, l’ipotesi nulla viene rigettata.
Quando parliamo di grandi campioni, viene fuori il fatto di considerare il caso particolare di due popolazioni
Bernoulliane riferite allo stesso fenomeno. Abbiamo due popolazioni per le quali vogliamo confrontare la
probabilità di successo.
Siano π 1
= p 1
e π 2
= p 2
le medie delle due popolazioni Bernoulliane e siano σ 1
2
= p 1
(1 – p 1
) e σ 2
2
= p 2
(1 – p 2
) le
loro rispettive varianze.
La statistica campionaria sarà data dalla differenza tra le due proporzioni campionarie meno la differenza tra
le due proporzioni della popolazione diviso la radice quadrata di quello che c’è scritto
^ p 1 − ^ p
2
Tale statistica ha una distribuzione prossima alla normale standard. Da questa espressione possiamo
affermare che la statistica campionaria che ha distribuzione normale standard è compresa tra due quantili di
livello alfa mezzi e 1 – alfa mezzi come possiamo osservare nella formula
Da questa espressione si possono ottenere gli estremi dell’intervallo di confidenza:
l
1
z
1 −
α
2
σ ^ p
1
− ^ p
2
l
2
z
1 −
α
2
σ ^ p
1
− ^ p
2
Esempio 8:
In uno studio sulla diffusione del lavoro a tempo parziale tra gli studenti, il preside di una facoltà fa effettuare
un’indagine campionaria. Si determini l’intervallo di confidenza al 95% per la differenza delle proporzioni di studenti
lavoratori tra i maschi e le femmine.
Voglio confrontare se la proporzione di coloro che lavoro a tempo parziale sia diversa nei due gruppi: maschi e
femmine.
Vediamo subito che la dimensione campionaria è molto elevata perché nel gruppo dei maschi la dimensione
campionaria è 1385 mentre nel gruppo delle femmine è 810.
Le due proporzioni saranno date da 235/N e la seconda con media μ1385 e 127/N e la seconda con media μ810.
Il quantile che considero nella costruzione dell’intervallo di confidenza è 1,96.
Posso ottenere gli estremi dell’intervallo di confidenza che saranno dati dalla differenza tra le due proporzioni
campionarie meno o più il quantile della normale standardizzata (1,96) per la deviazione standard ossia la radice
quadrata della varianza.
Ottengo un intervallo di confidenza dove l’estremo inferiore è negativa e l’estremo superiore è positivo. L’intervallo
di confidenza quindi contiene lo zero. La differenza delle proporzioni di lavoratori a tempo parziale tra gli studenti e le
studentesse è compresa verosimilmente nell’intervallo.
La statistica test è data dalla differenza tra le due proporzioni campionarie diviso la deviazione
standard.
La distribuzione campionaria è la normale standardizzata sotto l’ipotesi nulla.
Cosa cambia? Quando vado a fare la verifica di ipotesi cambia che sotto l’ipotesi nulla ho p 1
= p 2
: quindi la
proporzione di successo è la stessa. Sotto l’ipotesi nulla come andrò a calcolare la deviazione standard
campionaria? La calcolerà con un'unica stima della varianza complessiva perché sotto l’ipotesi nulla p 1
= p 2
L’unica cosa a cui bisogna fare attenzione quando si parla di proporzioni campionarie è che a seconda che io
faccia intervallo di confidenza o verifica di ipotesi, la deviazione standard al denominare è calcolata in modo
diverso.
L’ipotesi nulla da verificare è
0
: σ =
p
1
− p
2
= 0, a fronte di una delle tre ipotesi alternative
1
: δ =
p
1
− p
2
1
: δ =
p
1
− p
2
1
: δ =
p
1
− p
2
Per l’individuazione della statistica test, va osservato che l’ipotesi nulla di uguaglianza delle medie delle due
popolazioni si riflette sulla varianza della variabile casuale
^ p
1
− ^ p
2
. Infatti, essendo
σ
2
^ p
1
− ^ p
2
p
1
( 1 − p
1
n
j
p
2
( 1 − p
2
n
2
Se
p
1
= p
2
= p, come postula l’ipotesi nulla, abbiamo
Anche per la F di Fisher possiamo definire il quantile come quella quantità che lascia alla sua sinistra una certa
quantità pari a p.
La F di Fisher ci serve per confrontare due popolazioni non in termini di media, ma in termini di varianza.
Siano C1 e C2 due campioni indipendenti provenienti dalle popolazioni normali P1 e P2 aventi la stessa varianza.
Allora il rapporto
1
2
2
2
Ha distribuzione F di Fisher con n
1
-1 e n
2
-1 gradi di libertà.
Possiamo affermare che l’ipotesi nulla è l’ipotesi di uguaglianza tra le due varianze, mentre le ipotesi alternative
possono essere unidirezionale sinistra, destra e bidirezionale. La statistica test è data dal rapporto tra le due varianze
campionarie. La regione di rifiuto è data dalle code sinistra, destre o entrambe le code a seconda della forma di ipotesi
alternativa.
Esempio 10:
In un’industria alimentare, vengono utilizzate due tipi di confezionatrici, A e B. Il dubbio è che le confezioni
realizzate con la macchina A presentino una variabilità più elevata. Vengono osservati i pesi in grammi di due
campioni casuali di confezioni. Si sottoponga a verifica l’ipotesi che le due macchine si equivalgono quanto alla
variabilità dei pesi delle confezioni realizzate. Si ponga =0,05.
La macchina A ha una deviazione standard quindi in teoria l’ipotesi alternativa è unidirezionale destra.
La statistica test è data dal rapporto tra le due varianze: 2,
2,698 lo confronto con il valore soglia al 95% della F di Fisher con 30 al numeratore e 27 al denominare gradi di
libertà. (vado alle tavole di pagina 595 e seguenti importante: questa tavola considera solo la coda destra perché
la distribuzione è asimmetrica ) Il valore soglia è 1,884.
Poiché il valore assunto dalla statistica test cade nella zona di rifiuto, l’ipotesi nulla viene rifiutata.