¡Descarga Inferencia y más Apuntes en PDF de Estadística solo en Docsity!
Estad´ıstica Grau d’Enginyeria Inform`atica
Curs 2017 - 2018 UAB
4 Infer`encia estad´ıstica.
4.1 La dama tastadora de te
La dama tastadora de te ´es un fam´os experiment aleatori ideat per Ronald Fisher i descrit al seu llibre
El Disseny d’Experiments (1935). Amb aquest experiment Fisher introdueix la noci´o d’hip`otesi nul·la
(que mai es pot demostrar o establir, per`o ´es, possiblement, refutada, en el curs d’experimentaci´o).
La dama en q¨uesti´o, Muriel Bristol, afirmava que era capa¸c de dir que s’havia afegir primer en una
tassa de te amb llet, el te o b´e la llet. Fisher va proposar donar-li vuit tasses, quatre preparades
afegint primer el te i quatre m´es preparades afegint primer la llet, per`o en ordre aleatori. La dona,
correctament informada de l’experiment i amb la possibilitat de tastat i comparar les tasses hauria
de separar les tasses preparades d’una o altra manera. Aleshores es tracta de calcular la probabilitat
d’haver triat a l’atzar la mateixa distribuci´o
Figura 1: Ronald Fisher al 1913
M´es concretament, la hip`otesi nul·la va ser que la dama no tenia tal capacitat^1
L’estad´ıstic de la prova, en llenguatge modern es basa en la distribuci´o hipergeom`etrica. Diguem k el
nombre de tasses que la dona tria encertadament. k varia entre 0 i 4 i la probabilitat de triar k tasses
encertadament sota la suposici´o que l’hip`otesi nu·la sigui certa ´es
P (k) =
k
4 −k
4
Es a dir:^ ´
k 0 1 2 3 4
P (k) 0,0143 0,2286 0,5143 0,2286 0,
(^1) En l’enfocament de Fisher, no hi ha cap hip`otesi alternativa; aquesta ´es una caracter´ıstica de l’enfocament Neyman-
Pearson.
Ara fixarem un llindar al nombre k d’encerts, de manera que un nombre d’encerts igual o per sobre
del llindar tingui una probabilitat molt petita, posem del 5% (a aquest percentatge li direm nivell de
significaci´o de la prova). Aleshores, un resultat de l’experiment igual o per sobre d’aquest llindar ens
portara a refutar la hipotesi nul·la, lluny de pesar que el resultat hagi estat producte de l’atzar.
Tornant a la taula anterior i basant-nos en un nivell de significaci´o del 5%, veiem que el llindar l’haurem
de posar en 4 tasses. Es a dir que nom´´ es un encert total de totes del tasses ens portaria a rebutjar
l’hip`otesi nul·la. Fixem-nos que la probabilitat d’encertar totes les tasses si es tria a l’atzar ´es del
1 ,43%, inferior al 5%. Ara b´e la probabilitat d’encertar 3 o b´e 4 tasses a l’atzar ´es ja molt alta, gaire
b´e el 25%.
Un col·lega de Fisher, va revelar que en la prova, la dona va separar totes les tasses correctament.
4.2 Mostra i poblaci´o, estad´ıstic i estimador
Estudiem una poblaci´o mitjan¸cant una o m´es variables aleatories. Els parametres associats a aquestes
variables com la seva esperan¸ca o variancia s’anomenen parametres poblacionals.
Estimaci´o:
1. Obtenim mostres per tal de trobar aproximacions dels par`ametres poblacionals. Un estad´ıstic
´es una variable aleatoria definida sobre el conjunt de mostres de grandaria fixada.
2. Estimador: Estad´ıstic dissenyat per a obtenir estimacions (puntuals) d’un par`ametre poblacio-
nal.
3. Propietats d’un bon estimador: distribuci´o coneguda amb esperan¸ca igual al par`ametre estimat
(sense biaix) i vari`ancia m´ınima.
4.3 Estad´ıstics m´es freq¨uents
En una poblaci´o normal, si tenim una mostra x 1 ,x 2 ,... ,xn utilitzarem el seg¨uents estimadors:
μˆ = ¯x =
n
∑^ n
i=
xi
ˆσ^2 = s^2 =
n − 1
∑^ n
i=
(xi − ¯x)^2
per l’esperan¸ca μ i per la vari`ancia σ^2 , respectivament.
Esperan¸ca de x¯. E(¯x) = E
n
∑n
i=1 xi
= n^1
∑n
i=1 E(xi) =^
1
n (nμ) =^ μ.
Experan¸ca de s^2. Com que
∑n
i=1(xi−x¯)
2 = ( ∑n
i=1 xi
2 )−nx¯ 2 , tenim E ( ∑n
i=1(xi−x¯)
2 ) = ( ∑n
i=1 E(xi
n E(¯x^2 ). Ara recordem que per a qualsevol variable Var(Y ) = E(Y 2 ) + E(Y )^2 i que, en particular,
E(xi^2 ) = σ^2 + μ^2 i E(¯x^2 ) = 1 n σ^2 + μ^2. aleshores
E
( ∑n
i=
(xi − ¯x)^2
= n(σ^2 + μ^2 ) − n
n
σ^2 + μ^2
= (n − 1)σ^2
4.4.1 Interval de confian¸ca per a l’esperan¸ca μ d’una poblaci´o normal amb vari`ancia σ^2
coneguda
Si {X 1 ,X 2 ,... ,Xn} ´es una mostra aleat`oria d’una variable X normalment distribu¨ıda amb esperan¸ca
μ i variancia σ^2 , aleshsores X¯ = 1 n (X 1 + X 2 + · · · + Xn) ´es normal amb esperan¸ca μ i variancia σ^2 /n.
Per tant,
X¯ − μ
n
´es normal est`andar.
Procediment: Per detetminar un interval de confian¸ca amb coeficient de confian¸ca 1 − α, calculem
1. Amb les taules de la distribuci´o normal est`andard, un valor z α 2 tal que P (−z α 2 < Z < z α 2 ) = 1−α.
2. D’aqu´ı, resulta P (¯x − z α 2 √^ σn < μ < ¯x + z α 2 √^ σn ) = 1 − α.
3. Hem obtingut l’interval de confian¸ca (¯x − z α 2 √^ σn , ¯x + z α 2 √^ σn ) per μ amb coeficiente de confian¸ca
Aquest mateix interval tamb´e el descrivim com ¯x − z α 2 √^ σn < μ < ¯x + z α 2 √^ σn o b´e com μ = ¯x ± z α 2 √^ σn ,
en qualsevol cas recordant que el coeficient de confian¸ca ´es 1 − α.
EXEMPLE
Un estudiant mesura la temperatura d’ebullici´o d’un l´ıquid determinat. Per aix`o observa les lectures (en graus Celsius) 102 , 5 , 101 , 7 , 103 , 1 , 100 , 9 , 100 ,5 i 102, 2
en 6 mostres diferents del l´ıquid. Si acceptem normalitat i que la desviaci´o est`andard per a aquest procediment ´es de 1,2 graus, quin ´es l’interval de confian¸ca per al punt d’ebullici´o μ, amb coeficient de confian¸ca del 95%?
Soluci´o
- Estimaci´o puntual: ¯x = 101, 82
- Radi de l’interval del 95% segons la taula normal: ε = zα/ 2
σ √ n
= 0,96. Per tant
101 , 82 − 0 , 96 < μ < 101 ,82 + 0, 96
- 86 < μ < 102. 78
Tamb´e ho denotem μ = ¯x ± ε = 101, 82 ± 0. 96
Com varia l’interval si variem el coeficient de confian¸ca?
- Amb (1 − α) = 0,90%: ε = 1, 645
= 0,81 i
- 01 < μ < 102. 63
- Amb (1 − α) = 0,99%: ε = 2, 575
= 1,26 i
100 , 56 < μ < 103 , 08
4.4.2 Variacions
Podem utilitzar el mateix procediment sense saber o comprovar que X sigui normal si tenim mostres
grans (n ≥ 30). Degut al teorema del l´ımit central, X¯ ´es aproximadament normal i aix`o ´es tot el
necessitem en l’argument anterior.
Tamb´e amb mostres grans podem aproximar σ^2 amb S^2 , calculat a partir de la mostra:
S^2 =
∑n
i=1(x^1 −^ x¯)
2
n − 1
n
∑n
i=1 x
2
i −^ (
∑n
i=1 xi)
2
n(n − 1)
EXEMPLES
(a) Una mostra aleatoria de 225 temps de resposta interactiva mesurats als terminals d’usuari de Bonanza Banana presenten una mitjana de ¯x = 7 jerks. (Un jerk ´es la unitat de mesura registrada, el valor de la qual nom´es es conegut per Barry Blast, Cap Analista de Sistemes) amb una desviaci´o estandard mostral S = 3 jerks. Trobeu un interval de confian¸ca del 95% per al temps de resposta interactiva.
Soluci´o. X¯ ´es aproximadament normal; S ´es una bona aproximaci´o de σ. Amb 1 − α = 0,95, zα = 1,96 i
ε = 1, 96
Per tant mu = 7 ± 0 ,025 jerks, amb coeficient de confian¸ca del 95%.
(b) Suposem que a l’exemple anterior, en Barry no vol que la longitud de l’interval de confian¸ca del 95% superi els 0,5 jerks. Com de gran ha de ser la seva mostra? (La longitud actual de l’interval ´es de 2 × 0 ,392 = 0, 784 jerks).
Soluci´o. Barry necessita una mostra de m´es de
n =
mesures independents.
4.4.3 Interval de confian¸ca per a l’esperan¸ca μ d’una poblaci´o normal amb vari`ancia
desconeguda
Si {X 1 ,X 2 ,... ,Xn} ´es una mostra aleat`oria d’una variable X normalment distribu¨ıda amb espe-
ran¸ca μ i variancia σ^2 , aproximem el valor de σ^2 amb la variancia mostral S^2 =
∑n
i=1(x^1 −^ ¯x)
2
n − 1
n
∑n
i=1 x
2
i −^ (
∑n
i=1 xi)
2
n(n − 1)
Aleshores, Tn− 1 = S/¯x−√μn t´e distribuci´o t d’Student amb n − 1 graus de llibertat. Sabent aix`o, podem
procedir com en casos anteriors, per`o ara el radi de l’interval es calcula
ε = t α 2
S
n
on t α 2 es determina a les taules de la t-Student amb n − 1 graus de llibertat.
La fam´ılia de distribucions χ^2 , depen d’un parametre m ≥ 1 que anomenem graus de llibertat. Es
tracta de distribucions de variables cont´ınues que prenen valors sempre positius. No tenen les propi-
etats de simetria de la normal o la t d’Student, per la qual cosa cal que determinem per separat les
cues inferior i superior.
Procediment:
1. Obtenim l’estimaci´o puntual S^2.
2. Busquem un interval (χ^2 inf, χ^2 sup) amb
P (χ^2 inf ≤ W ≤ χ^2 sup) = 1 − α ,
de manera que l’`area de les cues superior i inferior coincideixi:
P (W ≤ χ^2 inf) =
P (W ≤ χ^2 sup) = 1 −
3. Substituim P (χ^2 inf ≤
(n−1)S^2
σ^2 ≤^ χ
2
sup) = 1^ −^ α ,^ i a¨ıllem^ σ
P
(n − 1)S^2
χ^2 sup
≤ σ^2 ≤
(n − 1)S^2
χ^2 inf
4. Hem obtingut l’interval
(n−1)S^2
χ^2 sup^ ,^
(n−1)S^2 χ^2 inf
per la vari`ancia σ^2 amb coeficient de confian¸ca 1 − α.
EXEMPLES
(a) Hazunga Enterprises ha recollit la quantitat mitjana de l´ınies de codi per programador-dia per una mostra de 30 projectes de programaci´o. El nombre de l´ınies per programador-dia X t´e una distribuci´o normal. Si x¯ = 75 i s^2 = 90, calculem intervals de confian¸ca del 95% per μ i σ^2.
Soluci´o A les taules de χ^2 trobem
χ^2 inf = 16, 0471 , χ^2 sup = 45, 7223.
i aix´ı tenim a = (^4529) , 7223 ·^90 = 57,0838 i b = (^1629) , 0471 ·^90 = 162,6462. Aleshores, l’interval de confian¸ca del 95% per σ^2 ´es 57 , 0838 < σ^2 < 162 , 6462 (7, 5554 < σ < 12 ,7533). Calculem tamb´e l’interval de confian¸ca del 95% per μ. L’estimaci´o puntual ´es μ ≈ x¯ = 75. A les taules de la t de Student amb 29 graus de llibertat trobem tn− 1 ,α = 2,0452 per un coeficient de confian¸ca 1 − α = 0,95, per tant el radi de l’interval ´es
ε = tn− 1 ,α
S
n
Es a dir, l’interval de confian¸^ ´ ca del 95% ´es 71, 4576 < μ < 78 ,5424.
(b) Suposant normalitat, calculem un interval de confian¸ca del 95% per la variancia del contingut en nicotina dels cigarrets fabricats, a partir d’una mostra aleatoria de 20 cigarrets que presenta una desviaci´o t´ıpica de 1,6 mgr.
Soluci´o
- Estimaci´o de la desviaci´o t´ıpica: S = 1,6, valor donat.
- Interval del 95% per la χ^2 amb 19 graus de llibertat: χ^2 inf = 8,907 i χ^2 sup = 32, 582
- Interval segons per σ^2 : L 1 =
19 · (1,6)^2
= 1,5 i L 2 =
19 · (1,6)^2
= 5,5, per tant
1 , 5 < σ^2 < 5 , 5
amb coeficient de confian¸ca 1 − α = 0,95. (o b´e, prenent arrels quadrades: 1, 2 < σ < 2 ,3 amb coeficient de confian¸ca 1 − α = 0,95.)
4.4.5 Proporcions
Estudiem una caracter´ıstica d’una poblaci´o amb dues modalitats que podem qualificar com a `exit = 1
o fracas = 0. El parametre d’interes ´es p = proporci´o d’exit a la poblaci´o.
Denotem X la variable de Bernoulli amb E(X) = p. Si {x 1 ,x 2 ,... ,xn} ´es una mostra aleat`oria,
x 1 + x 2 + · · · + xn ´es el nombre d’`exits observats a la mostra i t´e distribuci´o binomial n, p. Si la mostra
´es prou gran, podem aproximar aquesta binomial per una normal.
Aleshores, ˆp = ¯x = 1 n (x 1 + x 2 + · · · + xn) ´es la proporci´o d’`exits de la mostra i un estimador per p. T´e
distribuci´o aproximadament normal amb esperan¸ca p i vari`ancia
p(1−p)
n. Per tant,
Z =
pˆ − p
p(1−p) n
t´e distribuci´o aproximadament normal N (0,1).
Procediment (mostres grans, n ≥ 30 , npˆ ≥ 5 i n(1 − pˆ) ≥ 5 ):
1. La proporci´o ˆp de la mostra ´es l’estimaci´o puntual de p.
2. Busquem un interval (−z α 2 , z α 2 ) amb
P (−z α 2 ≤ Z ≤ z α 2 ) = 1 − α ,
a les taules de la normal est`andard.
3. Substitu¨ım: P (−z α 2 ≤ √^ pˆp−(1p−p)
n
≤ z α 2 ) = 1 − α.
4. A les inequacions anteriors no ´es facil a¨ıllar p. Generalment, substitu¨ım la variancia p(1 n− p)per
la seva estimaci´o pˆ(1 n− ˆp)i aleshores a¨ıllem p: P
p ˆ − z α
2
ˆp(1−pˆ)
n ≤^ p^ ≤^ pˆ^ +^ z^ α 2
pˆ(1−pˆ) n
5. Hem obtingut l’interval
p ˆ − z α 2
ˆp(1−pˆ)
n ,^ pˆ^ +^ z^ α 2
pˆ(1−ˆp) n
per la proporci´o p amb coeficient de
confian¸ca 1 − α.
4.5 Test d’hip`otesis
4.5.1 Tipus d’errors.
Un investigador fa una hipotesi sobre una poblaci´o i tracta de donar-hi suport estad´ıstic, per mitja de
l’observaci´o d’una mostra aleat`oria.
Generalment es presenten hipotesis sobre el valor d’un parametre poblacional i es vol donar evidencia
a favor o en contra d’aquests valors hipotetics. L’eina estad´ıstica ´es el test d’hipotesi.
Un test d’hip`otesi es composa de:
(a) Una hip`otesi nul.la: H 0.
(b) Una hip`otesi alternativa: H 1.
(c) Un estad´ıstic de la prova (del qual coneixem la distribuci´o si la hip`otesi nul.la ´es certa).
(d) Una regi´o de rebuig dintre del rang de l’estad´ıstic de la prova.
Procediment: Si E ´es l’estad´ıstic de la prova, es fixa una regi´o de rebuig R, de manera que P (E ∈
R | H 0 cert) = α, el nivell de significaci´o.
Si la lectura de E sobre la mostra aleat`oria escollida recau dintre de la regi´o de rebuig, rebutjarem la
hipotesi nul.la. En cas contrari, acceptarem que no hi ha evidencia en contra de la hip`otesi nul.la.
En rebutjar o acceptar H 0 podem cometre respectivament:
Error de tipus I: Rebutjem H 0 quan en realitat ´es cert. La probabilitat de cometre un error de
tipus I ´es el nivell de significaci´o:
P (error tipus I) = P (rebutjem H 0 | H 0 ´es cert) = P (E ∈ R | H 0 ´es cert) = α.
Error de tipus II: Acceptem H 0 quan en realitat ´es fals. La probabilitat de cometre un error de
tipus II, β = P (error tipus II), ´es en general molt dif´ıcil de determinar i pot
ser molt alta.
p-valor. Indica la probabilitat d’obtenir un valor de l’estad´ıstic de la prova igual o m´es extrem que
l’observat a la mostra que tenim, suposant que sigui veritat la hip`otesi nul·la.
S’obt´e doncs, com la probabilitat de que l’estad´ıstic prengui valors a la cua limitada pel valor observat.
Aixo ens portara a
- Rebutjar la hip`otesi nul·la si p < α.
- No poder rebutjar la hip`otesi nul·la si p > α.
Usualment, els paquets estad´ıstics retornen el p-valor de la prova, que nosaltres podem f`acilment
comparar amb el nivell de significaci´o que vulguem.
(Observem que aix`o equival a la resoluci´o del test com s’ha descrit abans en el cas d’una cua. Si insistim
en resoldre d’aquesta manera un test de dues cues, podem dividir per dos el nivell de significaci´o)
4.5.2 Test per a la mitjana μ d’una poblaci´o Normal amb vari`ancia σ^2 coneguda
Fixat un nivell de significaci´o α, establim
- H 0 : μ = μ 0 (μ 0 ´es un nombre real, un valor hipot`etic de l’esperan¸ca).
- H 1 :
μ < μ 0 (cua inferior),
μ = μ 0 (dues cues) ,
μ > μ 0 (cua superior).
x¯ − μ 0
n
, N (0,1) si H 0 ´es cert.
- Regi´o de rebuig R ⊂ R, segons les taules de N (0,1), de manera que P (E ∈ R | H 0 ) = α i escollida
depenent del tipus de test: cua inferior, dues cues o cua superior.
EXEMPLE
Un grup de consumidors, preocupats pel contingut mitja de greix d’un cert tipus d’hamburgueses envia a un laboratori independent una mostra aleatoria de 12 hamburgueses per analitzar. El percentatge de greix en cadascuna de les hamburgueses ´es el seg¨uent.
21 18 19 16 18 24 22 19 24 14 18 15
El fabricant assegura que el contingut mitja de greix d’aquest tipus d’hamburguesa ´es inferior al 20%. Suposant que el percentatge de greix es distribueix normalment amb una desviaci´o estandard de 3, duem a terme un test d’hip`otesis per tal d’assessorar al grup de consumidors pel que fa a la validesa de l’afirmaci´o del fabricant.
Soluci´o
- H 0 : μ = 20%
- H 1 : μ < 20% (cua inferior)
- Estad´ıstic: E =
¯x − 20 σ/
n , N (0,1) si H 0 ´es cert.
- Regi´o de rebuig de cua inferior segons les taules de N (0,1) amb α = 0.05: Valors inferiors a −zα = − 1 ,645.
C`alcul del valor de l’estad´ıstic a la nostra mostra: E =
Aquest valor no entra dins la regi´o de rebuig per tant, amb nivell de significaci´o α = 0,05 no tenim prou evid`encia per donar suport al fabricant.
4.5.3 Test per a la mitjana μ d’una poblaci´o normal amb vari`ancia σ^2 desconeguda
Fixem nivell de significaci´o α. Aproximem σ amb la desviaci´o t´ıpica de la mostra S i obtenim un test
semblant a l’anterior, per`o amb un estad´ıstic diferent:
Soluci´o
- H 0 : μ = 42%
- H 1 : μ < 42% (cua inferior)
- Estad´ıstic: E = x¯ − 42 σ/
n
, t-Student amb (n − 1) graus de llibertat si H 0 ´es cert.
- Regi´o de rebuig de cua inferior segons les taules t-Student amb (n − 1) = 8 graus de llibertat i α = 0.05: Valors inferiors a −tα = − 1 ,8595. C`alcul del valor de l’estad´ıstic a la nostra mostra:
x¯ =
n
xi = 36, 5556
s^2 =
n
x^2 i − (
xi)^2 n(n − 1)
s = 6, 6542
E =
Aquest valor entra dins la regi´o de rebuig per tant, amb nivell de significaci´o α = 0,05 podem afirmar que la mitjana ´es inferior a 42 minuts.
4.5.4 Test per a la vari`ancia d’una poblaci´o normal
Suposem que X ´es una variable normal i fixem un nivell de significaci´o α.
- H 0 : σ^2 = σ^20 (σ^20 ´es un nombre real, el valor hipot
etic de la variancia). - H 1 :
σ^2 < σ^20 (cua inferior),
σ^2 = σ^20 (dues cues) ,
σ^2 > σ^20 (cua superior).
(n − 1)S^2
σ^20
, χ^2 amb (n − 1) graus de llibertat si H 0 ´es cert.
- Regi´o de rebuig R ⊂ R, segons les taules de χ^2 , de manera que P (E ∈ R | H 0 ) = α i escollida
depenent del tipus de test: cua inferior, dues cues o cua superior.
EXEMPLE
Un usuari d’un determinat calibre de filferro d’acer sospita que la desviaci´o estandard de la seva resistencia al trencament, en newtons (N), ´es diferent dels 0,75N que especifica el fabricant. En conseq¨uencia, l’usuari posa a prova la resistencia al trencament de cadasc´u dels 9 trams de filferro d’una mostra aleat`oria i obt´e els seg¨uents resultats. 72 , 1 74 , 5 72 , 8 75 , 0 73 , 4 75 , 4 76 , 1 73 , 5 74 , 1
Suposant que la resist`encia al trencament es distribueix normalment, fem un test del 10% per verificar l’espe- cificaci´o del fabricant.
Soluci´o Plantejament el test:
- H 0 : σ = 0, 75
- H 1 : σ 6 = 0,75 (dues cues)
- Estad´ıstic: E = (n − 1)s^2 0 , 752
, χ^2 amb (n − 1) graus de llibertat si H 0 ´es cert.
- Regi´o de rebuig de dues cues segons les taules de la χ^2 amb n − 1 = 8 graus de llibertat, i α = 0.1: Valors inferiors a χinf = 2,7326 o superiors a χsup = 15,5073. C`alcul del valor de l’estad´ıstic a la nostra mostra:
¯x =
n
xi = 74, 1
s^2 =
n
x^2 i − (
xi)^2 n(n − 1)
s = 1, 2845
E =
Aquest valor entra dins la regi´o de rebuig per tant, amb nivell de significaci´o α = 0,10 podem afirmar que la desviaci´o t´ıpica que marca el fabricant no ´es correcta.
4.5.5 Test per a proporcions amb mostres grans
Fizxem un nivell de significaci´o α.
p < p 0 (cua inferior),
p = p 0 (dues cues) ,
p > p 0 (cua superior).
p − p 0
p 0 (1 − p 0 )
n
, aproximadament N (0,1) si H 0 ´es cert.
- Regi´o de rebuig R ⊂ R, segons les taules de N (0,1).
EXEMPLE
Un estudi afirma que 3 de cada 10 estudiants universitaris compaginen el estudis amb una feina fora de la Universitat. Entrevistant als 150 estudiants d’una mostra aleat`oria, trobem que 63 d’ells tenen una feina fora de la Universitat. Tenim evidencia que la proporci´o ´es m´es gran que la que es diu en aquest estudi amb nivell de significaci´o α = 0,025?
t´e distribuci´o F (de Fisher) amb ν 1 graus de llibertat en el numerador i ν 2 graus de llibertat en el
denominador. Aix´ı,
- Si σ^21 = σ^22 , tenim que E =
(n 1 −1)s^21
σ^21 /(n^1 −^ 1)
(n 2 −1)s^22
σ^22 /(n^2 −^ 1)
s^21
s^22
´es F (n 1 − 1 ,n 2 − 1).
- Per mirar les taules fem servir que si X ´es F (ν 1 ,ν 2 ), aleshores X−^1 ´es F (ν 2 ,ν 1 ). Per tant, per trobar
un punt cr´ıtic de cua inferior f (ν 1 ,ν 2 )α, busquem f (ν 2 ,ν 1 ) 1 −α i calculem
f (ν 1 ,ν 2 )α =
f (ν 2 ,ν 1 ) 1 −α
EXEMPLES
(a) Una caracter´ıstica important en un generador de rajos laser ´es l’estabilitat del senyal laser emesa. Per aquesta ra´o, un enginyer esta interessat a comparar la variabilitat de la potencia emesa en dos generadors diferents. Per a aixo, obt´e 31 observacions de potencies emeses pel primer generador i 16 pel segon. Les variancies mostrals obtingudes s´on s^2 X = 0.020 en el primer generador i s^2 Y = 0.012 en el segon. A m´es, sabem que les dades s’aproximen raonablement a una normal. Realitzem un contrast amb nivell de significaci´o α = 0.05 que ajudi a esbrinar si les vari`ancies s´on iguals en tots dos generadors.
Soluci´o Plantejament un test de comparaci´o de vari`ancies de poblacions normals.
- H 0 : σ X^2 = σ^2 Y
- H 1 : σ X^2 6 = σ^2 Y (dues cues)
- Estad´ıstic: E = s^2 X s^2 Y
, F de Fisher amb (n 1 − 1 , n 2 − 1) graus de llibertat, si H 0 ´es cert.
- Regi´o de rebuig de dues cues segons les taules de la F de Fisher amb (n 1 − 1) = 30 graus de llibertat al numerador i (n 2 − 1) = 15 graus de llibertat al denominador i amb nivell de significaci´o α = 0.05: Valors superiors a f (30,15) 0 , 025 = 2,64 o inferiors a f (30,15) 0 , 975 = 1 f (15,30) 0 , 025
C`alcul del valor de l’estad´ıstic a la nostra mostra:
E =
Aquest valor no entra dins la regi´o de rebuig, per tant, amb nivell de significaci´o α = 0,05, no podem afirmar que hi hagi diferencies entre les variancies en tots dos generadors
(b) Una mostra a l’atzar de 10 begudes calentes tretes del dispensador A tenen un volum mitja de 203 ml i una desviaci´o estandard de 3 ml. Una mostra aleatoria de 16 begudes calentes del dispensador B va donar valors corresponents de 206 ml i 5 ml. La quantitat dispensada per cada maquina es pot suposar que es distribueix normalment. Volem determinar si hi ha diferencies significatives en la variabilitat del volum dispensat per les dues maquines, amb nivell de significaci´o α = 0,05.
Soluci´o
Plantejament un test de comparaci´o de variancies de poblacions normals. (Podem posar davant la variable que presenta una variancia mostral m´es gran i estalvia mirar un valor a les taules de F .)
- H 0 : σ B^2 = σ^2 A
- H 1 : σ B^2 6 = σ^2 A (dues cues)
- Estad´ıstic: E =
s^2 B s^2 A
, F de Fisher amb (nB − 1 , nA − 1) graus de llibertat, si H 0 ´es cert.
- Regi´o de rebuig de dues cues segons les taules de la F de Fisher amb (nB − 1) = 15 graus de llibertat al numerador i (nA − 1) = 9 graus de llibertat al denominador i amb nivell de significaci´o α = 0.05: Valors superiors a f (15,9) 0 , 025 = 3,77 o inferiors a f (30,15) 0 , 975. C`alcul del valor de l’estad´ıstic a la nostra mostra:
E =
Aquest valor no ´es a la regi´o de rebuig. Per tant no hi ha evidencia, amb nivell de significaci´o 5%, d’una diferencia en la variabilitat del volum dispensat per les dues m`aquines.
4.6.3 Test de comparaci´o d’esperances de dues poblacions normals
i. Amb vari`ancies σ^21 i σ^22 conegudes:
(¯x 1 − x¯ 2 ) − (μ 1 − μ 2 )
σ^21
n 1 +^
σ^22 n 2
, t´e distribuci´o N (0,1).
ii. Amb variancies σ^21 i σ^22 iguals pero desconegudes:
- Calculem la vari`ancia conjunta S^2 c =
(n 1 − 1)S 12 + (n 2 − 1)S 22
n 1 + n 2 − 2
com a estimaci´o puntual de
(¯x 1 − ¯x 2 ) − (μ 1 − μ 2 )
Sc
1
n 1 +^
1 n 2
, t´e distribuci´o t de Student amb (n 1 + n 2 − 2) graus de
llibertat.
iii. Amb vari`ancies σ^21 i σ^22 desconegudes:
(¯x 1 − x¯ 2 ) − (μ 1 − μ 2 )
S 12
n 1 +^
S^22 n 2
, t´e distribuci´o t de Student amb γ graus de llibertat,
on
S^21
n 1 +^
S^22 n 2
( (^) S 2 1 n 1
) 2
n 1 − 1 +
( (^) S 2 2 n 2
) 2
n 2 − 1
4.6.4 Test de comparaci´o de proporcions amb mostres grans
(ˆp 1 − pˆ 2 ) − (p 1 − p 2 )
p 1 (1 − p 1 )
n 1
p 2 (1 − p 2 )
n 2
, t´e distribuci´o aproximadament N (0,1)
- En els test, usualment aproximarem
p 1 (1 − p 1 )
n 1
p 2 (1 − p 2 )
n 2
p ˆ 1 (1 − pˆ 1 )
n 1
pˆ 2 (1 − pˆ 2 )
n 2
o b´e √
p 1 (1 − p 1 )
n 1
p 2 (1 − p 2 )
n 2
p ˆc(1 − pˆc)
n 1
n 2
on ˆpc =
n 1 pˆ 1 + n 2 pˆ 2
n 1 + n 2
´es la proporci´o calculada conjuntament amb les dues mostres.
EXEMPLES
(a) La MRA (Market Research Associates) esta avaluant l’eficacia de la nova campanya publicitaria d’un client. Abans de l’inici de la nova campanya, una enquesta telefonica a 150 llars a la zona de prova de mercat va mostrar 60 llars conscients de producte del client. La nova campanya s’ha iniciat amb els anuncis de televisi´o i diaris al llarg de tres setmanes. Una enquesta duta a terme immediatament despr´es de la nova campanya va mostrar que 120 de 250 llars eren ara conscients de producte del client. Proporciones aquestes dades evid`encia que la campanya de publicitat ha proporcionat una major coneixement dels productes del client?
Soluci´o
Plantegem un test de comparaci´o de proporcions. Totes dues mostres s´on prou grans. Triem α = 0.05.
- H 0 : p 1 = p 2
- H 1 : p 1 ≤ p 2 (cua inferior)
- Estad´ıstic: E ≈
pˆ 1 − pˆ 2 √ p ˆc(1 − pˆc)
1 n 1 +^
1 n 2
) , aproximadament^ N^ (0,1) si H^0 ´es cert.
- Regi´o de rebuig de cua inferior segons les taules de la N (0,1) amb α = 0.05: Valors inferiors a − 1 ,645. C`alcul del valor de l’estad´ıstic a la nostra mostra:
pˆ 1 =
pˆ 2 =
pˆc =
E =
1 150 +^
1 250
) =^ −^1 ,^5570
Aquest valor no entra dins la regi´o de rebuig, per tant, amb nivell de significaci´o α = 0,05, no podem afirmar que despr´es de la campanya publicit`aria hagi augmentat el nombre de clients potencials conscients del producte.
Aproximaci´o de l’estad´ıstic sense utilitzar la proporci´o conjunta.
E =
0 ,40(1− 0 ,40) 150 +^
0 ,48(1− 0 ,48) 250
En aquest cas la conclusi´o no ha variat.
(b) A Cleveland, d’una mostra de 73 carters es va determinar que 10 havien estat mossegats per un gos durant una setmana. A Filad`elfia, en una mostra de 80 carters, 16 havien rebut mossegades de gossos.
(a) Hi ha diferencia significativa entre les dues proporcions? Utilitzeu un nivell de significaci´o α = 0.05. (b) Trobi l’interval de confian¸ca del 95% per a la diferencia de les dues proporcions.
Soluci´o
(a) Test de comparaci´o de proporcions.
- H 0 : p 1 = p 2
- H 1 : p 1 6 = p 2 (dues cues)
- Estad´ıstic: E ≈ pˆ 1 − pˆ 2 √ p ˆc(1 − pˆc)
1 n 1 +^
1 n 2
) , aproximadament^ N^ (0,1) si H^0 ´es cert.
- Regi´o de rebuig de dues cues, segons les taules de la N (0,1) amb α = 0.05: Valors inferiors a − 1 ,96 o superiors a 1,96. C`alcul del valor de l’estad´ıstic a la nostra mostra:
pˆ 1 =
pˆ 2 =
pˆc =
E =
1 73 +^
1 80
) =^ −^1 ,^0366
Aquest valor no entra dins la regi´o de rebuig, per tant, amb nivell de significaci´o α = 0,05, no hi ha diferencies significatives entre els carters mossegats per gossos a Cleveland i a Filadelfia.
Alternativament, podem interpretar el problema com est d’independencia per a la taula de contingencia Mossegats Ciutat S´ı No Total Cleveland 10 63 73 Filadelfia 16 64 80 Total 26 127 153 La tala de valors observats ´es Esperat Mossegats Ciutat S´ı No Total Cleveland 12 , 41 60 , 59 73 Filadelfia 13 , 59 66 , 41 80 Total 26 127 153