Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


intervals de confiança, Apuntes de Estadística

Asignatura: Estadistica, Profesor: , Carrera: Psicologia, Universidad: UB

Tipo: Apuntes

2013/2014
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 19/02/2014

judith_sanchez-2
judith_sanchez-2 🇪🇸

4.2

(32)

11 documentos

1 / 26

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Intervals
de confiança
Àngel J. Gil Estallo
P08/05057/02307
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
Discount

En oferta

Vista previa parcial del texto

¡Descarga intervals de confiança y más Apuntes en PDF de Estadística solo en Docsity!

Intervals

de confiança

Àngel J. Gil Estallo

P08/05057/

Introducció als intervals de confiança.

El cas de la mitjana aritmètica

La inferència estadística proporciona mètodes per obtenir conclusions a partir d’un conjunt de dades. La majoria de les vegades no tindrem una certesa absolu- ta de les conclusions a les quals arribem. La teoria de la probabilitat fonamentarà les conclusions obtingudes i permetrà d’establir la precisió dels mètodes utilit- zats. A continuació, treballarem els anomenats intervals de confiança , començant pel cas més senzill, a partir del qual introduirem les definicions generals.

1. El concepte d’interval de confiança

A partir d’un cas concret anirem introduint gradualment les idees i les tècni- ques que sustenten la construcció dels anomenats intervals de confiança. En concret, ens plantegem estudiar la mitjana de les alçades dels estudiants de la UOC. Veurem, pas a pas, quin seria el procediment que seguiríem:

1) Establim algunes hipòtesis prèvies, que són les que determinen les distribu- cions que cal utilitzar en la construcció de l’interval. Aquestes hipòtesis prèvies permetran, en definitiva, d’utilitzar resultats de la teoria de la probabilitat.

En aquest exemple n’utilitzarem dues:

a) La distribució de les alçades segueix una llei normal, que tindrà una mitja- na  (que suposem desconeguda) i una desviació típica .

b) Coneixem, d’estudis anteriors, el valor de la desviació típica poblacional ; suposem que tenim  = 10 cm.

2) A continuació, efectuem la recollida de les dades adients al problema. Nor- malment, seleccionarem una mostra aleatòria simple de la població i obtin- drem les dades requerides a partir dels individus de la mostra.

Suposem que obtenim una mostra aleatòria simple de 121 alumnes de la UOC, als quals en preguntem l’alçada.

3) A partir de les dades obtingudes, calculem resums numèrics adients.

Com que estem interessats en la mitjana de les alçades, calculem la mitjana d’aquestes 121 observacions. Suposem que obtenim que aquesta mitjana és = 171 cm.

La utilitat de les mostres En la immensa majoria dels casos no podem accedir a les dades de tota la població, bé perquè és inviable o perquè resulta massa car!

x

Haurem de recórrer als nostres coneixements de probabilitat; en concret, uti- litzarem que per a la mitjana de les alçades de la UOC, la variable:

segueix una distribució normal estàndard. Aquesta expressió permet d’establir una relació indirecta entre  i. Aprofitarem aquest fet per construir l’interval de confiança seguint la seva definició.

Suposem que volem un nivell de confiança del 95%. Començarem per cons- truir un interval de la forma ( z*, z *) centrat en el valor 0, de manera que els valors que pren la variable aleatòria Z :

pertanyin a aquest interval amb una probabilitat del 0,95; és a dir, busquem uns valors  z * i z* per als quals:

En aquestes condicions, i tal com es veu en el gràfic següent:

el valor de z* és aquell valor tal que P ( Zz ) = (1  0,95)/2 = 0,025 (ja que Z segueix una llei normal estàndard) i, per tant, tenim que _z_ = 1,96 (aquest valor es pot obtenir a partir de les taules de la distribució normal estàndard); és a dir:

X – 

n

------------- X 10^ – 

x

Z X^ –

n

=-------------^  N  0,1

P z * X^ – n

  •  -------------^  z *  

P 1,96 X^ –

n

Ara, operant aquesta expressió amb l’objectiu d’aïllar el valor de :

i, finalment:

Finalment, l’únic que hem de fer és substituir ,  i n pels valors correspo- nents, i recordar que treballem amb una confiança del 95%. Fent la substitu- ció, doncs, obtenim que l’interval:

és un interval de confiança amb un nivell de confiança del 95% per a la mit- jana de les alçades dels alumnes de la UOC.

Abans de continuar, és important remarcar alguns fets:

a) L’interval està centrat en el valor de la mitjana de la mostra.

b) No sabem si l’interval conté o no la mitjana poblacional  i no hi ha ma- nera de saber-ho, llevat que coneguem el valor de . (I si coneixem el valor de  no cal que ens esforcem a buscar-hi el seu interval de confiança.)

c) Per a cada mostra obtinguda de la població tenim un valor de la mitjana mostral i, per tant, un interval de confiança que pot ser diferent del que hem obtingut.

d) L’expressió “confiança del 95%” indica “confiança en el mètode” emprat, de manera que el 95% de les vegades que apliquem el mètode a la mateixa po- blació obtindrem intervals que sí contenen la mitjana poblacional .

Aquest resultat ens diu que la probabilitat que la mitjana poblacional  pertanyi a un interval de la forma:

és de 0,95; o el que és el mateix: 95 de cada 100 vegades que escollim una mostra aleatòria simple i calculem el valor de la mitjana mostral, l’interval que obtindré substituint el valor de per la mitjana corres- ponent a la mostra de què disposem contindrà el veritable valor de .

P – X 1,96 

n

-------  X 1,96 

n

 – – – +^ -------^ =0,

P X 1,96 

n

-------  X 1,96 

n

 –   +^ -------^ =0,

Feu memòria Recordeu que l’expressió  ab és equivalent a aquesta altra:  ba.

X 1,96 

n

-------, X 1,96 

n

 – +^ -------

X

X

 +^ --------------^ =^ 169,22 , 172,78

No s’ha de confondre Dir que  pertany a l’interval amb una probabilitat del 0, és incorrecte, ja que la  per- tany a aquest interval (amb la qual cosa la probabilitat és u) o no hi pertany (amb la qual cosa la probabilitat que hi pertanyi és zero).

e) L’interval de confiança obtingut amb la mostra de partida és el següent:

2.1. L’efecte de la mida de la mostra

Moltes vegades, fixat el nivell de confiança, ens marcarem com a objectiu do- nar el valor del paràmetre  amb una certa precisió. L’única manera d’obtenir la precisió desitjada consisteix a modificar adequadament la mida de la mostra. Suposem que desitgem una precisió o marge de error ME ; com que sabem que

aïllant n obtenim:

Temps de connexió al Campus Virtual

En un estudi fet a la UOC es pren una mostra aleatòria de 150 estudiants i es demana quant temps van estar connectats al Campus Virtual durant el mes d’abril de l’any 2000. S’obté una mitjana mostral de 120 minuts. Suposem, a més, que el temps de connexió al Campus Virtual durant el mes d’abril de 2000 segueix una distribució normal amb desviació típica de deu minuts. Podem calcular un interval de confiança del 95% per al temps de connexió durant aquest mes, considerant la mitjana mostral i l’error estàndard de la mit- jana, que és:

Per tant, l’interval de confiança amb un nivell de confiança del 95% és (120  1,96 · 0,816) = = (120  1,59936) = (118,40 , 121,60). Si volem que la precisió del nostre interval sigui de cinc punts percentuals, haurem d’aconseguir un marge d’error inferior a 5% = 0,05. Per tant:

i aïllant n obtenim n > 153.664 i, per tant, necessitaríem una mostra inabastable, ja que a ho- res d’ara la UOC no té tants estudiants.

Mentre que (1 ) és el nivell de confiança,  és l’anomenat nivell de significació i es correspon a la proporció de mostres a partir de les quals l’interval construït segons el procediment explicat no conté el veritable valor del paràmetre que es vol aproximar.

Observació Per tant, el marge d’error és la meitat de la longitud d’interval  xz   2  xxz   (^2) de confiança.

n

-------, x z   2  n

ME z   2  n

Grandària de la mostra nz (^)   2 ^2 

2 ME^2

Mida de la mostra És fàcil veure que si volem re- duir l’amplada de l’interval de confiança a la meitat, haurem de prendre una mostra quatre vegades més gran.

x = 120 

x = -------------^10150 -^ =0,

1,96 x = 1,96 ------ n -^ = 1,96^10 ------ n - 0,

2.2. Consideracions sobre la normalitat

El procediment que s’ha presentat és vàlid per a variables que segueixen lleis normals de mitjana , ja que en aquest cas la variable següent segueix una llei normal estàndard:

Aquest fet fa que el procediment de càlcul d’un interval de confiança per a la mitjana sigui vàlid, encara que la variable que cal estudiar no sigui normal, sempre a condició que la mida de la mostra sigui superior a trenta.

3. Interval de confiança per a la mitjana quan la població és normal i desconeixem la desviació típica

En aquest cas, procedirem tal com es fa quan s’estudia la distribució de la mit- jana mostral quan la desviació típica és desconeguda: estimarem la desviació típica usant els valors mostrals i treballarem amb la distribució de la mitjana mostral , ja que, per un procediment semblant a la estandardització, la po- dem relacionar amb una altra variable que segueix una distribució de Student. A continuació, repetirem el cas de les alçades dels alumnes de la UOC perquè pugueu comparar tots dos casos:

Mitjana de les alçades dels estudiants de la UOC si la desviació típica és desconeguda 1) La hipòtesi prèvia serà la següent: la distribució de les alçades segueix una llei normal, que tindrà una certa mitjana ^ i una certa desviació típica^ ,^ totes dues desconegudes. 2) La recollida de dades consisteix a seleccionar una mostra aleatòria simple en la població. Suposem que obtenim una mostra aleatòria simple de 121 individus, als quals preguntem la seva alçada. 3) En l’apartat de càlculs ara necessitem: a) La mitjana d’aquestes 121 observacions. Suposem que obtenim = 171 cm. b) La desviació típica d’aquestes observacions:

D’altra banda, el teorema del límit central afirma que donada qualsevol variable aleatòria X amb mitjana , si la mida de les mostres considera- des és n > 30, aleshores la variable següent també es comporta com una distribució normal estàndard:

X – 

n

Conseqüència del teorema del límit central L’únic cas en què no sabrem calcular intervals de confiança per a la mitjana (suposant co- neguda la desviació típica) serà quan les poblacions siguin no normals de mesura menor X –  que trenta.  n

X

x

s (^) n ------------^1 – 1  x (^) ix ^2 i = 1

121 = 

2) Calculem la desviació típica mostral:

3) Calculem l’error estàndard de la mitjana

4) Calculem l’anomenat valor crític , que és aquell punt t 2, n  1 tal que:

P ( t (^) n  1  t 2, n  1 ) =  2

on t (^) n  1 és una variable Student amb n 1 graus de llibertat.

5) Calculem l’anomenat marge d’error (també anomenat precisió de l’estimació ) com t 2, n  1 per a l’error estàndard, és a dir, com:

6) L’interval de confiança obtingut amb la mostra de partida és el següent:

3.1. La mida de la mostra

En aquest cas no tenim un procediment directe per a trobar la mida d’una mostra que produeix un determinat marge d’error, ja que el marge d’error depèn de la desviació típica mostral ( s ), que és un valor que calculem precisament un cop la mostra ja ha estat seleccionada. En cas que necessitem aproximar la mida de la mostra, prendrem una mostra de prova que ens doni un valor apro- ximat de s. Després calcularem el marge d’error per a aquest valor s i prendrem una mostra d’amplada suficient per a garantir aquest marge d’error.

D’altra banda, i tal com passava en el cas de l’interval de confiança de la mit- jana amb la desviació típica coneguda, el procediment de càlcul de l’interval de confiança quan la desviació típica és desconeguda també és vàlid, sempre que la mostra sigui major que trenta, encara que la variable que cal estudiar no segueixi una llei normal.

Temps de connexió al Campus Virtual amb desconeixement de la desviació típica poblacional En un estudi fet a la UOC es pren una mostra aleatòria de 150 estudiants i es demana quant temps van estar connectats al Campus Virtual durant el mes d’abril de l’any 2000. S’obté una mitjana mostral de 120 minuts i una desviació típica mostral de 10 minuts. Com que la mos-

s (^) n ------------^1 – 1  x (^) ix ^2 i = 1

n = 

s (^) x s n

=^ -------

t  2, n – 1^ s n

xt  2, n – 1 s (^) xxt  2, n – 1 s n

-------, x t  2, n – 1^ s n

=  +^ -------

tra és gran ( n > 30), podem calcular un interval de confiança del 95% per al temps de conne- xió durant aquest mes, considerant la mitjana mostral ( ) i l’error estàndard de la mitjana, que és:

Ens cal calcular t 2, n  1 = t 0,025, 149 , que és aquell valor per al qual P ( t 149 > t 0,025,149 ) = = 0,025 ; utilitzant algun programa d’ordinador, obtenim t 0,025, 149 = 1,976. Per tant, l’interval de confiança amb un nivell de confiança del 95% és (120  1,976 · 0,816) = = (120  1,612416) = (118,39, 121,61). En cas que volguéssim obtenir un interval de confiança del 99%, hauríem de calcular t 0,005, 149 = 2,6092 i l’interval de confiança seria (120  2,6092 · 0,816) = (117,87, 122,13). Si volem que la precisió del nostre interval (al nivell de confiança del 95%) sigui de cinc punts percentuals, haurem d’aconseguir un marge d’error inferior al 5% = 0,05. Podem utilitzar la mostra que tenim per a donar una aproximació al valor de s i, per tant, po- dem aplicar la fórmula:

aïllant n obtenim n > 156.183,04 la qual cosa vol dir que tornem a necessitar una mostra in- abastable.

4. Comparació entre els casos estudiats

Hem vist com hem de construir, a partir dels resultats obtinguts de les obser- vacions d’una mostra aleatòria simple, els anomenats intervals de confiança. Es parteix d’un paràmetre poblacional desconegut i d’algunes hipòtesis sobre la distribució de la variable d’interès. Fixat un cert nivell de confiança C%, el mè- tode de construcció dels intervals garanteix que el C% de les mostres produei- xen un interval que conté el veritable valor del paràmetre desconegut.

El marge d’error es calcula multiplicant un factor associat al nivell de confian- ça per l’error estàndard de la mitjana. Per a calcular correctament el marge d’error, cal distingir entre dos casos:

a) Si coneixem la desviació típica poblacional , el marge d’error es calcula com:

En cas de voler trobar intervals de confiança per a la mitjana aritmètica i suposant que la variable que cal considerar segueix una distribució normal, trobem que els intervals de confiança estan centrats en la mit- jana mostral i, per tant, tenen la forma següent:

( Marge d’error)

x = 120

s (^) x = -------------^10150 -^ =0,

1,976 x = 1,976 ------ sn - = 1,976 ------^10 n - 0,

Notació En molts llibres el nivell de confiança es denota per (1 )100%.

x

z   2  x

Exercicis

1. El temps (en segons) que triga a arrancar l’última versió del programa Macro- hard Phrase segueix una distribució normal de desviació típica de quaranta se- gons. En vuitanta-un ordinadors s’ha mesurat el temps que triga a arrencar i s’ha trobat que la mitjana dels temps d’arrancada mesurats és de 158,3 segons.

a) Doneu un interval de confiança del 90% per a la mitjana de temps d’arran- cada del programa.

b) Interpreteu l’interval de confiança.

c) El fabricant afirma que la mitjana del temps d’arrancada del programa és de 140 segons. Això és possible, segons el que hem obtingut amb l’interval de confiança?

d) Quina hauria de ser la mesura de la mostra per a reduir la longitud de l’in- terval de confiança a la meitat?

2. El temps (en segons) que triga a arrencar l’última versió del programa Ma- crohard Phrase segueix una distribució normal. En vuitanta-un ordinadors s’ha mesurat el temps que triga a arrencar i s’ha trobat que la mitjana dels temps d’arrancada mesurats és de 158,3 segons i la desviació típica de la mos- tra és de dotze segons.

a) Doneu intervals de confiança del 90% i del 95% per a la mitjana dels temps d’arrancada del programa.

b) Compareu els intervals de confiança obtinguts en l’apartat anterior.

c) El fabricant afirma que la mitjana del temps d’arrancada del programa és de 140 segons. Això és possible, segons el que hem obtingut amb l’interval de confiança?

3. El fabricant d’una determinada marca de iogurts afirma que els seus enva- sos contenen en mitjana 150 g de iogurt. Hem anat al supermercat, hem com- prat deu iogurts, hem pesat el seu contingut i hem obtingut les dades següents (en grams): 148, 149, 147, 146, 149, 146, 149, 148, 149, 149.

a) Construïu un interval de confiança del 95% per al pes dels iogurts, supo- sant que el pes segueix una distribució normal de desviació típica de 3 g.

b) D’acord amb el resultat anterior, i ja que els pesos dels iogurts que hem comprat són tots menors que 150, podem afirmar que el fabricant no és prou sincer en el pes dels seus productes?

4. Repetiu l’exercici anterior, però suposant ara que el pes segueix una distri- bució normal de desviació típica desconeguda.

Solucionari

1. a) Com que la població és normal i coneixem la desviació típica poblacional, procedirem de la forma següent:

  1. Fixem el nivell de confiança (1  ) = 0,9.

  2. Calculem l’error estàndard de la mitjana

  3. Calculem el valor crític; com (1  ) = 0,9,  = 0,1 i

  4. Calculem el marge d’error (també anomenat precisió de l’estimació ) com a per a l’error estàndard, és a dir, com:

  5. L’interval de confiança és:

b) La interpretació és la següent: en el 90% de les mostres de vuitanta-un or- dinadors, el valor de la mitjana mostral obtinguda fa que l’interval contingui el veritable valor de la mitjana del temps que triga a arrancar el programa.

c) L’interval de confiança obtingut no conté el valor 140; a més, l’extrem es- querre de l’interval està molt allunyat del valor 140. Això ens diu que és poc probable que la veritable mitjana sigui de 140 segons.

d) Si la longitud de l’interval de confiança ha de ser la meitat, aleshores l’error estàndard també ha de ser la meitat; per tant, tenim que:

resolent l’equació obtenim:

Observem que equival a multiplicar per quatre la mesura de la mostra inicial.

x^  n

z   2 = z 0,05 =1,645.

z   2

z   2  n

xz   2  x  =  158,3 – 7,31, 158,3+7,31 = 150,99, 165,61

z   2  n

n

=  -------= 7,31^ ----------- 2 -^ =3,

n = 1,645 2 40

2 3,655 2

b) L’interval obtingut no conté el valor 150; per tant, la conclusió a què arri- bem és que, tot i que és possible que 150 sigui la mitjana poblacional (ja que està molt a prop dels límits de l’interval), podem dir que no ho és amb una confiança del 95%, ja que sabem que el 95% dels intervals contenen la mitja- na, i aquest no la conté.

4. a) Es tracta d’un interval de confiança per a una variable normal de la qual desconeixem la desviació típica poblacional; per tant, té la forma següent:

on és la mitjana dels valors de la mostra i s és la desviació típica dels valors de la mostra.

b) Tampoc ara l’interval obtingut conté el valor 150; per tant, arribem a la ma- teixa conclusió que en l’exercici anterior amb la diferència que ara el valor 150 es troba més lluny de l’interval.

Observem que, en no assumir la desviació típica poblacional igual a 3, el marge d’error es fa més petit, ja que la desviació típica mostral és molt menor que 3.

xt   2, n – 1 s n

 -------^148 2,2621 1,

=   ---------------^ = 147,11, 148,89

x

Interval de confiança per a la proporció

En aquesta sessió ens dedicarem a l’estudi de l’interval de confiança per a una pro- porció. Començarem amb un exemple. Suposem que volem estudiar la proporció d’estudiants de la UOC que han visitat la vall de Núria algun cop (per veure si paga la pena fer-ne publicitat, per exemple). Seguirem els passos següents:

1) Suposem que la proporció real dels d’estudiants de la UOC que han visitat algun cop la vall de Núria és p.

2) Escollim una mostra aleatòria de, suposem, n = 136 estudiants.

3) En aquesta mostra, el 75% dels estudiants declaren haver estat a Núria.

Denotarem per la proporció obtinguda a partir d’una mostra.

Aleshores, en el nostre cas

Quines conclusions podem treure ara sobre la relació entre la proporció real, respecte de tota la població p , i la proporció obtinguda a partir d’una mostra?

Com en el cas de la mitjana, haurem de recórrer a la teoria de la probabilitat per a conèixer la distribució de la proporció, segons la qual, si la mesura de la mostra és prou gran, la variable següent segueix una distribució normal estàndard:

Ara, si fixem un nivell de confiança del 95%, per exemple, i com que estem usant una distribució normal estàndard, tenim que:

Operant aquesta expressió amb l’objectiu d’aïllar el valor de p tenim que:

A diferència del que passava en els exemples anteriors, ara ens trobem amb un problema afegit, i és que l’error estàndard:

p ˆ

p ˆ^ =0,75.

p ˆ

Notació p és el paràmetre poblacional i és l’estadístic que utilitzem per a estimar-lo. I denotem per tots els possibles valors de les proporcions en totes les mostres de la mateixa mida.

p ˆ P ˆ^ – p^ P ˆ p  1 – p  -------------------- n

P – 1,96 P

ˆ (^) – p p  1 – p  -------------------- n

P P  ˆ^ – 1,96 p --------------------^ ^1 n^ – p   pP ˆ^ +1,96 p --------------------^ ^1 n^ – p 

p  1 – p  -------------------- n