Bastant complets (lo millor es el llibre oficial), Monografías, Ensayos de Estadística
djsers
djsers

Bastant complets (lo millor es el llibre oficial), Monografías, Ensayos de Estadística

PDF (1 MB)
61 páginas
50Número de descargas
122Número de visitas
84%de 13 votosNúmero de votos
1Número de comentarios
Descripción
Asignatura: Estadística II, Profesor: Juan Manuel Lopez Rey, Carrera: Administració i Direcció d'Empreses, Universidad: URV
100 Puntos
Puntos necesarios para descargar
este documento
Descarga el documento
Vista previa3 páginas / 61
Esta solo es una vista previa
3 páginas mostradas de 61 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 61 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 61 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 61 páginas totales
Descarga el documento

Guía de estadística 2

1

1. La Distribución Normal

Los espacios muestrales continuos y las variables aleatorias continuas se presentan siempre que se manejan cantidades que se miden en una escala continua; por ejemplo, cuando se mide la cantidad de alcohol en la sangre de una persona, el peso neto de un paquete de alimento congelado, la velocidad de un automóvil, etc. En el caso continuo, el lugar de los histogramas lo toman curvas continuas donde podemos imaginar a los histogramas con clases cada vez más estrechas que se aproximan a la curva continua. Entre las muchas curvas de distribución continua que se emplean en estadística, la más importante es la curva normal. Con frecuencia a la distribución normal se le identifica como la piedra angular de la estadística moderna, esto se debe en parte al papel que desempeña en el desarrollo de la teoría estadística y en parte al hecho de que es frecuente que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aunque sea de manera aproximada, esta distribución. Por ejemplo, la medición en experimentos científicos, tiempos de reacción en experimentos psicológicos, medidas e indicadores económicos, etc., tienen el mismo patrón general que las distribuciones normales. Además, la normal se puede usar para aproximar varias distribuciones de probabilidad discretas y tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en las que es necesario hacer inferencias mediante la toma de muestras. DefiniciónSe dice que una variable aleatoria continua X tiene una distribución normal con parámetros �

(donde -   �     ón de densidad de probabilidad de X es: ( )

∞<<∞= −

− x - e

2

1 f(x)

2

2

2

x

La expresión de que X está normalmente distribuida con los parámetros � e denota como:

X ~ N ( , ).

La gráfica de la distribución normal es:

Características1. La curva tiene un solo pico, por tanto es unimodal y tiene forma de campana.

2. La media de la población distribuida normalmente cae en el centro de su curva normal.

Guía de estadística 2

2

3. Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal, por lo que existe algo de probabilidad de que la variable aleatoria pueda tomar valores demasiado grandes o muy pequeños, sin embargo, no se pierde mucha precisión al ignorar valores tan alejados de la media. Por lo tanto, a cambio de la conveniencia del uso de este modelo teórico, se debe aceptar el hecho de que puede asignar valores empíricos imposibles.

4. Debido a la simetría de la distribución normal, la mediana y la moda se encuentran

también en el centro; en consecuencia, para una curva normal, la media, la mediana y la moda tienen el mismo valor.

5. Si la distribución de la población de una variable es aproximadamente normal, entonces:

a) Alrededor del 68,27% de los valores están dentro de 1 desviación estándar de la media. b) Alrededor del 95,45% de los valores están dentro de 2 desviaciones estándar de la media. c) Alrededor del 99,73% de los valores están dentro de 3 desviaciones estándar de la media.

La función de distribución acumulativa correspondiente está dada por:

( ) dte

2

1 F(x)

x

2

t 2

2

∫ ∞−

−− =

Gráficamente:

Observaciones:

Guía de estadística 2

3

- Aunque la mayor parte de las poblaciones reales no se extienden de manera indefinida en ambas direcciones, la distribución normal es una aproximación conveniente. - Cabe destacar que no hay una sola distribución normal, sino una familia de curvas normales por �      �     ,    �       áficas.

De lo anterior, se puede apreciar que la curva normal puede describir un gran número de poblaciones, diferenciadas solamente por la media, por la desviación estándar o por ambas. - Para calcular P(a  X !    � X es una variable aleatoria con distribución normal de parámetros y debemos evaluar:

( ) dxe

2

1b 2 x

2

2

∫ −−

a

Sin embargo, ninguna de las técnicas de integración estándar se emplean para evaluar la expresión anterior. En lugar de esto se trabaja con una distribución normal con valores de parámetros "  � "$#  %  &' �() *  distribución normal estándar (variable aleatoria Z) y cuya función de densidad de probabilidad viene dada por:

∞<<∞= −

z - e 2

1 f(z) 2

2z

La función de distribución acumulativa correspondiente viene dada por:

dte 2

1 )(

z

2 2

2

∫ ∞−

− =Φ

t

z

La expresión para una distribución normal estándar es Z ~ N (0,1) y donde z es la variable estandarizada. La función de distribución de esta v.a. se denota por Φ, con Φ(z) = P(Z ≤ z), y se utiliza para el cálculo de probabilidades con la tabla de la distribución normal estándar, pues las probabilidades acumuladas para la v.a. Z están tabuladas.

Guía de estadística 2

4

Por ser la distribución simétrica se cumple : P(Z ≤ z) = P(Z > -z) = 1 - P(Z ≤ -z) Así, Φ(-z) = 1 - Φ(z)

Para estandarizar la variable X utilizamos expresión:

x z

−= (1.2)

El valor de z simplemente nos dice cuántas desviaciones estándar está el valor de x correspondiente arriba o debajo de la media.

La tabla que se manejará está organizada en términos de unidades estándar, o valores de z. Da los valores de únicamente la mitad del área bajo la curva normal, empezando con 0,0 en la media. A partir de esta tabla podemos entonces calcular probabilidades de la siguiente manera: Ejemplo 1.1: Sea Z → N(0,1). Calcular : P(Z ≤ 2), P(Z > 1.5), P(1≤ Z ≤ 2.1), P(Z ≤ -0.65) P(Z ≤ 2) = Φ(2) = 0.9773 P(Z > 1.5) = 1 - P(Z ≤ 1.5) = 1 - Φ(1.5) = 1 - 0.9332 = 0.0668 P(1≤ Z ≤ 2.1) = Φ(2.1) - Φ(1) = 0.9821 - 0.8413 = 0.1408 P(Z ≤ -0.65) = Φ(-0.65) = 1 - Φ(0.65) = 1 - 0.7422 = 0.2578 Áreas bajo la curva normalEn la práctica, se encuentran áreas debajo de curvas normales en tablas especiales, sin embargo, para cualquier distribución normal de probabilidad todos los intervalos que contienen el mismo número de desviaciones estándar a partir de la media contendrán la misma fracción del área total bajo la curva para cualquier distribución de probabilidad normal.

Por lo tanto y puesto que resulta físicamente imposible (y también innecesario) construir tablas separadas de áreas de curvas normales para todas las parejas de valores de �    estas áreas se tabulan sólo en relación con la distribución normal estándar, es decir para calcular probabilidades asociadas a variables cuya distribución es normal con media �  ón cualquiera primero debemos estandarizar la variable utilizando (1.2) y después emplear la tabla de la distribución normal estándar para el cálculo de las probabilidades. (Tabla 1 del Apéndice)

Guía de estadística 2

5

Ejemplo 1.2: Supongamos que la nota que obtienen los estudiantes de administración en una materia sigue una distribución normal con una media de 10 puntos y una desviación de 5 puntos. Se desea calcular la probabilidad de que un estudiante de administración obtenga una nota:

a) Superior a los 15 puntos. b) Entre los 10 y los 16 puntos.

Definamos la variable X como la nota que se obtiene en la materia en estudio. Entonces tenemos que: X ~ N (10,25). Primero hay que estandarizar la v. a. X. Es decir, convertirla en una v.a. de media 0 y varianza 1

a) P(X > 15) = 1 - P(X ≤ 15) = 1 - P (Z≤ 15 - 10 ) 5 =1 - P(Z ≤ 1) = 1 - Φ(1) = 1 - 0.8413 = 0.1587 Análogamente se obtiene:

b) P(10 < X ≤ 16) = 0.3849 c) El profesor de la materia ha expresado que va a exonerar del examen final al 5% de los

estudiantes que mejor nota acumulada tengan durante el curso. ¿Qué nota tiene que obtener un estudiante como mínimo para que sea exonerado del examen final?

En este caso se nos plantea el problema desde otro punto de vista: Ahora conocemos que P(X >n) = 0.05, es decir que existe una nota (n), que sólo es superada por el 5% de los estudiantes, y ese valor es el que debemos averiguar.

P(X>n) = 1 – P(X<n) =   

  −<−

5

10 1

n ZP =1 - Φ 

 

  −

5

10n = 0.05.

Por lo que Φ   

  −

5

10n = 0.95 y de la Tabla 1 tenemos que

5

10−n = 1.65, así que

n= 1.65*5+10 = 18.25 Un estudiante debe obtener como mínimo 18.25 para ser exonerado del examen final.

La distribución normal como una aproximaciónAunque la distribución normal es continua, resulta interesante hacer notar que algunas veces puede utilizarse para aproximar distribuciones discretas. Por ejemplo, los siguientes gráficos corresponden a distribuciones binomiales con p = 0,5 y distintos valores de tamaños de muestras:

Guía de estadística 2

6

A medida que n aumenta, la forma que se va adoptando es más parecida a la curva normal. La aproximación normal a la distribución binomial nos permite resolver problemas sin tener que

consultar grandes tablas de la distribución binomial tomando �   � � npq , sin embargo,

debemos notar que se necesita tener algo de cuidado al utilizar la aproximación ya que la misma es bastante buena siempre y cuando se cumpla:

np  �   Nota: al realizar la aproximación se hace un pequeño ajuste ya que debido a que la normal es una distribución continua, la probabilidad de que la variable aleatoria sea exactamente igual a un valor específico es cero. Este ajuste se denomina factor de corrección. El factor de corrección de continuidad es el ajuste de media unidad de medida para mejorar la exactitud cuando a una distribución discreta se le aplica una distribución continua. Casos que pueden surgir: 1) Para la probabilidad de que por lo menos X ocurran, use el área por encima de (X – 0,5). 2) Para la de que más de X sucedan, utilice el área por arriba de (X + 0,5). 3) Para la de que X o menos ocurran, aplique el área por debajo de (X + 0,5). 4) Para la de que menos de X sucedan, emplee el área situada por debajo de (X – 0,5). Ejemplo 1.3: Suponga que una moneda se lanza 10 veces y que deseamos calcular la probabilidad de obtener 5,6 7 u 8 caras. Debemos calcular:

)85( ≤≤ XP , al aplicar el factor de corrección y utilizando que

58.15.0*5.0*10

55.0*10

===

===

npq

ynp

σ

µ

calculamos entonces:

PXP =<< )5.85.4(   

  −<<−

58.1

55.8

58.1

55.4 Z 6119.0)32.0()2.2( =−Φ−Φ=

Si hubiésemos aplicado la fórmula de la distribución de la binomial hubiésemos obtenido que la probabilidad es de 0.6123, así que observamos que los resultados son muy parecidos, lo que refleja la bondad de la estimación en al cálculo de la probabilidad buscada.

Guía de estadística 2

7

También es posible deducir una relación entre las distribuciones de Poisson y la Normal mediante el teorema del límite central que se verá posteriormente.

Guía de estadística 2

8

2.Distribuciones de Muestreo

Conceptos básicos

Estadístico Es cualquier característica de una muestra, como la media de la muestra, la desviación de la muestra, etc. Parámetro Es cualquier característica de una población, como la media de la población, la desviación de la población, etc. Muestra Es una porción representativa de elementos de una población, elegida para su examen o medición directa. Muestreo Proceso de selección de muestras, se utiliza cuando no es posible contar o medir todos los elementos de la población objeto de estudio. Tipos de Muestreo Existen dos métodos para seleccionar muestras de poblaciones: a) Muestreo no aleatorio o de juicio: se emplea el conocimiento y la opinión personal para identificar aquellos elementos de la población que deben incluirse en la muestra. b) Muestreo aleatorio o de probabilidad: en el cual todos los elementos de la población tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se encuentran: b.1) Muestreo aleatorio simple: el cual es un método de selección de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la población completa, una oportunidad igual de ser incluido en la muestra. b.2) Muestreo sistemático: método en el cual los elementos que se muestrearán se seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. b.3) Muestreo estratificado: método en el que la población se divide en grupos homogéneos, o estratos, y después se toma una muestra aleatoria simple de cada estrato. Aquí la variabilidad dentro de cada grupo es pequeña y entre los grupos es grande. b.4) Muestreo de racimo: método en el que la población se divide en grupos o racimos de elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad dentro de cada grupo es grande y entre los grupos es pequeña; es como si cada racimo fuese un pequeña representación de la población en si mima. Error Muestral Es la diferencia entre el parámetro de la población y el estadístico de la muestra utilizado para estimar el parámetro. Distribución muestral

Guía de estadística 2

9

Es una lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor. Se considerarán la distribución muestral de medias y la de proporciones.

Distribución muestral de medias

Guía de estadística 2

10

1. Definición: es la distribución de probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de una población.

2. Media de las medias muestrales: es la media de todos los valores posibles de las medias

que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que el valor esperado de las medias muestrales es igual a la media poblacional;

es decir, )x(E = x � �   én se tiene que

k

x x ∑= en donde k es el número de

muestras.

3. Error estándar de la media: es la desviación estándar de la distribución de muestreo de la media, por lo que mide el grado en que se espera que varíen las medias de las diferentes muestras de la media de la población, debido al error aleatorio en el proceso de muestreo. Al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercará al valor de la media de la población. (efecto del tamaño de la muestra sobre el error típico, es decir, a medida que aumenta el tamaño de la muestra, se incrementa la precisión con la que se puede usar la media de muestra para estimar la media de la población, sin embargo, rara vez vale la pena tomar muestras excesivamente grandes ya

que el error estándar de la media varía inversamente con n , por lo que hay una utilidad decreciente en el muestreo). Usos: indica el tamaño del error de azar que se ha cometido, y además señala la probable precisión que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población. La distribución muestral de medias tiene un error estándar igual a:



Para población infinita, muestreo con reemplazo

o población normal : nx

=



Para población finita y muestreo sin reemplazo: 1-N

n-N

nx ⋅=



ón estándar de la población y n el tamaño de la muestra.

El factor de corrección aplicado en el segundo caso se utiliza si 05,0 N

n ≥ , otros autores

consideran 1,0 N

n ≥

4. Teorema del límite central: es un teorema a través del cual se asegura que la distribución

de muestreo de la media se aproxima a la normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n 

Nota: si la distribución de la población es bastante simétrica, la distribución muestral de la media se aproxima a la normal si se seleccionan muestras pequeñas.

Guía de estadística 2

11

5. Normalidad y determinación de probabilidades para la media muestral: una aplicación

muy corriente y útil de la distribución muestral es determinar la probabilidad de que la media de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n  � normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información necesaria en la toma de decisiones.

z = x

x −

Ejemplo 2.1: El precio medio de ventas de casa nuevas en una ciudad americana es de $115 000 con una desviación típica de $25 000. Se toma una muestra aleatoria de 100 casas nuevas de esta ciudad. a)¿Cuál es la probabilidad de que la media muestral de los precios de venta sea menor de $110 000? X: Precios de venta de las casas. Dado que el tamaño de muestra n=100 > 30 podemos utilizar el Teorema Central del Límite, así que tenemos que:

.0228.09772.01)2( 2500

115000110000 )110000(

2500 10

25000

115000

=−=−Φ=  

  −<=<

===

==

ZPXP

n x

x

σσ

µµ

b) ¿Cuál es la probabilidad de que la media muestral se encuentre a menos de $500 de la media poblacional?

( ) ( ) 9544.00228.09772.0)22(11500114500500 =−=<<−=<<=<− ZPXPXP µ Ejemplo 2.2 Se ha tomado una muestra de 16 directores de 100 oficinas de una ciudad con el fin de estimar el tiempo medio diario que emplean en desplazarse hasta su trabajo. Si la media de los tiempos es de 87 minutos y la desviación típica de 20 minutos, calcule la probabilidad de que la media muestral sea menor de 100 minutos. Como la población es finita y la muestra es sin reemplazo, debemos verificar si es o no necesario el empleo del factor de corrección para calcular el error muestral.

Tenemos que: 05.016.0,16,100 >=== N

n nN , por lo que es necesario el Factor de Corrección.

Entonces:

Guía de estadística 2

12

605.4

1100

16100

4

20

87

= −

−=

=

x

x

σ

µ

( ) 9976.0)82.2( 605.4

87100 100 =Φ=

 

  −<=< ZPXP

Ejemplo 2.3: Supongamos que el incremento porcentual de los salarios de los funcionarios de todas las corporaciones medianas se distribuye normal con una media de 12.2% y una desviación típica de 3.6%. Si se toma una muestra aleatoria de nueve observaciones de esta población, calcule la probabilidad de que el incremento medio muestral porcentual sea menor del 10%. Como la distribución de la población es normal, tenemos que los parámetros de la distribución muestral de la media son:

( ) 0306.0)83.1( 2.1

2.2 10

2.1 3

6.3

2.12

=−Φ=  

  −<=<

==

=

ZPXP

x

x

σ

µ

Es realmente muy poco probable que el incremento medio porcentual esté por debajo del 10%. Distribución muestral de proporción

1. Definición: es la distribución de probabilidad de todos los valores posibles de la proporción muestral (p).

2. Media de las proporciones muestrales: es la media de todos los valores posibles de las

proporciones que se pueden generar mediante las diversas muestras aleatorias simples. Se

puede demostrar que la media de las proporciones muestrales p será igual a ón de la población). El valor esperado de las proporciones muestrales es igual a la proporción

poblacional; es decir, )p(E

3. Error estándar de la proporción: es la desviación estándar de la distribución de muestreo de la proporción, por lo que mide el grado en que se espera que varíen las proporciones de las diferentes muestras de la proporción de la población, debido al error aleatorio en el proceso de muestreo. La distribución de muestreo tiene un error estándar igual a:

Para población infinita o muestreo con reemplazo: n

)(1 p

ππ −= �

Para población finita y muestreo sin reemplazo:

1-N

n-N

n

)(1 p ⋅

−= ππ

Guía de estadística 2

13

En ambos caso ón en la población y n el tamaño de la muestra. El factor

de corrección aplicado en el segundo caso se utiliza si 1,0 N

n > aunque otros autores

consideran 05,0 N

n >

4. Teorema del límite central: es un teorema a través del cual se asegura que la distribución

muestral de la proporción se aproxima a la distribución normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n

 -

5. Determinación de probabilidades para la media muestral: una aplicación muy corriente y útil de distribución muestral es determinar la probabilidad de que la proporción de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n  � - mayores a 5, el teorema del límite central garantiza la normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información necesaria en la toma de decisiones.

z = p

p π−

Observación: En la terminología estadística, la distribución de muestreo que se obtendría al tomar todas las muestras de un tamaño dado constituye una distribución teórica de muestreo. En la práctica, el tamaño y el carácter de la mayor parte de las poblaciones impiden que los responsables de las decisiones tomen todas las muestras posibles de una distribución de población, sin embargo, se han desarrollado fórmulas para estimar las características de estas distribuciones teóricas de muestreo, haciendo innecesario que se recolecten grandes números de muestras. En casi todos los casos, los responsables de las decisiones sólo toman una muestra de la población, calculan estadísticas para esa muestra y de esas estadísticas infieren algo sobre los parámetros de toda la población.

Ejemplo 2.4 Se toma una muestra de 250 casas de una población de edificios antiguos para estimar la proporción de casas de este tipo. Supongamos que el 30% de todos los edificios son antiguos. Hallar la probabilidad de que la proporción de edificios antiguos esté entre 0.25 y 0.35. Tenemos que 250y3.0 == np , note que aquí la población es infinita. Así que

029.0 250

7.0*3.0)1( ==−= n

pp pσ y con ello:

Guía de estadística 2

14

  

  −<−<−=<<

029.0

3.035.0

029.0

3.0ˆ

029.0

3.025.0 )35.0ˆ25.0(

p PpP = 9146.0)72.1()72.1( =−Φ−Φ

Es muy probable que la probabilidad de que la proporción de edificios antiguos esté en ese intervalo. Ejemplo 2.5: Se ha estimado que el 43% de los licenciados en economía consideran que es muy importante que se imparta un curso de ética en economía. De una población de 800 estudiantes se tomó una muestra de 80. Calcular la probabilidad de que más de la mitad de ellos opinen de ese modo. En este necesitamos el factor de corrección dado que:

0525.0 1800

80800

80

57.0*43.0

:obtenemos que lopor 05.01.0 800

80

= −

−=

>==

p

N

n

σ

La probabilidad que se nos pide es:

0918.09082.01)33.1(1)33.1( 0525.0

43.05.0 )5.0ˆ( =−=Φ−=>=

 

  −>=> ZPZPpP

Por tanto es pequeña la probabilidad de que más de la mitad de los estudiantes consideren necesario que se imparta ética en la licenciatura de economía. 3. Teoría de la Estimación Estadística

Razón para estimar Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales, sin que tengan la información pertinente completa y con una gran incertidumbre acerca de lo que pueda deparar el futuro, pero con la esperanza de que las estimaciones posean una semejanza razonable con el resultado Estimador Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza para deducir la estimación. Estimación Es un valor específico observado de un estimador, por lo que asigna un valor numérico a un parámetro de una población sobre la base de datos de muestra. Tipos de estimación

Guía de estadística 2

15

a) Estimación puntual: consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de un parámetro de una población que es desconocido. Por ejemplo, la media muestral x es una estimador puntual de la media poblacional b) Estimación por intervalo: es la estimación de un parámetro de la población dado por dos números entre los cuales se puede considerar que se encuentra el parámetro. Las estimaciones de intervalo indican la precisión de una estimación y son, por lo tanto, preferibles a las estimaciones puntuales. Características que debe tener un buen estimador a) Debe ser insesgado: un estimador es insesgado, si en promedio, tiende a tomar valores que están por encima del parámetro de la población con la misma frecuencia y la misma extensión, con la que tiende a asumir valores por debajo del parámetro de población que se está estimando. b) Debe ser eficiente: de varios estimadores insesgados, el más eficiente es el que tiene el error estándar más pequeño. c) Debe ser consistente: significa que a medida que aumenta el tamaño de la muestra, la estimación se aproxima al valor del parámetro. d) Debe ser suficiente: significa que ningún otro estimador puede suministrar más información sobre el parámetro. Nivel de Confianza Probabilidad asociada con una estimación de intervalo de un parámetro de población. Ésta indica qué tan seguro se está de que la estimación de intervalo incluirá al parámetro de la población. Los niveles de confianza que más se utilizan son 90%, 95% y 99%. Intervalo de Confianza Es el alcance, rango o recorrido de la estimación que se hace y que tiene designada una probabilidad de que incluya el valor real del parámetro de la población que se está estimando. Límites de Confianza Son el límite inferior y superior de un intervalo de confianza. Coeficiente de Confianza Es el nivel de confianza (en valores relativos) que tenemos en que el intervalo contiene el valor desconocido del parámetro. Por ejemplo, para un nivel de confianza del 90%, el coeficiente de confianza es 0,9

Guía de estadística 2

16

Relación entre nivel de confianza e intervalo de confianza Aunque podría pensarse que deberíamos utilizar un alto nivel de confianza (como 99%) en todos los problemas de estimaciones, en la práctica, altos niveles de confianza producen intervalos de confianza grandes y éstos no son precisos. Interpretación de los intervalos de confianza Un intervalo de confianza se puede interpretar de dos maneras diferentes. Ejemplo: una directora de tiendas cree que el gasto medio de sus clientes en el último año se encuentra en el intervalo de 35 a 38 dólares y concede una significación del 95% a ese intervalo.

• Interpretación 1: confía al 95% en que la media poblacional se encuentra entre 35 y 38 dólares. Nota: no significa que haya una pr �   dólares. En sentido apriorístico (antes de formar el intervalo de confianza) hay una

�  

á o no está comprendido en él; es decir, el 95% de probabilidad se asigna a 

que esté en él.

• Interpretación 2: si se construyen todos los intervalos de confianza posibles, el 95% de ellos incluirá el parámetro desconocido.

Guía de estadística 2

17

�       

Es la proporción de intervalos que no contienen el valor desconocido del parámetro. Se calcula utilizando el coeficiente de confianza:

– Coeficiente de Confianza Intervalos de confianza para la media poblacional y la proporción (muestras grandes) a) Para la media:

• ! x ± Z x

(recordar: n

x

= )

• " ! x ± Z x

s (recordar: n

s s

x = también es usada:

n

ˆ

x̂ = )

s es la desviación típica en la muestra y s = .̂

Observación: si la población es finita y 05,0 N

n ≥ se utiliza también el factor de corrección

1N

nN

− −

La expresión Z

x o Z

x s es el margen de error. Gráficamente:

b) Para la proporción: teóricamente, la distribución binomial es la distribución correcta para utilizarse en la construcción de intervalos de confianza para estimar una proporción, sin embargo, debido a que el cálculo de probabilidades binomiales es muy tedioso podemos aproximar a una normal al aumentar el tamaño de la muestra y siempre que n - sean mayores o iguales 5.

• #%$ p (recordar sp = n

p)(1 p p̂

−= y Z sp es el margen de error)

Intervalos de confianza para la media poblacional (muestras pequeñas) Hasta ahora se había estudiado la estimación para la media poblacional en diversas condiciones, en algunos casos se conocía ía esta hipótesis. Se han calculado intervalos de confianza con la hipótesis de una población que seguía una distribución normal y también cuando se suponía que la distribución era desconocida pero a la cual se podía aplicar el teorema del límite central ya que las muestras eran grandes. Sin embargo, en muchas aplicaciones, obtener una muestra grande es poco probable e incluso imposible, por ejemplo, las compañías de seguro que comprueban la resistencia de los carros a las colisiones. Destruir a propósito 30 o más carros puede ser algo caro. Cuando hay que tomar una muestra pequeña, la distribución t de student es más apropiada.

El intervalo correspondiente será: x ± t x

s

Guía de estadística 2

18

(recordar: n

s s

x = y en donde t

x s es el margen de error)

La distribución t (a) Características

• Es simétrica respecto de la media. • El eje horizontal es una asíntota y la gráfica se extiende de - • Su varianza es mayor que 1 por lo que gráficamente esta distribución es más achatada y

más dispersa que la normal. • La varianza de la distribución depende de los grados de libertad (es el número de valores

que podemos escoger libremente. gl = n – 1)

• La varianza es 3n

1n2 − −=

• Cuando n  �  b) Condiciones para usar la distribución t:

• La muestra es pequeña (n < 30) • No se conoce • Se supone que la población es normal o aproximadamente normal.

c) Características de la tabla de la distribución t:

• Es más compacta y muestra áreas y valores de t solamente para algunos porcentajes. • No se enfoca en la probabilidad de que el parámetro de la población que se está

estimando se encuentre dentro de nuestro intervalo de confianza, mide la probabilidad de que no esté dentro de nuestro intervalo de confianza.

• Se deben especificar los grados de libertad con los cuales se esté trabajando.

d) Para tipificar: x

s

x t

−=

Guía de estadística 2

19

Ejemplo3.1

Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que los datos siguen una distribución normal con una desviación estándar de 0.3.

Solución:

La estimación puntual de µ es 2.6. La varianza de la población es conocida el valor de z del 95% es 1.96, por lo tanto el intervalo lo calcularíamos como:

36

3.0*96.1 6.2 ± y por tanto ]7.2,5.2[∈µ con una confianza del 95%. O en otras palabras,

la probabilidad de que la concentración media de zinc esté entre 2.5 y 2.7 gramos por mililitro es de 0.95.

Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más amplio:

36

3.0*575.2 6.2 ± ]73.2,47.2[∈µ

la probabilidad de que la concentración media de zinc esté entre 2.47 y 2.73 gramos por mililitro es de 0.99.

Guía de estadística 2

20

.

Como se puede observar en los resultados del ejercicio se tiene un error de estimación mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel de confianza del 95%.

Ejemplo3.2

Extraemos una muestra de 61 estudiantes universitarios, ellos responden a una prueba de inteligencia en la que alcanzan una media de 80 y una varianza de 100. ¿Entre qué límites se hallará la verdadera inteligencia media de los estudiantes, a un nivel de confianza del 99%?

995.0 2

101.099.01 =−⇒=⇒=− ααα

La varianza poblacional es desconocida y la población no es normal, pero el tamaño muestral es mayor que 30, por tanto buscamos en las tablas la distribución t de Student 66.2)60(995.0 =t .

Sabemos que 80=X y 10=s . Sustituyendo en el intervalo de confianza tenemos:

  

   +−

60

10 66.280,

60

10 66.280

por tanto, [ ]43.83,57.76∈µ con un nivel de confianza del 99%.

Ejemplo 3.3

Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa.

Solución:

En este caso la varianza de la población es conocida, así que tenemos:

054.2 : tenemosnormal la de tablalasegún

98.0 2

104.0,30,40

=

=−⇒===

0.98z

n αασ

Guía de estadística 2

21

y obtenemos el intervalo: 30

40*054.2 780 ±

por tanto [ ]795765∈µ , lo que quiere decir que con una probabilidad de 0.96 podemos afirmar que la duración promedio de los focos se encontrará entre 765 y 795 horas.

Determinación de tamaño de muestra en estimación ¿Qué tan grande deberá ser la muestra?, si es muy pequeña se puede fallar en la obtención de los objetivos de nuestro análisis; pero si es demasiado grande desperdiciamos recursos cuando tomamos la muestra. Siempre se tendrá algo de error de muestreo debido a que no hemos estudiado a la población completa, cada vez que tomamos una muestra perdemos algo de información útil con respecto a la población; pero ese error se puede controlar si se selecciona una muestra cuyo tamaño sea adecuado. Dado un nivel de confianza que se desea, hay dos factores principales que influyen en el tamaño muestral necesario: a) La variabilidad de la población (queda fuera del control del investigador). b) El grado de error que se puede tolerar.

• Para la media: n = 2

x

Z  

  

 −

� 

utiliza una muestra piloto grande para estimarla.

• Para la proporción: n = ( )2 2

p



(1 Z

− −

En donde el denominador es el error. Si no se conoce

 Ejemplo 3.4

Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?

Solución:

73.35 4

2.12*96.1 96.12.124

2

975.0 =  

 ==== nentoncesze σ

Guía de estadística 2

22

En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en que µ difiere en menos de 4 libras de x .

Ejemplo 3.5

Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se desea tener 95% de confianza que la media real esté dentro de 10 horas de la media real?

Solución:

5.61 10

40*96.1 2

=  

 =n

Se necesita una muestra de 62 focos para estimar la media de la población y tener un error máximo de 10 horas.

¿Qué pasaría si en lugar de tener un error de estimación de 10 horas sólo se requiere un error de 5 horas?

4.245 5

40*96.1 2

=  

 =n

Se necesita una muestra de 246 focos.

Se puede observar como el tamaño de la muestra aumenta considerablemente al disminuir el error permitido a la mitad, pero esto tiene como beneficio una estimación más exacta.

Ejemplo 3.6

1.Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos, ella supone que el 50% del electorado conoce su opinión.¿Qué tamaño de muestra se necesita si se requiere una confianza del 95% y un error máximo de estimación de 0.10?

Solución: La proporción de residentes que conoce la opinión de la legisladora es de 0.5, así que:

04.96 1.0

96.1*5.0*5.0)1( 2

2

2 2/1 ==

− = −

e

zpp n α

Guía de estadística 2

23

Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la estimación tenga un error máximo de 0.10.

Control de la anchura del intervalo Es evidente que si se estrecha el intervalo, se suministrará al investigador una estimación más exacta del valor del parámetro. Hay dos métodos corrientes para estrechar un intervalo, pero para ambos se debe hacer un sacrificio adicional. Estos procedimientos son: a) Ajuste del nivel de confianza: por la propia naturaleza de los intervalos de confianza, si se acepta un nivel de confianza más bajo, se podría generar un intervalo más preciso, menos amplio, pero eso aumenta la probabilidad de error. b) Ajuste del tamaño de la muestra: el aumentar el tamaño de la muestra disminuye el error esperado y es más probable que se de una estimación más ajustada del valor verdadero del parámetro, con ello se puede conservar un nivel de confianza determinado y al mismo tiempo disminuir la anchura del intervalo; pero el sacrificio es un aumento ya sea de tiempo, del gasto, etc.; que se exige para recoger los datos para una muestra mayor. Resumen de fórmulas

Estimación de Población finita y 05,0N

n ≥ Población infinita o

05,0 N

n < �� 

1N

nN

n zx

− −±

n zx ±

1N

nN

n

ˆ zx

− −±

n

ˆ zx ±

 �� 

n sˆ= )

Si n < 30 y la población es normal o aproximadamente normal

n

ˆ tx ±

Estimación de

n

p ± z n

p)(1 p −

Nomenclatura

̂ => estimación de la desviación estándar de la población.

x̂ => error estándar estimado de la media (recordar:

n

ˆ

x̂ = si la población es infinita)

p̂ => error estándar estimado de la proporción

Guía de estadística 2

24

sp => estimación del error típico de la distribución muestral de proporciones muestrales.

(recordar que sp = p̂ = n

p)(1 p − )

Guía de estadística 2

25

4. Prueba de Hipótesis

Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer alguna conclusión o inferencia sobre una población. En realidad es la población y su parámetro lo que nos interesa. El único motivo para examinar muestras es que las poblaciones suelen se demasiado grandes y costosas de estudiar. La prueba de hipótesis es un procedimiento estadístico que comienza con una suposición que se hace con respecto a un parámetro de población, luego se recolectan datos de muestra, se producen estadísticas de muestra y se usa esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual se hizo la suposición. Objetivo de la prueba de hipótesis El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio con respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. Conceptos Básicos Hipótesis Es una suposición o especulación que se hace con respecto a un parámetro de población. Hipótesis Nula (H0) Es la suposición con respecto a un parámetro de población que se desea probar. Se establece antes de comenzar a tomar la muestra y es rechazada o no en función de la información muestral. Observación: siempre que se afirme que se acepta la hipótesis nula, en realidad lo que se quiere decir es que no hay suficiente evidencia estadística para rechazarla por lo que aceptar H0 no garantiza que H0 sea cierta. Hipótesis Alternativa (H1) Conclusión que se acepta cuando los datos no respaldan la hipótesis nula. La metodología de las pruebas de hipótesis está diseñada para que el rechazo de la hipótesis nula se base en la evidencia de la muestra de que es mucho más probable que la hipótesis alternativa sea cierta. No obstante, no rechazar la hipótesis nula no es prueba de que sea cierta. Nivel de Significancia Indicador del porcentaje de valores de muestra que están fuera de ciertos límites, suponiendo que la hipótesis nula es correcta. Cabe destacar que mientras más alto sea el nivel de significancia que se utiliza para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta. En la siguiente figura se muestran tres niveles de significancia distintos:

No están mal.
Esta solo es una vista previa
3 páginas mostradas de 61 páginas totales
Descarga el documento