































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Material de estudio para micro y estadistica
Tipo: Guías, Proyectos, Investigaciones
1 / 39
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
































225
El resultado de un experimento estadístico se puede registrar como un valor numérico o como una representación descriptiva. Cuando se lanza un par de dados y lo que nos inte- resa es el resultado total, registramos un valor numérico. Sin embargo, si a los estudian- tes de cierta escuela se les hacen pruebas de sangre para averiguar cuál es su tipo, podría ser más útil una representación descriptiva. La sangre de una persona se puede clasificar de 8 maneras. Puede ser AB, A, B u O, cada una con un signo de más o de menos, lo cual depende de la presencia o ausencia del antígeno Rh. En este capítulo nos enfocamos en el muestreo de distribuciones o poblaciones, y estudiamos cantidades tan importantes como la media de la muestra y la varianza de la muestra , que serán de importancia fundamental en los capítulos siguientes. Además, en los próximos capítulos intentamos introducir al lector al papel que desempeñarán la media y la varianza de la muestra en la inferencia estadística. El uso de las computadoras modernas de alta velocidad permite a los científicos e ingenieros incrementar enorme- mente su uso de la inferencia estadística formal con técnicas gráficas. La mayoría de las veces la inferencia formal parece muy árida y quizás incluso abstracta para el profesional o el gerente que desea que el análisis estadístico sea una guía para la toma de decisiones.
Comenzamos esta sección presentando los conceptos de poblaciones y muestras. Ambas se mencionan de forma extensa en el capítulo 1; sin embargo, aquí será necesario estu- diarlas más ampliamente, en particular en el contexto del concepto de variables aleato- rias. La totalidad de observaciones que nos interesan, ya sean de número finito o infinito, constituye lo que llamamos población. En alguna época el término población se refería a observaciones que se obtenían de estudios estadísticos aplicados a personas. En la actuali- dad el estadístico utiliza la palabra para referirse a observaciones sobre cualquier cuestión de interés, ya sea de grupos de personas, de animales o de todos los resultados posibles de algún complicado sistema biológico o de ingeniería.
226 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
Definición 8.1: Una población consta de la totalidad de las observaciones en las que estamos intere- sados.
El número de observaciones en la población se define como el tamaño de la pobla- ción. Si en la escuela hay 600 estudiantes que clasificamos de acuerdo con su tipo de sangre, decimos que tenemos una población de tamaño 600. Los números en las cartas de una baraja, las estaturas de los residentes de cierta ciudad y las longitudes de los pe- ces en un lago específico son ejemplos de poblaciones de tamaño finito. En cada caso el número total de observaciones es un número finito. Las observaciones que se obtienen al medir diariamente la presión atmosférica desde el pasado hasta el futuro, o todas las me- diciones de la profundidad de un lago desde cualquier posición concebible son ejemplos de poblaciones cuyos tamaños son infinitos. Algunas poblaciones finitas son tan grandes que en teoría las supondríamos infinitas, lo cual es cierto si se considera la población de la vida útil de cierto tipo de batería de almacenamiento que se está fabricando para distribuirla en forma masiva en todo el país. Cada observación en una población es un valor de una variable aleatoria X que tiene alguna distribución de probabilidad f ( x ). Si se inspeccionan artículos que salen de una línea de ensamble para buscar defectos, entonces cada observación en la población podría ser un valor 0 o 1 de la variable aleatoria X de Bernoulli , con una distribución de probabilidad
b ( x ; 1 , p ) = p x^ q^1 − x^ , x = 0, 1
donde 0 indica un artículo sin defecto y 1 indica un artículo defectuoso. De hecho, se supone que p , la probabilidad de que cualquier artículo esté defectuoso, permanece cons- tante de una prueba a otra. En el experimento del tipo de sangre la variable aleatoria X representa el tipo de sangre y se supone que toma un valor del 1 al 8. A cada estudiante se le asigna uno de los valores de la variable aleatoria discreta. Las duraciones de las ba- terías de almacenamiento son valores que toma una variable aleatoria continua que quizá tiene una distribución normal. De ahora en adelante, cuando nos refiramos a una “pobla- ción binomial”, a una “población normal” o, en general, a la “población f ( x )”, aludire- mos a una población cuyas observaciones son valores de una variable aleatoria que tiene una distribución binomial, una distribución normal o la distribución de probabilidad f ( x ). Por ello, a la media y a la varianza de una variable aleatoria o distribución de probabi- lidad también se les denomina la media y la varianza de la población correspondiente. En el campo de la inferencia estadística, el estadístico se interesa en llegar a con- clusiones respecto a una población, cuando es imposible o poco práctico conocer todo el conjunto de observaciones que la constituyen. Por ejemplo, al intentar determinar la longitud de la vida promedio de cierta marca de bombilla, sería imposible probarlas todas si tenemos que dejar algunas para venderlas. Los costos desmesurados que impli- caría estudiar a toda la población también constituirían un factor que impediría hacerlo. Por lo tanto, debemos depender de un subconjunto de observaciones de la población que nos ayude a realizar inferencias respecto a ella. Esto nos lleva a considerar el concepto de muestreo.
Definición 8.2: Una muestra es un subconjunto de una población.
Para que las inferencias que hacemos sobre la población a partir de la muestra sean válidas, debemos obtener muestras que sean representativas de ella. Con mucha
228 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
que p ˆ variara un poco de una a otra muestra. Es decir, p ˆ es un valor de una variable alea- toria que representamos con P. Tal variable aleatoria se llama estadístico.
Definición 8.4: Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama estadístico.
En el capítulo 4 presentamos los parámetros μ y σ^2 , que miden el centro y la variabilidad de una distribución de probabilidad. Éstos son parámetros de población constantes y de ninguna manera se ven afectados o influidos por las observaciones de una muestra alea- toria. Definiremos, sin embargo, algunos estadísticos importantes que describen las me- didas correspondientes de una muestra aleatoria. Los estadísticos que más se utilizan para medir el centro de un conjunto de datos, acomodados en orden de magnitud, son la media , la mediana y la moda. Aunque los primeros dos estadísticos se expusieron en el capítulo 1, repetiremos las definiciones. Sean X 1 , X 2 ,..., Xn representaciones de n varia- bles aleatorias.
a ) Media muestral: X ¯ = 1 n
n
i = 1
X (^) i.
Observe que el estadístico Xˉ^ toma el valor x¯ = (^) n^1
n
i = 1
x (^) i cuando X 1 toma el valor x 1 , X 2 toma el valor x 2 y así sucesivamente. El término media muestral se aplica tanto al esta- dístico Xˉ^ como a su valor calculado ¯ x.
b ) Mediana muestral:
˜ x =
x (^) ( n +1)/ 2 , si n es impar, 1 2 ( x^ n /^2 +^ x^ n /^2 +^1 ),^ si^ n^ es par.
La mediana muestral también es una medida de localización que indica el valor central de la muestra. En la sección 1.3 se presentan ejemplos de la media muestral y de la me- diana muestral. La moda muestral se defi ne de la siguiente manera:
c ) La moda muestral es el valor que ocurre con mayor frecuencia en la muestra.
Ejemplo 8.1: Suponga que un conjunto de datos consta de las siguientes observaciones:
0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.
La moda de la muestra es 0.43, ya que este valor aparece con más frecuencia que los demás. Como se expuso en el capítulo 1, una medida de localización o tendencia central en una muestra no da por sí misma una indicación clara de la naturaleza de ésta, de manera que también debe considerarse una medida de variabilidad en la muestra.
La variabilidad en la muestra refleja cómo se dispersan las observaciones a partir del promedio. Se remite al lector al capítulo 1 para un análisis más amplio. Es posible tener dos conjuntos de observaciones con las mismas media o mediana que difieran de manera considerable en la variabilidad de sus mediciones sobre el promedio. Considere las siguientes mediciones, en litros, para dos muestras de jugo de naranja envasado por las empresas A y B : Muestra A 0.97 1.00 0.94 1.03 1. Muestra B 1.06 1.01 0.88 0.91 1.
Ambas muestras tienen la misma media, 1.00 litros. Es muy evidente que la em- presa A envasa el jugo de naranja con un contenido más uniforme que la B. Decimos que la variabilidad o la dispersión de las observaciones a partir del promedio es me- nor para la muestra A que para la muestra B. Por lo tanto, al comprar jugo de naranja, tendríamos más confianza en que el envase que seleccionemos se acerque al promedio anunciado si se lo compramos a la empresa A. En el capítulo 1 presentamos varias medidas de la variabilidad de una muestra, como la varianza muestral , la desviación estándar muestral y el rango de la muestra. En este capítulo nos enfocaremos sobre todo en la varianza de la muestra. Nuevamente, sea que X 1 , X 2 ,..., Xn representan n variables aleatorias.
a ) La varianza muestral:
S^2 =
n − 1
n
i = 1
( X (^) i − X ¯ ) 2. (8.2.1) El valor calculado de S^2 para una muestra dada se denota con s^2. Observe que S^2 se define esencialmente como el promedio de los cuadrados de las desviaciones de las observaciones a partir de su media. La razón para utilizar n – 1 como divisor, en vez de la elección más obvia n , quedará más clara en el capítulo 9.
Ejemplo 8.2: Una comparación de los precios de café en 4 tiendas de abarrotes de San Diego, selec- cionadas al azar, mostró aumentos en comparación con el mes anterior de 12, 15, 17 y 20 centavos por bolsa de una libra. Calcule la varianza de esta muestra aleatoria de au- mentos de precio. Solución : Si calculamos la media de la muestra, obtenemos
¯x =
=16 centavos.
Por lo tanto,
s^2 =
4
i = 1
( x (^) i − 16) 2 =
Mientras que la expresión para la varianza de la muestra de la definición 8.6 ilustra mejor que S^2 es una medida de variabilidad, una expresión alternativa tiene cierto mérito, de manera que el lector debería conocerla. El siguiente teorema contiene tal expresión.
8.2 Algunos estadísticos importantes 229
Ejercicios 231
8.2 El tiempo, en minutos, que 10 pacientes esperan en un consultorio médico antes de recibir tratamiento se registraron como sigue: 5, 11, 9, 5, 10, 15, 6, 10, 5 y 10. Trate los datos como una muestra aleatoria y calcule a ) la media; b ) la mediana; c ) la moda.
8.3 Los tiempos que los 9 individuos de una muestra aleatoria tardan en reaccionar ante un estimulante se registraron como 2.5, 3.6, 3.1, 4.3, 2.9, 2.3, 2.6, 4.1 y 3.4 segundos. Calcule a ) la media; b ) la mediana.
8.4 El número de multas emitidas por infracciones de tránsito por 8 oficiales estatales durante el fi n de se- mana del día en Conmemoración de los Caídos es 5, 4, 7, 7, 6, 3, 8 y 6. a ) Si estos valores representan el número de multas emitidas por una muestra aleatoria de 8 oficiales estatales del condado de Montgomery, en Virginia, defi na una población adecuada. b ) Si los valores representan el número de multas emitidas por una muestra aleatoria de 8 oficiales estatales de Carolina del Sur, defina una población adecuada.
8.5 El número de respuestas incorrectas en un exa- men de competencia de verdadero-falso para una muestra aleatoria de 15 estudiantes se registraron de la siguiente manera: 2, 1, 3, 0, 1, 3, 6, 0, 3, 3, 5, 2, 1, 4 y
8.6 Calcule la media, la mediana y la moda para la muestra, cuyas observaciones, 15, 7, 8, 95, 19, 12, 8, 22 y 14 representan el número de días de incapacidad médica reportados en 9 solicitudes de devolución de impuestos. ¿Qué valor parece ser la mejor medida del centro de esos datos? Explique las razones de su pre- ferencia.
8.7 Una muestra aleatoria de empleados de una fá- brica local prometieron los siguientes donativos, en dó- lares, al United Fund: 100, 40, 75, 15, 20, 100, 75, 50, 30, 10, 55, 75, 25, 50, 90, 80, 15, 25, 45 y 100. Calcule a ) la media; b ) la moda.
8.8 De acuerdo con la escritora ecologista Jacqueline Killeen, los fosfatos que contienen los detergentes de uso casero pasan directamente a nuestros sistemas de desagüe, ocasionando que los lagos se conviertan
en pantanos, los cuales a la larga se volverán desiertos. Los siguientes datos muestran la cantidad de fosfatos por carga de lavado, en gramos, para una muestra alea- toria de diversos tipos de detergentes que se usan de acuerdo con las instrucciones prescritas:
Detergente para ropa
Fosfatos por carga (gramos) A & P Blue Sail 48 Dash 47 Concentrated All 42 Cold Water All 42 Breeze 41 Oxydol 34 Ajax 31 Sears 30 Fab 29 Cold Power 29 Bold 29 Rinso 26
Para los datos de fosfato dados, calcule a ) la media; b ) la mediana; c ) la moda. 8.9 Considere los datos del ejercicio 8.2 y calcule a ) el rango; b ) la desviación estándar. 8.10 Para la muestra de tiempos de reacción del ejer- cicio 8.3 calcule a ) el rango; b ) la varianza, utilizando la fórmula de la forma (8.2.1). 8.11 Para los datos del ejercicio 8.5 calcule la va- rianza utilizando la fórmula a ) de la forma (8.2.1); b ) del teorema 8.1. 8.12 El contenido de alquitrán de 8 marcas de cigarri- llos que se seleccionan al azar de la lista más reciente publicada por la Comisión Federal de Comercio es el siguiente: 7.3, 8.6, 10.4, 16.1, 12.2, 15.1, 14.5 y 9. miligramos. Calcule a ) la media; b ) la varianza. 8.13 Los promedios de calificaciones de 20 estudian- tes universitarios del último año, seleccionados al azar de una clase que se va a graduar, son los siguientes: 3.2 1.9 2.7 2.4 2. 2.9 3.8 3.0 2.5 3. 1.8 2.5 3.7 2.8 2. 3.2 2.3 2.1 2.5 1. Calcule la desviación estándar.
232 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
8.14 a ) Demuestre que la varianza de la muestra per- manece sin cambio si a cada valor de la muestra se le suma o se le resta una constante c. b ) Demuestre que la varianza de la muestra se vuelve c^2 veces su valor original si cada observación de la mues tra se multiplica por c.
8.15 Verifique que la varianza de la muestra 4, 9, 3, 6, 4 y 7 es 5.1, y utilice este hecho, junto con los resulta- dos del ejercicio 8.14, para calcular a ) la varianza de la muestra 12, 27, 9, 18, 12 y 21; b ) la varianza de la muestra 9, 14, 8, 11, 9 y 12.
8.16 En la temporada 2004-2005 el equipo de futbol americano de la Universidad del Sur de California tuvo las siguientes diferencias de puntuación en los 13 par- tidos que jugó.
11 49 32 3 6 38 38 30 8 4 31 5 36
Calcule a ) la media de la diferencia de puntos; b ) la mediana de las diferencias de puntos.
El campo de la inferencia estadística trata básicamente con generalizaciones y prediccio- nes. Por ejemplo, con base en las opiniones de varias personas entrevistadas en la calle, los estadounidenses podrían afirmar que en una próxima elección 60% de los votantes de la ciudad de Detroit favorecerían a cierto candidato. En este caso tratamos con una muestra aleatoria de opiniones de una población finita muy grande. Por otro lado, con base en las estimaciones de 3 contratistas seleccionados al azar, de los 30 que laboran actualmente en esta ciudad, podríamos afirmar que el costo promedio de construir una residencia en Charleston, Carolina del Sur, está entre $330,000 y $335,000. La pobla- ción que se va a muestrear aquí también es finita, pero muy pequeña. Finalmente, con- sideremos una máquina despachadora de bebida gaseosa que está diseñada para servir en promedio 240 mililitros de bebida. Un ejecutivo de la empresa calcula la media de 40 bebidas servidas y obtiene ¯ x = 236 mililitros y, con base en este valor, decide que la máquina está sirviendo bebidas con un contenido promedio de μ = 240 mililitros. Las 40 bebidas servidas representan una muestra de la población infinita de posibles bebidas que despachará esta máquina.
En cada uno de los ejemplos anteriores calculamos un estadístico de una muestra que se selecciona de la población, y con base en tales estadísticos hicimos varias afirmaciones respecto a los valores de los parámetros de la población, que pueden ser o no ciertas. El ejecutivo de la empresa decide que la máquina despachadora está sirviendo bebidas con un contenido promedio de 240 mililitros, aunque la media de la muestra fue de 236 mililitros, porque conoce la teoría del muestreo según la cual, si μ = 240 mililitros, tal valor de la muestra podría ocurrir fácilmente. De hecho, si realiza pruebas similares, cada hora por ejemplo, esperaría que los valores del estadístico ¯ x fl uctuaran por arriba y por abajo de μ = 240 mililitros. Sólo cuando el valor de ¯ x difiera considerablemente de 240 mililitros el ejecutivo de la empresa tomará medidas para ajustar la máquina. Como un estadístico es una variable aleatoria que depende sólo de la muestra obser- vada, debe tener una distribución de probabilidad.
Definición 8.5: La distribución de probabilidad de un estadístico se denomina distribución muestral.
234 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
Teorema 8.2: Teorema del límite central: Si Xˉ^ es la media de una muestra aleatoria de tamaño n , tomada de una población con media μ y varianza finita σ^2 , entonces la forma límite de la distribución de
X ¯ − μ σ /√ n
a medida que n → ∞, es la distribución normal estándar n ( z ; 0, 1).
La aproximación normal para Xˉ^ por lo general será buena si n ≥ 30, siempre y cuando la distribución de la población no sea muy asimétrica. Si n < 30, la aproxima- ción será buena sólo si la población no es muy diferente de una distribución normal y, como antes se estableció, si se sabe que la población es normal, la distribución muestral de Xˉ^ seguirá siendo una distribución normal exacta, sin importar qué tan pequeño sea el tamaño de las muestras. El tamaño de la muestra n = 30 es un lineamiento para el teorema del límite central. Sin embargo, como indica el planteamiento del teorema, la suposición de normalidad en la distribución de Xˉ^ se vuelve más precisa a medida que n se hace más grande. De hecho, la figura 8.1 ilustra cómo funciona el teorema. La figura indica cómo la distribución de Xˉ^ se acerca más a la normalidad a medida que aumenta n , empezando con la distribución claramente asimétrica de una observación individual ( n = 1). También ilustra que la media de Xˉ^ sigue siendo μ para cualquier tamaño de la muestra y que la varianza de Xˉ^ se vuelve más pequeña a medida que aumenta n.
Figura 8.1: Ejemplo del teorema del límite central (distribución de Xˉ^ para n = 1, n mo- derada y n grande).
μ
n grande (cerca de lo normal)
n de pequeña a moderada
n = 1 (población)
Ejemplo 8.4: Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación es- tándar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas. Solución : La distribución muestral de Xˉ^ será aproximadamente normal, con μ (^) Xˉ = 800 y σXˉ = 40/ √ 16 = 10. La probabilidad que se desea es determinada por el área de la región sombreada de la fi gura 8.2.
8.4 Distribución muestral de medias y el teorema del límite central 235
En lo que corresponde a ¯ x = 775, obtenemos que
x 775 800
σ (^) x = 10
Figura 8.2: Área para el ejemplo 8.4.
z =
y, por lo tanto,
P ( X ¯ < 775) = P ( Z <− 2.5) = 0.0062.
Una aplicación muy importante del teorema del límite central consiste en determinar valores razonables de la media de la población μ. Temas como prueba de hipótesis, estimación, control de calidad y muchos otros utilizan el teorema del límite central. El siguiente ejemplo ilustra cómo se utiliza el teorema del límite central con respecto a su relación con μ , la media poblacional, aunque la aplicación formal de los temas preceden- tes se deja para capítulos posteriores. En el siguiente estudio de caso proporcionamos un ejemplo en el que se hace una inferencia utilizando la distribución muestral de Xˉ^. En este ejemplo sencillo se conocen μ y σ. El teorema del límite central y el concepto general de las distribuciones muestrales a menudo se utilizan para proporcionar evidencias acerca de algún aspecto importante de una distribución, por ejemplo uno de sus parámetros. En el caso del teorema del límite central el parámetro que nos interesa es la media μ. La inferencia que se hace acerca de μ puede adoptar una de varias formas. Con frecuencia el analista desea que los datos (en la forma de ¯ x ) respalden (o no) alguna conjetura predeterminada respecto al valor de μ. El uso de lo que sabemos sobre la distribución de muestreo puede contribuir a responder este tipo de pregunta. En el siguiente estudio de caso el concepto de prueba de hipótesis conduce a un objetivo formal que destacaremos en capítulos posteriores.
Estudio de caso 8.1: Partes para automóviles. Un importante proceso de fabricación produce partes de com- ponentes cilíndricos para la industria automotriz. Es importante que el proceso produzca partes que tengan un diámetro medio de 5.0 milímetros. El ingeniero implicado asume
8.4 Distribución muestral de medias y el teorema del límite central 237
de la media en tan sólo 7 de 1000 experimentos. Como resultado, este experimento con x ¯ = 5.027 ciertamente no ofrece evidencia que apoye la suposición de que μ = 5.0. De hecho, ¡la refuta consistentemente!
Ejemplo 8.5: El viaje en un autobús especial para ir de un campus de una universidad al campus de otra en una ciudad toma, en promedio, 28 minutos, con una desviación estándar de 5 minutos. En cierta semana un autobús hizo el viaje 40 veces. ¿Cuál es la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos? Suponga que el tiempo pro- medio se redondea al entero más cercano. Solución : En este caso μ = 28 y σ = 3. Necesitamos calcular la probabilidad P ( Xˉ^ > 30) con n =
Hay sólo una ligera probabilidad de que el tiempo promedio de un viaje del autobús exceda 30 minutos. En la fi gura 8.4 se presenta una gráfica ilustrativa.
x 28.0 30.
Figura 8.4: Área para el ejemplo 8.5.
La ilustración del estudio de caso 8.1 se refi ere a conceptos de inferencia estadística sobre una sola media μ. El ingeniero estaba interesado en respaldar una suposición con respecto a una sola media de población. Una aplicación mucho más importante incluye dos poblaciones. Un científi co o ingeniero se podrían interesar en un experimento donde se comparan dos métodos de producción: el 1 y el 2. La base para tal comparación es μ 1 – μ 2 , la diferencia entre las medias de población. Suponga que tenemos dos poblaciones, la primera con media μ 1 y varianza σ^21 , y la segunda con media μ 2 y varianza σ^22. Representemos con el estadístico X ¯ 1 la media
238 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
de una muestra aleatoria de tamaño n 1 , seleccionada de la primera población, y con el estadístico ¯ X 2 la media de una muestra aleatoria de tamaño n 2 seleccionada de la segunda población, independiente de la muestra de la primera población. ¿Qué podríamos decir acerca de la distribución muestral de la diferencia X ¯ 1 – X ¯ 2 para muestras repetidas de tamaños n 1 y n 2? De acuerdo con el teorema 8.2, tanto la variable ¯ X 1 como la variable X ¯ 2 están distribuidas más o menos de forma normal con medias μ 1 y^ μ 2 y varianzas σ^21 / n 1 y σ 22 / n 2 , respectivamente. Esta aproximación mejora a medida que aumentan n 1 y n 2. Al elegir muestras independientes de las dos poblaciones nos aseguramos de que las variables ¯ X 1 y ¯ X 2 sean independientes y, usando el teorema 7.11, con a 1 = 1 y a 2 = – 1, concluimos que ¯ X 1 – X ¯ 2 se distribuye aproximadamente de forma normal con media
μ (^) X ¯ (^) 1 − X ¯ (^) 2 = μ (^) X ¯ (^) 1 − μ (^) X ¯ (^) 2 = μ 1 − μ 2
y varianza σ^2 X ¯ 1 − X ¯ (^) 2 = σ^2 X ¯ (^) 1 + σX^2 ¯ (^) 2 =
σ 12 n 1
σ^22 n 2
El teorema del límite central se puede ampliar fácilmente al caso de dos muestras y dos poblaciones.
Teorema 8.3: Si se extraen al azar muestras independientes de tamaños n 1 y n 2 de dos poblaciones, discretas o continuas, con medias μ 1 y μ 2 y varianzas σ 12 y σ 22 , respectivamente, entonces la distribución muestral de las diferencias de las medias, ¯ X 1 – X ¯ 2 , tiene una distribución aproximadamente normal, con media y varianza dadas por
μ (^) X ¯ (^) 1 − X ¯ (^) 2 = μ 1 − μ 2 y σX^2 ¯ (^) 1 − X ¯ (^) 2 =
σ^21 n 1
σ 22 n 2
De aquí, Z =
( X ¯ (^) 1 − X ¯ (^) 2 ) − ( μ 1 − μ 2 ) ( σ^21 / n 1 ) + ( σ^22 / n 2 )
es aproximadamente una variable normal estándar.
Si tanto n 1 como n 2 son mayores o iguales que 30, la aproximación normal para la distribución de ¯ X 1 – X ¯ 2 es muy buena cuando las distribuciones subyacentes no están tan alejadas de la normal. Sin embargo, aun cuando n 1 y n 2 sean menores que 30, la aproxi- mación normal es hasta cierto punto buena, excepto cuando las poblaciones no son definitivamente normales. Por supuesto, si ambas poblaciones son normales, entonces X ¯ 1 –^ X ¯ 2 tiene una distribución normal sin importar de qué tamaño sean^ n 1 y^ n 2. La utilidad de la distribución muestral de la diferencia entre los dos promedios muestrales es muy similar a la que se describe en el estudio de caso 8.1 en la página 235 para el caso de una sola media. Ahora presentaremos el estudio de caso 8.2, que se enfoca en el uso de la diferencia entre dos medias muestrales para respaldar (o no) la suposición de que dos medias de población son iguales.
Estudio de caso 8.2: Tiempo de secado de pinturas. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de pintura, el A y el B. Con la pintura tipo A se pintan 18 especímenes y se registra el tiempo (en horas) que cada uno tarda en secar. Lo mismo se hace con la pintura tipo B. Se sabe que la desviación estándar de población de ambas es 1.0.
240 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
no es igual para los dos tipos de pintura. Por otro lado, suponga que la diferencia en los dos promedios muestrales es tan pequeña como, digamos, 15 minutos. Si μA = μB ,
P [( X ¯ (^) A − X ¯ (^) B ) > 0.25 horas] = P
Como esta probabilidad no es baja, se concluiría que una diferencia de 15 minutos en las medias de las muestras puede ocurrir por azar, es decir, sucede con frecuencia aunque μ (^) A = μB. Por lo tanto, este tipo de diferencia en el tiempo promedio de secado cierta- mente no es una señal clara de que μA ≠ μB. Como indicamos al principio, en los capítulos siguientes se observará un forma- lismo más detallado con respecto a éste y a otros tipos de inferencia estadística, por ejemplo, la prueba de hipótesis. El teorema del límite central y las distribuciones de muestreo que se presentan en las siguientes tres secciones también desempeñarán un papel fundamental.
Ejemplo 8.6: Los cinescopios para televisor del fabricante A tienen una duración media de 6.5 años y una desviación estándar de 0.9 años; mientras que los del fabricante B tienen una dura- ción media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que una muestra aleatoria de 36 cinescopios del fabricante A tenga por lo menos 1 año más de vida media que una muestra de 49 cinescopios del fabricante B? Solución : Tenemos la siguiente información:
Población 1 Población 2 μ 1 = 6.5 μ 2 = 6. σ 1 =^ 0.9^ σ 2 =^ 0. n 1 = 36 n 2 = 49
Si utilizamos el teorema 8.3, la distribución muestral de ¯ X 1 – X ¯ 2 será aproximada- mente normal y tendrá una media y una desviación estándar de
μ (^) X ¯ 1 − X ¯ 2 = 6.5 − 6.0 = 0.5 y σ (^) X ¯ 1 − X ¯ 2 =
La probabilidad de que 36 cinescopios del fabricante A tengan por lo menos 1 año más de vida media que 49 cinescopios del fabricante B es dada por el área de la región sombreada de la fi gura 8.6. Con respecto al valor ¯ x 1 (^) − x ¯ 2 = 1.0, encontramos que
z =
y de aquí
P ( X ¯ 1 − X ¯ 2 ≥ 1.0) = P ( Z > 2.65) = 1 − P ( Z < 2.65) = 1 − 0.9960 = 0.0040.
Ejercicios 241
En la sección 6.5 analizamos a fondo la aproximación normal a la distribución binomial. Estaban dadas las condiciones sobre los parámetros n y p , para los cuales la distribución de una variable aleatoria binomial se puede aproximar mediante la distribución normal. Los ejemplos y los ejercicios refl ejaron la importancia del concepto de “aproximación normal”. Resulta que el teorema del límite central da más idea de cómo y por qué fun- ciona esta aproximación. Sabemos con certeza que una variable aleatoria binomial es el número X de éxitos en n pruebas independientes, donde el resultado de cada prueba es binario. En el capítulo 1 también vimos que la proporción calculada en un experimento así es un promedio de un conjunto de ceros y unos. De hecho, mientras que la proporción X / n es un promedio, X es la suma de este conjunto de ceros y unos, y tanto X como X / n son casi normales si n es suficientemente grande. Desde luego, a partir de lo que apren- dimos en el capítulo 6, sabemos que hay condiciones de n y p que afectan la calidad de la aproximación; a saber, np ≥ 5 y nq ≥ 5.
0.5 1.0 x^1 -^ x^2
α x 1 - x 2 = 0.
Figura 8.6: Área para el ejemplo 8.6.
8.17 Si se extraen todas las muestras posibles de ta- maño 16 de una población normal con media igual a 50 y desviación estándar igual a 5, ¿cuál es la probabilidad de que una media muestral Xˉ^ caiga en el intervalo que va de μ (^) X ¯ −1.9 σ (^) X ¯a μ (^) X ¯ − 0.4 σ (^) X ¯? Suponga que las me- dias muestrales se pueden medir con cualquier grado de precisión.
8.18 Si la desviación estándar de la media para la distribución muestral de muestras aleatorias de ta- maño 36 de una población grande o infinita es 2, ¿qué tan grande debe ser el tamaño de la muestra si la des- viación estándar se reduce a 1.2?
8.19 Se fabrica cierto tipo de hilo con una resistencia a la tensión media de 78.3 kilogramos y una desviación estándar de 5.6 kilogramos. ¿Cómo cambia la varianza de la media muestral cuando el tamaño de la muestra
a ) aumenta de 64 a 196? b ) disminuye de 784 a 49? 8.20 Dada la población uniforme discreta
f ( x ) =
1 3 ,^ x^ =^ 2, 4, 6, 0, en otro caso,
calcule la probabilidad de que una muestra aleatoria de tamaño 54, seleccionada con reemplazo, produzca una media muestral mayor que 4.1 pero menor que 4.4. Suponga que las medias se miden al décimo más cercano. 8.21 Una máquina de bebidas gaseosas se ajusta de manera que la cantidad de bebida que sirve promedie 240 mililitros con una desviación estándar de 15 mi- lilitros. La máquina se verifica periódicamente to- mando una muestra de 40 bebidas y calculando el
8.5 Distribución muestral de S^2
a ) ¿Parecería ser un resultado razonable si los dos tiempos promedio de secado de las dos poblacio- nes realmente son iguales? Utilice el resultado que se obtuvo en el estudio de caso 8.2. b ) Si alguien hiciera el experimento 10,000 veces bajo la condición de que μA = μB , ¿en cuántos de esos 10,000 experimentos habría una diferencia x ¯ A - x ¯ B tan grande como 1.0 (o más grande)?
8.32 Dos máquinas diferentes de llenado de cajas se utilizan para llenar cajas de cereal en una línea de ensam- ble. La medición fundamental en la que influyen estas máquinas es el peso del producto en las cajas. Los in- genieros están seguros de que la varianza en el peso del producto es σ^2 = 1 onza. Se realizan experimentos usando ambas máquinas con tamaños muestrales de 36 cada una. Los promedios muestrales para las máquinas A y B son ¯ xA = 4.5 onzas y ¯ xB = 4.7 onzas. Los ingenie- ros se sorprenden de que los dos promedios maestrales para las máquinas de llenado sean tan diferentes. a ) Utilice el teorema del límite central para determinar P ( ¯ X (^) B − X ¯ (^) A ≥ 0.2) bajo la condición de que μ (^) A = μB. b ) ¿Los experimentos mencionados parecen, de cual- quier forma, apoyar consistentemente la suposi- ción de que las medias de población de las dos máquinas son diferentes? Explique utilizando la respuesta que encontró en el inciso a.
8.33 El benceno es una sustancia química altamente tóxica para los seres humanos. Sin embargo, se utiliza en la fabricación de medicamentos, de tintes y de recu- brimientos, así como en la peletería. Las regulaciones del gobierno establecen que el contenido de benceno en el agua que resulte de cualquier proceso de producción en el que participe esta sustancia no debe exceder 7950 partes por millón (ppm). Para un proceso particular de interés, un fabricante recolectó una muestra de agua 25 veces de manera aleatoria y el promedio muestral x ¯ fue de 7960 ppm. A partir de los datos históricos, se sabe que la desviación estándar σ es 100 ppm. a ) ¿Cuál es la probabilidad de que el promedio mues- tral en este experimento exceda el límite estable- cido por el gobierno, si la media de la población es igual al límite? Utilice el teorema del límite central. b ) ¿La x ¯ = 7960 observada en este experimento es firme evidencia de que la media de la población
en este proceso excede el límite impuesto por el gobierno? Responda calculando P ( ¯ X ≥ 7960 | μ = 7950). Suponga que la distribución de la concentración de benceno es normal. 8.34 En la fabricación de cierto producto de acero se están utilizando dos aleaciones, la A y la B. Se necesita diseñar un experimento para comparar las dos aleacio- nes en términos de su capacidad de carga máxima en toneladas, es decir, la cantidad máxima de carga que pueden soportar sin romperse. Se sabe que las dos des- viaciones estándar de la capacidad de carga son iguales a 5 toneladas cada una. Se realiza un experimento en el que se prueban 30 especímenes de cada aleación ( A y B ) y se obtienen los siguientes resultados: ¯ x (^) A = 49.5, ¯ x (^) B = 45.5; ¯ x (^) A − x ¯ (^) B = 4. Los fabricantes de la aleación A están convencidos de que esta evidencia demuestra de forma concluyente que μA > μ (^) B y, por lo tanto, que su aleación es mejor. Los fabricantes de la aleación B afirman que el experimento fácilmente podría haber resultado ¯ xA - x ¯ B = 4, incluso si las dos medias de población fueran iguales. En otras palabras, “¡los resultados no son concluyentes!”. a ) Encuentre un argumento que ponga en evidencia el error de los fabricantes de la aleación B. Para ello calcule P ( ¯ X (^) A − X ¯ (^) B > 4 | μA = μB ). b ) ¿Considera que estos datos apoyan fuertemente a la aleación A? 8.35 Considere la situación del ejemplo 8.4 de la página 234. ¿Los resultados que se obtuvieron allí lo llevan a cuestionar la premisa de que μ = 800 horas? Proporcione un resultado probabilístico que indique qué tan raro es el evento Xˉ^ ≤ 775 cuando μ = 800. Por otro lado, ¿qué tan raro sería si μ fuera, verdadera- mente, digamos, ≠ 760 horas? 8.36 Sea X 1 , X 2 ,..., Xn una muestra aleatoria de una distribución que sólo puede adoptar valores positivos. Utilice el teorema del límite central para argumen- tar que si n es tan grande como se requiere, entonces Y = X 1 X 2 ... Xn tiene aproximadamente una distribución logarítmica normal.
En la sección anterior aprendimos acerca de la distribución muestral de Xˉ^. El teorema del límite central nos permitió utilizar el hecho de que
X ¯ − μ σ /√ n
244 Capítulo 8 Distribuciones de muestreo fundamentales y descripciones de datos
tiende a N (0, 1) a medida que crece el tamaño de la muestra. Las distribuciones mues- trales de estadísticos importantes nos permiten conocer información sobre los paráme- tros. Por lo general, los parámetros son las contrapartes del estadístico en cuestión. Por ejemplo, si un ingeniero se interesa en la resistencia media de la población de cierto tipo de resistencia, sacará provecho de la distribución muestral de Xˉ^ una vez que reúna la información de la muestra. Por otro lado, si está estudiando la variabilidad en la resis- tencia, evidentemente utilizará la distribución muestral de S^2 para conocer la contraparte paramétrica, la varianza de la población σ^2. Si se extrae una muestra aleatoria de tamaño n de una población normal con media μ y varianza σ^2 , y se calcula la varianza muestral, se obtiene un valor del estadístico S^2. Procederemos a considerar la distribución del estadístico ( n – 1) S^2 / σ^2. Mediante la suma y la resta de la media muestral Xˉ^ es fácil ver que n
i = 1
( X (^) i − μ ) 2 =
n
i = 1
[( X (^) i − X ¯ ) + ( X ¯ − μ )]^2
n
i = 1
( X (^) i − X ¯ ) 2 +
n
i = 1
( X ¯ − μ ) 2 +2 ( X ¯ − μ )
n
i = 1
( X (^) i − X ¯ )
n
i = 1
( X (^) i − X ¯ ) 2 + n ( X ¯ − μ ) 2.
Al dividir cada término de la igualdad entre σ^2 y sustituir ( n – 1) S^2 por
n
i =
( X (^) i − X ¯ ) 2 , obtenemos 1 σ^2
n
i = 1
( X (^) i − μ ) 2 =
( n − 1) S^2 σ^2
( X ¯ − μ ) 2 σ^2 / n
Ahora, de acuerdo con el corolario 7.1 de la página 222, sabemos que n
i = 1
( X (^) i − μ ) 2 σ^2
es una variable aleatoria chi cuadrada con n grados de libertad. Tenemos una variable alea- toria chi cuadrada con n grados de libertad dividida en dos componentes. Observe que en la sección 6.7 demostramos que una distribución chi cuadrada es un caso especial de la distri- bución gamma. El segundo término del lado derecho es Z^2 , que es una variable aleatoria chi cuadrada con 1 grado de libertad, y resulta que ( n – 1) S^2 / σ^2 es una variable aleatoria chi cuadrada con n – 1 grados de libertad. Formalizamos esto en el siguiente teorema.
Teorema 8.4: Si S^2 es la varianza de una muestra aleatoria de tamaño n que se toma de una población normal que tiene la varianza σ^2 , entonces el estadístico
χ^2 =
( n − 1) S^2 σ^2
n
i = 1
( X (^) i − X ¯ ) 2 σ^2
tiene una distribución chi cuadrada con v = n – 1 grados de libertad.