












Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
estadística, lectura complementaria, guía de estadística, documentos varios sobre estadística en general 1
Tipo: Resúmenes
1 / 20
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!













2-1 Repaso y preámbulo 2-2 Distribuciones de frecuencias 2-3 Histogramas 2-4 Gráficas estadísticas 2-5 Pensamiento crítico: Gráficas inadecuadas
44
A los 26 años, Terri Schiavo estaba casada e in- tentaba concebir un hijo, cuando colapsó de- bido a un paro cardiorrespiratorio. Los intentos por revivirla fueron infructuosos y entró en coma. Se declaró que se encontraba en un estado ve- getativo persistente, y parecía estar despierta, pero sin conciencia. Terri permaneció en ese es- tado durante 15 años, incapaz de comunicarse o cuidar de sí misma de ninguna forma; se le mantuvo viva gracias a la inserción de un tubo de alimentación. Se generaron intensos debates acerca de su situación, y algunas personas argu- mentaban que se le debería permitir morir reti- rando el tubo de alimentación, mientras que otros consideraban que debían mantenerla viva por medio del tubo de alimentación y cualquier otro medio necesario. Después de muchas ba- tallas legales, le retiraron el tubo de alimenta- ción y murió 13 días después, a los 41 años de edad. Aunque hubo muchas opiniones diferentes acerca del tratamiento médico de Terri Schiavo, había un sentimiento de compasión generaliza- do hacia ella. En medio de los numerosos debates acerca del retiro del tubo de alimentación de Terri, CNN, USA Today y Gallup realizaron una encuesta en la
que se planteaba a los participantes la siguien- te pregunta: “Con base en lo que ha escuchado o leído acerca del caso, ¿coincide con la deci- sión que tomó la corte de retirar el tubo de ali- mentación?”. La encuesta se llevó a cabo por teléfono y se obtuvieron 909 respuestas de adultos estadounidenses. También se les pre- guntó sobre su filiación política, y en el sitio Web de CNN se publicó una gráfica de barras similar a la de la figura 2-1. En esta figura se muestran los resultados de la encuesta, sepa- rados por partido político. Con base en la figura 2-1, parece que las respuestas de los demócra- tas fueron muy diferentes de las respuestas de los republicanos y de los simpatizantes de par- tidos independientes. No nos ocuparemos de los temas éticos rela- cionados con el retiro del tubo de alimentación, aunque la situación genera preguntas importan- tes que todos deberían considerar de manera cuidadosa. En vez de ello, nos enfocaremos en la gráfica de la figura 2-1. Nuestra comprensión de las gráficas y la información que ofrecen nos ayudarán a responder la siguiente pregunta: ¿La figura 2-1 representa de forma imparcial los re- sultados de la encuesta?
P R O B L E M A D E L C A P Í T U L O
63
Porcentaje de personasque están de acuerdo
62
62
54 54
61 60 59 58 57 56 55 54 53 Demócratas Republicanos Independientes
¿Coincide con la decisión que tomó la corte de retirar el tubo de alimentación?
Figura 2-1 Resultados de la encuesta por partido
Considere las medidas del pulso (en latidos por minuto) obtenidas de una muestra aleatoria simple de 40 hombres y de otra muestra aleatoria simple de 40 mujeres, con los resultados que se presentan en la tabla 2-1 (del conjunto de datos 1 del apéndice B). El pulso es sumamente importante, ¡ya que es muy difícil sobrevivir sin él! Los médicos utilizan el pulso para evaluar la salud de los pacientes. Cuando el pulso tiene una fre- cuencia demasiado elevada o demasiado baja, esto podría indicar que existe algún pro- blema médico; por ejemplo, un pulso muy alto podría indicar que el paciente tiene una infección o que está deshidratado.
2-2 Distribuciones de frecuencias 47
Una distribución de frecuencias (o tabla de frecuencias ) indica cómo un conjunto de datos se divide en varias categorías (o clases) al listar todas las categorías junto con el número de valores de los datos que hay en cada una.
Tabla 2-1 Pulsos (latidos por minuto) de hombres y mujeres
Mujeres 76 72 88 60 72 68 80 64 68 68 80 76 68 72 96 72 68 72 64 80 64 80 76 76 76 80 104 88 60 76 72 72 88 80 60 72 88 88 124 64 Hombres 68 64 88 72 64 72 60 88 76 60 96 72 56 64 60 64 84 76 84 88 72 56 68 64 60 68 60 60 56 84 72 84 88 56 64 56 56 60 64 72
La tabla 2-2 es una distribución de frecuencias que resume los pulsos de las mujeres listados en la tabla 2-1. La frecuencia de una clase en particular es el número de valo- res originales que caen en esa clase. Por ejemplo, la primera clase de la tabla 2-2 tiene una frecuencia de 12, lo que indica que 12 de los pulsos originales están entre 60 y 69 latidos por minuto. A continuación se definen algunos de los términos estándar que se utilizan al analizar y construir distribuciones de frecuencias.
Tabla 2-2 Pulsos de mujeres Pulso Frecuencia 60–69 12 70–79 14 80–89 11 90–99 1 100–109 1 110–119 0 120–129 1
Los límites inferiores de clase son las cifras más pequeñas que pueden pertenecer a las diferentes clases. (Los límites inferiores de clase de la tabla 2-2 son 60, 70, 80, 90, 100, 110 y 120). Los límites superiores de clase son las cifras más grandes que pueden pertenecer a las diferentes clases. (Los límites superiores de clase de la tabla 2-2 son 69, 79, 89, 99, 109, 119, 129). Las fronteras de clase son las cifras que se utilizan para separar las clases, pero sin los espacios creados por los límites de clase. En la figura 2-2 se muestran los espacios creados por los límites de clase de la tabla 2-2. En la figura 2-2 se obser- va con facilidad que los valores 69.5, 79.5,…, 119.5 están en el centro de esos espacios, y a tales cifras se les conoce como fronteras de clase. Siguiendo al patrón establecido, notamos que la frontera de clase inferior es 59.5, y la frontera de clase superior es 129.5. Por lo tanto, la lista completa de las fronteras de clase es 59.5, 69.5, 79.5,…, 119.5, 129.5. Las marcas de clase son los puntos medios de las clases. (Las marcas de clase de la tabla 2-2 son 64.5, 74.5, 84.5, 94.5, 104.5, 114.5 y 124.5). Las marcas de clase se calculan sumando el límite inferior de clase con el límite superior de clase, y dividiendo el resultado entre 2. La anchura de clase es la diferencia entre dos límites inferiores de clase consecu- tivos o dos fronteras inferiores de clase consecutivas en una distribución de fre- cuencias. (La anchura de clase de los datos de la tabla 2-2 es 10).
48 Capítulo 2 Resumen y gráficas de datos
Las distribuciones de frecuencias se construyen por las siguientes razones: 1. Es posible re- sumir conjuntos grandes de datos; 2. se logra cierta comprensión sobre la naturaleza de los datos; y 3. se tiene una base para construir gráficas (como los histogramas , que se estudiarán en la siguiente sección). Aunque la tecnología nos permite construir distribuciones de fre- cuencias de manera automática, los pasos para su elaboración manual son los siguientes:
1. Determine el número de clases que desea, el cual debe estar entre 5 y 20. El número que elija puede verse afectado por la comodidad de usar cifras enteras. 2. Calcule la anchura de clase.
Redondee este resultado para obtener un número más adecuado. (Generalmente se redondea hacia arriba ). Es probable que necesite modificar el número de clases para utilizar valores convenientes.
3. Comience por elegir un número para el límite inferior de la primera clase. Elija el valor del dato más bajo o un valor conveniente que sea un poco más pequeño. 4. Usando el límite inferior de la primera clase y la anchura de clase, proceda a listar los demás límites inferiores de clase. (Sume la anchura de clase al límite inferior de la primera clase para obtener el segundo límite inferior de clase. Después sume la anchura de clase al segundo límite inferior de clase para obtener el tercero, y así sucesivamente). 5. Anote los límites inferiores de clase en una columna vertical y luego proceda a anotar los límites superiores de clase. 6. Tome el valor de cada dato y ponga una marca en la clase adecuada. Agregue las marcas para obtener la frecuencia total de cada clase. Cuando construya una distribución de frecuencias, asegúrese de que las clases no se tras- lapen, de modo que cada uno de los valores originales pertenezca exactamente a una de las clases. Incluya todas las clases, aun las que tengan una frecuencia de cero. Trate de utilizar la misma anchura para todas las clases, aunque a veces es imposible evitar intervalos con finales abiertos, como “65 años o mayores”.
Anchura de clase L
(valor más alto) - (valor más bajo) número de clases
Fronteras de clase
60 69 70 79 80 89 90 99 Límites de clase
? 69.5 79.5 89.5 99.5 109.5 119.5?
100 109 110 119 120 129 Figura 2-2 Determinación de las fronteras de clase
Entre 1787 y 1788, Alexander Hamilton, John Jay y James Madison publicaron de forma anónima el famoso diario Federalist Papers , en un intento por conven- cer a los neo- yorquinos de que deberían ratifi- car la Constitución. Se conoció la identidad de la mayoría de los autores de los artículos, pero la autoría de 12 de estos siguió siendo motivo de discu- sión. Mediante el análisis es- tadístico de las frecuencias de varias palabras, ahora podemos concluir que probablemente James Madison fue el autor de esos 12 documentos. En mu- chos de los artículos disputados, la evidencia en favor de la autoría de Madison es abruma- dora, al grado de que estamos casi seguros de que es lo correcto.
ADVERTENCIA Las definiciones de anchura de clase y fronteras de clase son un tanto engañosas. Tenga cuidado para evitar el error común de considerar la anchura de clase como la diferencia entre el límite inferior de clase y el límite superior de clase. Observe que en la tabla 2-2 la anchura de clase es de 10, no de 9. El proceso del cálculo de las fronteras de clase se simplifica al entender que estos básicamente dividen la diferencia entre el final de una clase y el inicio de la siguiente, como se describe en la figura 2-2.
Pulsos de mujeres Utilice los pulsos de las mujeres de la ta- bla 2-1 y siga el procedimiento anterior para construir la distribución de frecuencias de la tabla 2-2. Incluya 7 clases.
1
50 Capítulo 2 Resumen y gráficas de datos
sumamos 12 + 14 + 11 para obtener la tercera, y así sucesivamente. En la tabla 2-4 se ob- serva que, además del uso de las frecuencias acumuladas, los límites de clase se reemplazan con expresiones como “menor que”, las cuales describen el nuevo intervalo de valores.
En la estadística nos interesa conocer la distribución de los datos y, en particular, si tienen una distribución normal. (En el capítulo 6 analizaremos las distribuciones normales con profundidad). A menudo la distribución de frecuencias es una de las primeras herra- mientas que utilizamos para analizar datos, y por lo regular revela algunas de sus carac- terísticas importantes. Aquí utilizamos la distribución de frecuencias para determinar si los datos tienen una distribución aproximadamente normal. Las distribuciones aproxi- madamente normales se caracterizan por tener una distribución de frecuencias con los siguientes atributos:
Distribución normal
1. Al inicio las frecuencias son bajas, después se incrementan hasta un punto máximo y luego disminuyen. 2. La distribución es aproximadamente simétrica, y las frecuencias tienden a distri- buirse de manera uniforme a ambos lados de la frecuencia máxima, como si se tratara de una imagen observada en un espejo.
Distribución normal Se seleccionaron al azar puntuaciones del CI de 1000 adultos. Los resultados se resumen en la distribución de frecuencias de la tabla 2-5. Al inicio las frecuencias son bajas, después se incrementan hasta alcan- zar una frecuencia máxima de 490 y luego disminuyen. Además, las frecuencias se distribuyen de manera aproximadamente simétrica alrededor de la frecuencia máxima de 490. Al parecer, se trata de una distribución aproximadamente normal.
2
Tabla 2-5 Puntuaciones del CI de 1000 adultos Distribución normal: Al inicio las frecuencias son bajas, después se incrementan hasta alcanzar una frecuencia máxima y luego disminuyen. Además, las frecuencias se dis- tribuyen de manera aproximadamente simétrica alrededor de la frecuencia máxima.
Puntuación del CI Frecuencia Distribución normal: 50–69 24 ;Al inicio las frecuencias son bajas,... 70–89 228 90–109 490 ;aumentan hasta un punto máximo,... 110–129 232 130–149 26 ;disminuyen nuevamente.
La tabla 2-5 presenta datos con una distribución normal. Los siguientes ejemplos ilus- tran la manera en que las distribuciones de frecuencias se pueden utilizar para describir, explorar y comparar conjuntos de datos.
Los pediatras acostumbran utilizar gráficas de crecimiento estandarizadas para comparar el peso y la es- tatura de sus pacientes con una muestra de otros niños. Se consi- dera que los niños están en un intervalo normal si su peso y estatura caen entre los percentiles 5 y 95. Si están fuera de este intervalo, general- mente se les aplican pruebas para asegurarse de que no ten- gan problemas médicos graves. Los pediatras ahora son más conscientes de un inconvenien- te importante de las gráficas: como estas se basan en niños que vivieron entre 1929 y 1975, las gráficas de crecimiento estaban resultando inexactas. Para rectificar este problema, en el año 2000 se actualizaron las gráficas para que reflejaran las medidas actuales de millo- nes de niños. Los pesos y las estaturas de los niños son bue- nos ejemplos de poblaciones que cambian con el paso del tiempo. Esta es la razón para incluir las características que cambian en los datos con el paso del tiempo, como un aspecto importante de una población.
Descripción de datos: ¿Cómo se midió el pulso? La dis- tribución de frecuencias de la tabla 2-6 presenta los últimos dígitos de los pulsos de mu- jeres incluidos en la tabla 2-1 de la página 47. Si el pulso se mide contando el número de latidos cardiacos por minuto, esperamos que los últimos dígitos tengan frecuencias muy similares. Sin embargo, observe que la distribución de frecuencias indica que to-
3
2-2 Distribuciones de frecuencias 51
dos los últimos dígitos son números pares ; ¡ no hay números impares! Esto sugiere que las pulsaciones no se contaron durante un minuto. Al examinar más los pulsos origi- nales, observamos que cada valor original es un múltiplo de cuatro, lo cual sugiere que el número de latidos por minuto se contó durante 15 segundos y que dicho conteo después se multiplicó por 4. Es fascinante e interesante deducir algo acerca del mé- todo de medición con la simple descripción de algunas características de los datos.
Tabla 2-6 Últimos dígitos de los pulsos de mujeres Último dígito Frecuencia 0 9 1 0 2 8 3 0 4 6 5 0 6 7 7 0 8 10 9 0
Tabla 2-7 Monedas de un centavo elegidas al azar Pesos de monedas de un centavo (gramos) Frecuencia 2.40–2.49 18 2.50–2.59 19 2.60–2.69 0 2.70–2.79 0 2.80–2.89 0 2.90–2.99 2 3.00–3.09 25 3.10–3.19 8
Tabla 2-8 Pulsos de hombres y mujeres Pulso Mujeres Hombres 50–59 0% 15% 60–69 30% 42.5% 70–79 35% 20% 80–89 27.5% 20% 90–99 2.5% 2.5% 100–109 2.5% 0% 110–119 0% 0% 120–129 2.5% 0%
Exploración de datos: ¿Qué nos indica una brecha? La tabla 2-7 es una distribución de frecuencias de los pesos (en gramos) de monedas de un centavo elegidas al azar. Un examen de las frecuencias revela una gran brecha entre las monedas de un centavo más ligeras y las más pesadas. Esto sugiere que tenemos dos poblaciones diferentes. En una investigación posterior, se descubrió que las mo- nedas de un centavo acuñadas antes de 1983 tenían un 97% de cobre y un 3% de zinc; mientras que las monedas de un centavo acuñadas después de 1983 tienen un 3% de cobre y un 97% de zinc, lo cual explicaría la gran brecha entre las monedas de un centavo más ligeras y las más pesadas.
4
Brechas El ejemplo 4 ilustra el siguiente principio: la presencia de brechas puede indicar que los datos provienen de dos o más poblaciones diferentes. Sin embargo, lo contrario no es verdadero, ya que los datos que provienen de diferentes poblaciones no necesariamente reflejan brechas como la del ejemplo.
Comparación de los pulsos de hombres y mujeres La tabla 2-1 de la página 47 incluye los pulsos de muestras aleatorias simples de 40 mujeres y 40 hombres. La tabla 2-8 presenta las distribuciones de frecuencias relativas de tales pulsos. Al comparar estas frecuencias relativas, parece que los pulsos de los hombres tienden a ser más bajos que los de las mujeres. Por ejemplo, la mayoría de los hom- bres (57.5%) tienen pulsos por debajo de 70, muy por encima del 30% de las mujeres que registran pulsos similares.
5
Hasta ahora hemos analizado las distribuciones de frecuencias utilizando únicamente conjuntos de datos cuantitativos, aunque las distribuciones de frecuencias también se pueden utilizar para resumir datos cualitativos, como se ilustra en el ejemplo 6.
28. Pesos de monedas de 25 centavos Remítase al conjunto de datos 20 del apéndice B y uti- lice los pesos (en gramos) de las monedas de 25 centavos acuñadas después de 1964. Construya una distribución de frecuencias, iniciando con un límite inferior de clase de 5.5000 g, y utilice una an- chura de clase de 0.0500 g. Compare la distribución de frecuencias con el resultado del ejercicio 27. 29. Grupos sanguíneos A continuación se presenta una lista de los grupos sanguíneos O, A, B y AB de donadores de sangre elegidos al azar (con base en datos del Greater New York Blood Pro- gram). Construya una tabla donde resuma la distribución de frecuencias de esos grupos sanguíneos. O A B O O O O O AB O O O O B O B O A A A O A A B AB A B A A A A O A O O A A O O A O O O O A A A A A AB 30. Descarrilamiento de trenes Un análisis de 50 incidentes de descarrilamiento de trenes identificó las principales causas, las cuales se presentan a continuación; en la lista, T denota proble- mas en las vías, E fallas en el equipo, H un error humano y O significa otras causas (de acuerdo con datos de la Federal Railroad Administration). Construya una tabla donde resuma la distribución de frecuencias de esas causas de descarrilamiento de trenes. T T T E E H H H H H O O H H H E E T T T E T H O T T T T T T T H T T H E E T T E E T T T H T T O O O
2-3 Histogramas 55
31. Interpretación de los efectos de los valores atípicos Remítase al conjunto de datos 21 del apéndice B y utilice las cargas axiales de las latas de aluminio con un grosor de 0.0111 pulgadas. La carga de 504 lb es un valor atípico porque está muy alejado de los otros valores. Construya una distribución de frecuencias que incluya el valor de 504 lb, y luego construya otra distribución de frecuencias sin incluirlo. En ambos casos, inicie la primera clase en 200 lb, con una anchura de clase de 20 lb. Interprete los resultados haciendo una generalización sobre el efecto que tendría un valor atípico en una distribución de frecuencias. 32. Número de clases Para la construcción de una distribución de frecuencias, los lineamientos de Sturges sugieren que el número ideal de clases puede aproximarse usando 1 + (log n )/(log 2), donde n es el número de valores de datos. Utilice este lineamiento para completar la tabla que aparece al margen.
Concepto clave En la sección 2-2 se presentó la distribución de frecuencias como una herramienta para determinar y resumir la distribución de un conjunto grande de datos. En esta sección se analiza una herramienta visual llamada histograma , así como su impor- tancia para representar y analizar datos. Puesto que muchos programas estadísticos de cómputo y calculadoras generan histogramas de forma automática, no es tan importante dominar los procedimientos mecánicos para construirlos. En cambio, debemos enfo- carnos en comprender la información que nos brindan los histogramas. Esto es, un his- tograma nos permite analizar la forma de la distribución de los datos.
2-
Un histograma es una gráfica con barras de la misma anchura, dibujadas una junto a la otra (sin espacios entre sí). La escala horizontal representa clases de valores de datos cuantitativos, en tanto que la escala vertical representa frecuencias. Las alturas de las barras corresponden a los valores de frecuencia.
Un histograma es, básicamente, la versión gráfica de una distribución de frecuencias. Por ejemplo, la figura 2-3 de la página 56 presenta el histograma correspondiente a la dis- tribución de frecuencias de la tabla 2-2 de la página 47.
Tabla para el ejercicio 32
Número de valores de los datos
Número ideal de clases 16–22 5 23–45 6 ? 7 ? 8 ? 9 ? 10 ? 11 ? 12
56 Capítulo 2 Resumen y gráficas de datos
Las barras en la escala horizontal se denotan con uno de los siguientes rótulos:
1. fronteras de clase (como se muestra en la figura 2-3); 2. marcas de clase; o 3. límites inferiores de clase. Las primeras dos opciones son técnicamente correctas, mientras que la tercera opción introduce un pequeño error. Se debe etiquetar ambos ejes con claridad. Escala horizontal del histograma: Usar fronteras de clase o marcas de clase. Escala vertical del histograma: Usar las frecuencias de clase.
Un histograma de frecuencias relativas tiene la misma forma y escala horizontal que un histograma, pero la escala vertical indica las frecuencias relativas (como porcentajes o proporciones) y no las frecuencias reales, como se observa en la figura 2-4.
Recuerde que el objetivo no es la simple construcción de un histograma, sino entender algo acerca de los datos. Analice el histograma para ver qué es posible aprender acerca de CVDVT: el centro de los datos, la variación (que se estudiará con detalle en la sección 3-3), la forma de la distribución y la existencia o ausencia de valores atípicos (valores que se encuentran muy alejados de los demás). Al examinar la figura 2-3, vemos que el his- tograma se centra alrededor del 80, que los valores varían aproximadamente desde 60 hasta 130, y que la forma de la distribución está más cargada hacia la izquierda. Al pare- cer, la barra de la extrema derecha representa un pulso dudoso de 125 latidos por minuto, que es excepcionalmente elevado.
Distribución normal Cuando se grafica, una distribución normal tiene la forma de “campana”. Las características de la curva en forma de campana son: 1. el aumento de las frecuencias, las cuales alcanzan un punto máximo y luego disminuyen; y 2. la simetría, donde la mitad izquierda de la gráfica es casi una imagen especular de la mitad derecha. El histograma generado con STATDISK que se presenta en la siguiente página corres- ponde a la distribución de frecuencias de la tabla 2-5 de la página 50, que se obtuvo a partir de una muestra aleatoria simple de 1000 puntuaciones del CI de adultos esta- dounidenses. Muchos procedimientos estadísticos requieren que los datos muestrales provengan de una población con una distribución aproximadamente normal, y a menudo podemos usar un histograma para determinar si se satisface tal requisito.
59
69
79
89
99
109
Frecuencia
15
10
5
0
Pulso (latidos por minuto)
119
129
Figura 2-3 Histograma
59
69
79
89
99
109
Pulso (latidos por minuto)
119
129
Frecuencia relativa
0
10%
20%
30%
40%
Figura 2-4 Histograma de la frecuencia relativa
Es común que las muestras carezcan de algunos datos. Los datos fal- tantes caen en dos categorías generales:
1. valores faltantes que resultan de causas aleatorias no relacionadas con los valores de los datos, y 2. valores faltantes que resul- tan de causas que no son alea- torias. Las causas aleatorias incluyen factores como la anotación incorrecta de valores muestrales o la pérdida de re- sultados de encuesta. Este tipo de valores faltantes a menudo puede despreciarse, ya que no ocultan de manera sistemática algunas características que po- drían afectar los resultados de manera significativa. Es difícil enfrentarse a valores faltantes que no se deben al azar. Por ejemplo, los resultados del análisis del ingreso podrían verse seriamente afectados, si la gente con ingresos muy altos se niega a revelar esos datos por temor a las audi- torías fiscales. Tales ingresos muy altos faltantes no deben descartarse; más bien, se de- bería realizar otra investigación para identificarlos.
60 Capítulo 2 Resumen y gráficas de datos
Un tipo de gráfica estadística utiliza las marcas de clase. Un polígono de frecuencias uti- liza segmentos lineales conectados a puntos que se localizan directamente por encima de los valores de las marcas de clase. El polígono de frecuencias se construye a partir de una distribución de frecuencias, tal como se observa en el ejemplo 1.
64
74
84
94
104
Frecuencia
15
10
5
0
Pulso
114
124
Figura 2-5 Polígono de frecuencias: Pulsos de mujeres
30%
40%
50%
20%
10%
0% 54
.^5 64 .^5 74 .^5 84 .^5 94 .^5
Frecuencia relativa
Pulso
104
.^5 114 .^5 124 .^5
Hom- Mujeres bres
Figura 2-6 Polígonos de frecuencias relativas: Pulsos de mujeres y hombres
Polígono de frecuencias: Pulsos de mujeres Observe la fi- gura 2-5, que presenta el polígono de frecuencias correspondiente a los pulsos de mujeres incluidos en la distribución de frecuencias de la tabla 2-2 de la página 47. Las alturas de los puntos corresponden a las frecuencias de clase; en tanto que los segmentos lineales se extienden hacia la derecha y hacia la izquierda, de manera que la gráfica inicia y termina sobre el eje horizontal. Con la misma facilidad que se cons- truye un histograma a partir de una tabla de distribución de frecuencias, es posible construir un polígono de frecuencias a partir del mismo tipo de tabla.
1
Una variante del polígono de frecuencias básico es el polígono de frecuencias rela- tivas , que utiliza frecuencias relativas (esto es, proporciones o porcentajes) en la escala vertical. Al tratar de comparar dos conjuntos de datos, a menudo es muy útil graficar dos polígonos de frecuencias relativas sobre los mismos ejes.
Polígono de frecuencias relativas: Pulsos Observe la figura 2-6, que ilustra polígonos de frecuencias relativas para los pulsos de mujeres y hom- bres, listados en la tabla 2-1 de la página 47. La figura 2-6 aclara visualmente que los pulsos de los hombres son más bajos que los pulsos de las mujeres (ya que la línea que representa a los hombres se ubica más hacia la izquierda que la línea que representa a las mujeres). La figura 2-6 logra algo que es realmente maravilloso: permite una comprensión de los datos que no sería posible mediante el examen visual de las listas de datos de la tabla 2-1. (Es como un buen maestro de poesía que revela el significado real de un poema).
2
Una ojiva es una gráfica estadística que representa frecuencias acumuladas, y sirve para determinar el número de valores que se ubican por debajo de algún valor específico, tal como se ilustra en el ejemplo 3. Una ojiva es una gráfica lineal que describe frecuencias acumuladas y utiliza fronteras de clase a lo largo de la escala horizontal, y frecuencias acumu- ladas a lo largo del eje vertical.
2-4 Gráficas estadísticas 61
Ojiva: Pulsos de mujeres La figura 2-7 es la ojiva correspon- diente a la tabla 2-4 de la página 49. En la figura se observa que 26 pulsos son menores que 79.5.
3
30
40
20
10
0 59
69
79
89
99
Frecuencia acumulada
Pulso
109
119
129
26 de los valores son menores que 79.
Figura 2-7 Ojiva
Una gráfica de puntos es aquella donde se marca cada valor de un dato como un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se apilan.
Con ventas anuales cercanas a los $13,000 millones, y con alrededor de 50 mi- llones de usuarios, el fárma- co Lipi- tor de Pfizer se ha con- vertido en el medicamento de prescripción más redituable y más utilizado de la historia. Al inicio de su desarrollo, Lipitor se comparó con otros fármacos (Zocor, Mevacor, Lescol y Pravachol), en un proceso que implicó en- sayos controlados. El resumen del informe incluyó una gráfica que mostraba una curva del Lipitor con un incremento más pronunciado que las curvas de los otros medicamentos, lo cual demostraba visualmente que Lipitor era más eficaz para reducir el colesterol que los otros fármacos. Pat Kelly, que en ese entonces era ejecutiva de marketing de nivel superior en Pfizer, declaró: “Nunca olvi- daré cuando vi esa gráfica […] En ese momento dije ‘¡Ah!, ahora sé de qué se trata’. ¡Podemos comunicar esto!”. La Food and Drug Administra- tion (FDA) de Estados Unidos aprobó el Lipitor y permitió a Pfizer incluir la gráfica con cada prescripción. El personal de ventas de la empresa tam- bién distribuyó la gráfica entre los médicos.
Una gráfica de tallo y hojas representa datos cuantitativos separando cada valor en dos partes: el tallo (el dígito ubicado en el extremo izquierdo) y la hoja (el dígito del extremo derecho).
MINITAB
Gráfica de puntos: Pulsos de mujeres Observe la gráfica de puntos generada con Minitab que presenta los pulsos de mujeres incluidos en la tabla 2-1 de la página 47. Los tres puntos apilados a la izquierda representan los pulsos de 60, 60 y 60. Los siguientes cuatro puntos se apilan arriba de 64, lo que indica que hay cuatro pulsos de 64 latidos por minuto. Esta gráfica de puntos revela la distribu- ción de los pulsos y permite recrear la lista original de los datos, ya que cada valor re- presenta un solo punto.
4
2-4 Gráficas estadísticas 63
Cuando se desea dirigir la atención a las categorías más importantes, se puede utilizar una gráfica de Pareto. Una gráfica de Pareto es una gráfica de barras para datos cualita- tivos, donde las barras se acomodan en orden descendente de acuerdo con las frecuen- cias. Las escalas verticales de las gráficas de Pareto representan tanto frecuencias como frecuencias relativas. La escala horizontal identifica las diferentes categorías de datos cualitativos. La altura de las barras disminuye de izquierda a derecha.
Gráfica de Pareto: Cómo encontrar un empleo La siguiente gráfica de Pareto, generada con Minitab, indica la forma en que algunos individuos encontraron empleo (con base en datos de The Bernard Haldane Associates). Se ob- serva que la red de conocidos fue la fuente más fructífera para encontrar trabajo. Esta gráfica de Pareto sugiere que, en lugar de basarse únicamente en recursos como las bol- sas de trabajo de las instituciones educativas o los anuncios publicados en periódicos, quienes buscan empleo deben recurrir activamente a su red de conocidos.
7
Una gráfica circular presenta datos cualitativos como si fueran rebanadas de un pastel, donde el tamaño de cada rebanada es proporcional al conteo de frecuencia de la categoría.
GRÁFICA DE PARETO DE MINITAB
GRÁFICA CIRCULAR DE MINITAB
GRÁFICA DE BARRAS MÚLTIPLES DE MINITAB
64 Capítulo 2 Resumen y gráficas de datos
La gráfica de Pareto y la gráfica circular presentan los mismos datos en formas dife- rentes, pero una comparación probablemente demuestre que la gráfica de Pareto es mejor para resaltar los tamaños relativos de los distintos componentes.
Un diagrama de dispersión es una gráfica de datos cuantitativos pareados ( x , y ), con un eje x horizontal y un eje y vertical. El eje horizontal se utiliza para la primera variable ( x ), y el eje vertical para la segunda variable. El patrón de los puntos graficados suele ser útil para determinar si existe una relación entre las dos variables. (Este aspecto se estudia a profundidad en el tema de la correlación, en la sección 10-2).
DIAGRAMA DE DISPERSIÓN DE MINITAB
Diagrama de dispersión: Grillos y temperatura Uno de los usos clásicos que se dio al diagrama de dispersión es en el cálculo del número de chirri- dos que emite un grillo por minuto, en relación con la temperatura (°F). Utilizando los datos de The Song of Insects , de George W. Pierce (Harvard University Press), Minitab produjo el diagrama de dispersión que aquí se presenta. Al parecer, existe una relación entre tales sonidos y la temperatura, donde un mayor número de chirridos corresponde a temperaturas más altas. Por lo tanto, es posible usar a los grillos como termómetros.
9
Grupos y una brecha Considere el diagrama de dispersión, generado con Minitab, de datos pareados que consisten en los pesos (en gramos) y el año de fabricación de 72 monedas de un centavo. Este diagrama de dispersión muestra dos grupos muy diferentes separados por una brecha, la cual podría explicarse por medio de la inclusión de dos poblaciones distintas: las monedas acuñadas antes de 1983 tienen un 97% de cobre y un 3% de zinc, mientras que las monedas acuñadas después de 1983 tienen un 3% de cobre y un 97% de zinc. Si se ignoraran las carac-
10
Gráfica circular: Cómo encontrar empleo La gráfica circular de la página anterior, generada con Minitab, se basa en los mismos datos utilizados para la gráfica de Pareto en el ejemplo 7. Para construir una gráfica circular, se divide el círculo en las proporciones adecuadas que representen frecuencias relativas. Por ejem- plo, la categoría de red de conocidos representa un 61% del total, de tal modo que la porción que representa a los conocidos debería abarcar el 61% del total (con un ángulo central de 0.61 * 360° = 220°).
8
66 Capítulo 2 Resumen y gráficas de datos
egresados de las carreras de periodismo o comunicación, pero con escasa o nula capaci- tación en el manejo de datos, quienes elaboran las gráficas que aparecen en periódicos, revistas y televisión. Para conocer más información útil sobre las gráficas, consulte The Visual Display of Quantitative Information , 2a. edición, de Edward Tufte (Graphics Press, P.O. Box 430, Cheshire, CT 06410). Los siguientes son algunos de los principios importantes sugeridos por Tufte:
Datos sobre la confiabilidad de automóviles La figura 2- ejemplifica un trabajo sobresaliente por su originalidad, creatividad y eficacia al lo- grar que el lector observe datos complicados en un formato sencillo. Presenta una comparación de dos automóviles diferentes y está basada en gráficas de la revista Consumer’s Report. La clave en la parte inferior indica que el negro se utilizó para resul- tados malos y el gris para resultados buenos. (Las gráficas de Consumer’s Report uti- lizan el rojo para resultados buenos y el negro para resultados malos). Con facilidad vemos que, durante los últimos años, el automóvil Firebrand ha sido mejor en general que el Speedster. Este tipo de información es valiosa para consumidores que están con- siderando la compra de un vehículo nuevo o seminuevo.
12
00 01 02 03 04 05 06 00 01 02 03 04 05 06
Firebrand Speedster
Clave: Bueno Malo
Reparaciones del motor Reparaciones de la transmisión Reparaciones eléctricas Suspensión Pintura y corrosión Comodidad de manejo Características de seguridad
Figura 2-8 Datos sobre confiabilidad de los automóviles
2-4 Gráficas estadísticas 67
En esta sección aprendimos que las gráficas son herramientas excelentes para describir, explorar y comparar datos. Descripción de datos: En un histograma, por ejemplo, se toman en cuenta la distri- bución, el centro, la variación y los valores atípicos (valores que se alejan mucho de los otros valores de los datos). (Recuerde la técnica para recordar CVDVT, pero el último elemento del tiempo no se aplica a un histograma porque los patrones de cambio de los datos con el tiempo no se pueden observar en este tipo de diagramas). ¿Cuál es el valor aproximado del centro de la distribución y cuál es el intervalo aproximado de valores? Considere la forma completa de la distribución. ¿Los valores están distribuidos de manera uniforme? ¿La distri- bución está sesgada (ladeada) hacia la izquierda o hacia la derecha? ¿La distribu- ción tiene un pico a la mitad? ¿Hay una brecha grande que sugiere que los datos provendrían de poblaciones diferentes? Identifique cualquier valor extremo y cualquier otra característica notable. Exploración de datos: Buscamos características de la gráfica que revelen rasgos intere- santes y/o útiles del conjunto de datos. Por ejemplo, el diagrama de dispersión del ejemplo 9 nos indica que parece existir una relación entre la temperatura y la frecuencia del chirrido de los grillos. Comparación de datos: Construya gráficas similares que faciliten la comparación de conjuntos de datos. Por ejemplo, la figura 2-6 presenta un polígono de frecuen- cias con los pulsos de mujeres y otro polígono de frecuencias con los pulsos de hombres, ambos sobre el mismo conjunto de ejes. La figura 2-6 facilita la comparación.
A continuación se presenta una lista de las gráficas que se pueden generar por medio de la tecnología. (Para información detallada sobre los proce- dimientos, véase los manuales que complementan este libro).
U S O D E L A T E C N O L O G Í A
Genera histogramas, diagramas de dispersión y gráficas circulares.
S TAT D I S K
Genera histogramas, polígonos de frecuencias, gráficas de puntos, gráficas de tallo y hojas, gráficas de barras, gráficas de barras múltiples, gráficas de Pareto, gráficas circulares, diagramas de dispersión y gráficas de series de tiempo. En el programa Minitab 16 también puede hacer clic en Assistant , luego en Graphical Assistant y entonces aparecerá un diagrama de flujo que presenta varias opciones gráficas.
M I N I TA B
Genera histogramas, gráficas de barras, gráficas de barras múltiples, gráficas circulares y diagramas de dispersión.
E XC E L
Genera histogramas y diagramas de dispersión. A continuación se muestra un diagrama de dispersión gene- rado con la TI-83/84 Plus, que es similar al diagrama de dispersión de Minitab del ejemplo 9.
T I - 8 3 / 8 4 P L U S
TI-83/84 PLUS
Conocimientos estadísticos y pensamiento crítico
1. Polígono de frecuencias y gráfica de puntos En el ejemplo 1 se incluye un polígono de frecuencias que describe los pulsos de mujeres, y el ejemplo 4 presenta una gráfica de puntos del mismo conjunto de datos. ¿Cuáles son las principales ventajas de la gráfica de puntos sobre el polígono de frecuencias?