
























































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística, Profesor: , Carrera: Ciencias Ambientales, Universidad: USAL
Tipo: Apuntes
1 / 64
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!

























































ESTADÍSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos.
Los datos son generalmente imperfectos en el sentido que aún cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan.
Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan puede ser muy compleja.
Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento.
Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una investigación, desde el comienzo hasta el final. Existe el convencimiento de que la estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la elección del método de análisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados.
Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología estadística ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadística invade cada vez más cualquier investigación relativa a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida.
¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo científico o en un informe técnico?
de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas).
El estudio de la Estadística y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la información que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretación de cualquier problema requiere, no sólo de conocimientos metodológicos sino también, de un profundo conocimiento del tema.
Aún cuando una persona no esté interesada en especializarse en estadística, un entrenamiento básico en el tema permite una mejor comprensión de la información cuantitativa.
Describiremos brevemente cada una de las áreas en que puede dividirse la estadística:
I. Diseño : Planeamiento y desarrollo de investigaciones. II. Descripción : Resumen y exploración de datos. III. Inferencia : Hacer predicciones o generalizaciones acerca de características de una población en base a la información de una muestra de la población.
I. Diseño
Es una actividad crucial. Consiste en definir como se desarrollará la investigación para dar respuesta a las preguntas que motivaron la misma. La recolección de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificación de la investigación ahorra trabajo en las siguientes etapas. Un estudio bien diseñado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento pobremente diseñado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas que motivaron la investigación, más allá de lo sofisticado que sea el análisis estadístico.
Aún en los casos en que se estudian datos ya registrados, en que estamos restringidos a la información existente, los principios del buen diseño de experimentos, pueden ser útiles para ayudar a seleccionar un conjunto razonable de datos que esté relacionado con el problema de interés.
II. Descripción
Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en gráficos que permiten detectar tanto las características sobresalientes como las características inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden caracterizar el conjunto con la menor distorsión o perdida de información posible.
En este capítulo presentaremos los distintos tipos de datos o variables que podemos encontrar en una investigación e comentaremos algunas estrategias para el manejo de datos con una computadora.
En lo que sigue denominaremos
Consideremos el siguiente ejemplo:
Caso Sexo Lugar nacimiento Edad PAS 1 F J1 35 110 2 M J2 (^28 120) ⇐ REGISTRO 3 M J2 59 136 ⇑ OBSERVACIÓN VARIABLE
Sexo, lugar nacimiento, edad, presión arterial sistólica son variables que describen a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables toman para esta persona.
Cuando se diseña una investigación, se intenta estudiar de qué modo una o más variables ( variables independientes ) afectan a una o más variables de interés ( variables dependientes ). Por ejemplo en un experimento, el investigador impone a los sujetos condiciones (variable independiente) y estudia el efecto de la misma sobre una característica del sujeto (aparición de una cierta característica, modificación de una condición, etc.).
Un paso importante al comenzar a manejar un conjunto de datos es identificar cuántas variables se han registrado y cómo fueron registradas esas variables, lo que permitirá definir la estrategia de análisis. En el ejemplo anterior algunas de las variables son números y otras son letras que indican categorías. A continuación se presenta una clasificación de los distintos tipos de datos que podemos encontrar. Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aquí un criterio que resulta útil desde el punto de vista de seleccionar el método de análisis estadístico más apropiado para los mismos.
Las variables categóricas resultan de registrar la presencia de un atributo.
Las categorías de una variable cualitativa deben ser definidas claramente durante la etapa de diseño de la investigación y deben ser mutuamente excluyentes y exhaustivas. Esto significa que cada unidad de observación debe ser clasificada sin ambigüedad en una y solo una de las categorías posibles y que existe una categoría para clasificar a todo individuo.
En este sentido, es importante contemplar todas las posibilidades cuando se construyen variables categóricas, incluyendo una categoría tal como No sabe / No contesta, o No registrado u Otras, que asegura que todos los individuos observados serán clasificados con el criterio que define la variable.
Los datos categóricos se clasifican en dicotómicos, nominales y ordinales.
a) Dos categorías (DICOTÓMICOS)
El individuo o la unidad de observación puede ser asignada a solo una de dos categorías. En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a la ausencia y 1 a la presencia.
Ejemplos:
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categórica a partir de una variable numérica.
b) Más de dos categorías
CATEGORÍAS NOMINALES ⇒ No existe orden obvio entre las categorías.
Ejemplos : país de origen, estado civil, diagnóstico.
CATEGORÍAS ORDINALES ⇒ Existe un orden natural entre las categorías.
Ejemplos:
Aún cuando los datos ordinales puedan ser codificados como números como en el caso de estadios de cáncer de mama de I a IV, no podemos decir que una paciente en el estadio IV
Sólo en casos especiales es preferible registrar datos numéricos como categóricos, por ejemplo, cuando se sabe que la medición es poco precisa (número de cigarrillos diarios, número de tazas de café en una semana).
a) Porcentajes
Los porcentajes son el resultado de tomar el cociente entre dos cantidades. Ejemplos: reducción porcentual de la presión arterial luego de la aplicación de una droga, o peso corporal relativo (peso observado/peso deseable). En el primer caso las cantidades que forman el cociente se miden simultaneamente, en tanto que en el segundo caso el denominador es un valor estándar preexistente.
Aunque los porcentajes pueden pensarse como variables continuas pueden causar problemas en el análisis, especialmente cuando pueden tomar valores mayores y menores que 100% (ejemplo: de peso corporal relativo) o cuando pueden dar valores negativos (ejemplo: reducción porcentual de la PA. En este último caso, un paciente con PAS en 150 mm Hg con un 20% de aumento en la PAS llegará a 180 mmHg, pero una posterior disminución del 20% lo llevará a 144 mm Hg). Se debe tener cuidado al analizar estos datos.
b) Escalas analógicas visuales
Cuando se necesita que una persona indique el grado de alguna característica no medible, tal como satisfacción, dolor, bienestar, agrado, acuerdo, etc. una técnica que permite obtener categorías ordinales es la escala analógica visual. Se presenta al encuestado una línea recta (generalmente de 10 cm.) cuyos extremos indican estados extremos y se les pide que marquen una posición en la recta que represente la percepción de su estado.
Ejemplo. Interesa estimar grado de satisfacción con un tratamiento, se puede usar la siguiente escala.
Totalmente Totalmente insatisfecho satisfecho ubicación del encuestado
Estas escalas son muy útiles para valorar cambios en el mismo individuo. Aún cuando un puntaje de 3.7 no dice nada en si mismo, una reducción de 2 puntos en un paciente si nos da información. Debe tenerse cuidado al tratar este tipo de datos ya que, a diferencia de los datos numéricos, aún cuando se registren como números la escala subyacente no necesariamente es la misma para dos sujetos distintos.
c) Scores
Los scores son indicadores de la condición de un individuo basados en la observación de varias variables, generalmente categóricas. En clínica los scores se construyen en base a síntomas y signos, asignándole a cada uno de ellos un puntaje y calculando un puntaje total o score, que es un indicador de la condición del paciente.
Un ejemplo es el score Apgar usado como indicador de pronóstico en el recién nacido.
Puntaje Signo 0 1 2 Latidos Ausente < 100 ≥ 100 Respiración Ausente Llanto débil, hiperventilación Llanto fuerte Tono muscular Fláccido Leve Buena flexión Reflejos Ausente Leve Llanto Color Azul, pálido Cuerpo rosado, extremidades azules Totalmente rosa
El recién nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2, los cuales se suman y el score resultante es un número entre 0 a 10. Se considera que un score ≥ 7 es de buen pronóstico, y que un Apgar ≤ 3 es de muy mal pronóstico.
No es de interés aquí discutir la validez de este particular score, pero remarcaremos tres características que son comunes a este tipo de scores:
Los scores deberían tratarse en el análisis tal como se los trata en la práctica, como criterios para definir categorías ordinales y no como variables numéricas.
d) Datos censurados
Una observación censurada es aquella que no pudo ser medirla exactamente, pero que se sabe que está más allá de un cierto límite, es decir, conocemos una cota inferior o superior para el dato.
Ejemplos.
a) Definición y codificación de las variables. Carga de datos.
Es recomendable usar un formato estandarizado para registrar la información. Esto vale tanto para estudios en los que los datos serán obtenidos a partir de registros existentes (por ejemplo historias clínicas) así como para estudios prospectivos.
Algunas variables tienen varias respuestas posibles no mutuamente excluyentes. En este caso es necesario ofrecer la opción si – no para cada posible respuesta. Ejemplo: Durante la última semana consumió: pescado si-no, legumbres si-no, carnes rojas si-no, carnes de ave: si-no, etc.
Las variables numéricas deberían ser registradas con la misma exactitud con que fueron obtenidas, no redondear. No categorizar variables numéricas para registrarlas.
Cuando el mismo sujeto es observado más de una vez, por ejemplo durante el control de embarazo o a lo largo de un ensayo, se obtienen medidas repetidas sobre el mismo individuo. No debe considerarse cada visita de un sujeto como un registro independiente. Es incorrecto tratar registros múltiples de un individuo como si fueran registros de distintos individuos. Este tipo de datos requiere de métodos estadísticos específicos que se conocen como técnicas para medidas repetidas.
Asignar un nombre de no más de 10 letras a cada variable. El nombre completo de la variable puede asignarse a través de una etiqueta (label). Algunos paquetes aceptan nombres de variables de a lo sumo 8 letras truncando las letras finales. Algunos caracteres no son permitidos en los nombres de variables, por ejemplo el punto. No deben dejarse espacios en blanco en el nombre de las variables.
La carga de datos se hace más simple, rápida y exacta si se codifican todas las variables categóricas. Es conveniente usar números para codificar las categorías de las distintas variables categóricas y asignar una etiqueta (label) a cada categoría de modo de identificarlas sin dificultad y de hacer más amigable las salidas de los procedimientos estadísticos.
Cuando se trata de fechas es importante definir el formato que se usará para la variable: día/mes/año, mes/día/año, día-mes-año, etc. Algunos paquetes no reconocen cualquier formato para las fechas y en consecuencia tratan a los valores de la variable como caracteres alfanuméricos (texto). Cuando ésto ocurre las fechas no pueden ser utilizadas en operaciones algebraicas ya que no son consideradas números sino caracteres.
b) Chequeo de los datos (Consistencia)
Pueden producirse errores cuando se toman las mediciones, cuando se registran los datos originales (ejemplo en la historia clínica), cuando se transcribe de la fuente original a una planilla, o cuando se tipean los datos para armar la base.
Usualmente no podemos saber si los datos son correctos, pero deberíamos asegurar que son plausibles. Esta etapa corresponde a lograr la CONSISTENCIA del archivo. No esperamos solucionar todos los errores, pero esperamos detectar los errores más groseros.
La consistencia de los datos intenta IDENTIFICAR y de ser posible RECTIFICAR errores en los datos.
El primer paso es chequear si el tipeo ha sido correcto. Cuando el archivo es pequeño se imprime y se controla. Cuando es grande, conviene tipearlo dos veces y comparar ambas versiones (EpiInfo lo hace con el procedimiento VALIDATE y produce un listado de diferencias).
Datos categóricos.
En este caso es simple chequear si todos los valores de la variable son plausibles, ya que hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguíneo: 0, A, B, AB. Es suficiente con producir una tabla de frecuencias para cada variable categórica en la que se controla que las categorías coinciden con las categorías definidas. Algunos paquetes diferencias letras mayúsculas de minúsculas, por lo tanto consideran que la categoría “a” de grupo sanguíneo es diferente de la “A”.
Es aconsejable hacer un listado de todas las tablas de frecuencia de las variables categóricas antes de comenzar con el análisis estadístico de los datos.
Datos numéricos.
Para cada variable debería proponerse el rango de valores esperado o posible. Ejemplo: Edad materna al parto: 12 a 50 años, Presión arterial sistólica: 70 a 250 mg de Hg.
Un error frecuente es colocar mal la coma o el punto decimal. Valores fuera del rango esperado no necesariamente son incorrectos. Existen valores que son poco probables y valores que son imposibles, lamentablemente el límite entre ambos es difícil de definir. Valores poco probables pero posibles deberían ser corregidos sólo cuando hay evidencia de error.
Cuando la base ha sido importada desde un programa (software) diferente al que se está usando es impotante controlar que durante la exportación se haya respetado el tipo de variable. En particular, que las variables que originalmente estaban definidas como numéricas, no hayan sido transformadas a texto durante la transformación porque no se reconoce el indicador de símbolo decimal (coma, punto). Cuando la variable es de tipo texto no es posible realizar operaciones albegraicas con ella.
c) Análisis exploratorio de los datos
Antes de analizar los datos es importante producir gráficos y tablas, los que permitan detectar rápidamente datos anómalos o comportamientos atípicos. Dedicaremos el siguiente capítulo a tratar este tema.
Hemos descripto algunas desventajas de usar computadoras para manejar nuestros datos, agregamos aquí algunos malos usos y abusos que deberían evitarse.
a) Pescar en los datos
En estudios con objetivos pobremente definidos, en los que se registra información porque “puede ser interesante”, suelen realizarse gran número de análisis estadísticos buscando que aparezca alguna diferencia entre grupos o asociaciones entre pares de variables. Debe tenerse en cuenta que en este tipo de análisis existe buena chance de encontrar relaciones significativas sólo debidas al azar, cuando en realidad no existe tal relación en la población.
Los análisis exploratorios son muy útiles para ayudar a proponer nuevas hipótesis que deberán ser contrastadas en otro estudio posterior. Un mismo estudio no puede ser usado para proponer hipótesis y para verificarlas.
b) Análisis estadísticos complejos
Aunque es tentador, no es una buena práctica someter a los datos a análisis estadísticos complejos sólo porque se encuentren disponibles en el software. El análisis debe ser el mínimo requerido para responder sus preguntas. Una razón importante para hacer análisis simples es que las conclusiones son más fáciles de interpretar y de comunicar.
c) Precisión espuria
Las salidas de los programas estadísticos producen resultados con gran cantidad de cifras decimales. Sin embargo, los resultados deben ser comunicados con adecuada precisión.
Ejemplo: Un porcentaje calculado como (17/45)*100 = 37.778% debería informarse como 38% ya que la ocurrencia de un caso más modifica el porcentaje en más del 2%, (18/45) *100 = 40%.
La estadística descriptiva o análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y medidas resúmenes. En este capítulo presentaremos formas simples de resumir y representar gráficamente conjuntos de datos.
El objetivo de construir gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del tipo de variable que nos interese representar por esa razón distinguiremos en la presentación gráficos para variables categóricas y para variables numéricas.
El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis que caen en cada una de las clases de la variable cualitativa.
Consideremos los casos de meningitis notificados durante el año 2000 al SI.NA.VE (Argentina) clasificados según tipo de meningitis.
Tabla 1. Notificaciones de meningitis en la Argentina, año 2000. Fuente: SI.NA.V.E.
Notación Número de notificaciones (frecuencia)
Frecuencia relativa (%) Meningitis bacteriana sin aislar Haemophilus infuenzae Meningitis tuberculosa Neisseria meningitidis Otros gérmenes Sin especificar Streptococo neumoniae Total viral
Total país 1952 100.00 %
La primer y segunda columna de la Tabla 1 muestran las categorías de la variable (tipo de meningitis y la sigla correspondiente), la tercer columna presenta el número de casos de meningitis de cada tipo notificados, es decir la frecuencia o frecuencia absoluta , en tanto que la última columna presenta la frecuencia relativa o el porcentaje de casos notificados de cada tipo de meningitis. Por ejemplo, la frecuencia relativa de la categoría BSA se calcula del siguiente modo:
númerototaldecasos
números decasosdeBSA = ⋅ = ⋅ = ⋅ = n
f fr (^) BSA BSA
Figura 2. Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.
BSA
HI MTB
NM
OG
SE
SN
BSA TV
HI (^) MTB
NM
OG
SE
SN
TV
0%
5%
10%
15%
20%
25%
30%
Año 1999 Año 2000
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se correponde con la frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos.
Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en 2 o más grupos.
Las Figura 3 muestra los datos sobre meningitis presentados en la Figura 2.
Figura 3. Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.
BSA21%
3%HI MTB1%
25%NM OG3% 11%SE
14%SN
22%TV^ BSA22%
2%HI MTB1%
24%NM OG5% 12%SE
16%SN
18%TV
¿Cuál preferir: gráfico de barras o de tortas?
La información que brindan los dos tipos de gráficos es equivalente, sin embargo, el gráfico de barras resulta más natural para comparar las distribuciones de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ángulos. Por otra parte, en el gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.
Comenzaremos representando el conjunto de datos más simple posible: un único grupo de números. Trataremos de responder a preguntas tales como:
¿Son los valores medidos casi todos iguales? ¿Son muy diferentes unos de otros? ¿En qué sentido difieren? ¿Cómo podemos describir cualquier patrón o tendencia? ¿Son un único grupo? ¿Hay varios grupos de números? ¿Difieren algunos pocos números notablemente del resto?
Usaremos distintos tipos de gráficos para representar a los datos de modo de hacer visibles sus características más importantes. Mirando un gráfico, es posible ver más allá de los detalles que presenta un listado de números y formarse una impresión de la estructura general.
Esta técnica gráfica desarrollada por Tukey es muy sencilla y permite mostrar la forma de la distribución de una variable numérica.
Es apropiada para conjuntos de observaciones no muy extensos, se construye con poco esfuerzo por lo que es muy simple de realizar con lápiz y papel.
Consideremos los datos de la Tabla 2, correspondientes a casos de neumonía notificados (tasa cada 1000 habitantes) por las provincias argentinas durante el año 2000 (Fuente: SI.NA.VE, Argentina). Los datos se presentan ordenados de menor a mayor para simplificar el trabajo.
Tabla 2. Tasas de neumonía cada 1000 habitantes. Año 2000, Argentina. Fuente: SINAVE
Provincia Tasa Provincia Tasa Corrientes 0.00 Río Negro 3. Córdoba 1.28 La Rioja 3. Capital Federal 1.60 Chubut 4. Entre Ríos 1.67 Santa Fé 4. Tucumán 2.19 Tierra del Fuego 4. Catamarca 2.87 Neuquén 4. Buenos Aires 3.01 San Juan 4. Salta 3.16 Mendoza 5. Misiones 3.20 San Luis 7. Jujuy 3.21 Formosa 8. Santa Cruz 3.33 La Pampa 9. Santiago del Estero 3.37 Chaco 10.
Para construir un gráfico de tallo y hojas procedemos del siguiente modo:
¿Cómo elegir el número de tallos?
El número de tallos debe ser tal que permita mostrar una imagen general de la estructura del conjunto de datos. Aunque existen algunos criterios para definir el número de tallos, la decisión depende fundamentalmente del sentido común. Demasiados detalles distraen, demasiado agrupamiento puede distorsionar la imagen del conjunto.
Consideremos el siguiente ejemplo con datos sobre consumo diario per cápita de proteínas en 32 países desarrollados. Los datos se presentan ordenados de menor a mayor por simplicidad.
Tabla 3. Consumo de proteínas per cápita en países desarrollados. 7.83 9.03 10. 8.06 9.16 10. 8.45 9.23 10. 8.49 9.34 10. 8.53 9.39 10. 8.60 9.42 11. 8.64 9.56 11. 8.70 9.89 11. 8.75 10.00 11. 8.92 10.28 11. 8.93 10.
Seleccionando como tallo la unidad obtenemos el gráfico de tallo-hojas de la izquierda de la Figura 4.
Figura 4. Variaciones de los tallos. Datos de consumo de proteínas per cápita.
7 8 9 10 11
8 0 4 4 5 6 6 7 7 9 9 0 1 2 3 3 4 5 8 0 2 4 5 5 7 8 8 0 2 3 5 7
7 8 8 9 9 10 10 11 11
8 0 4 4 5 6 6 7 7 9 9 0 1 2 3 3 4 5 8 0 2 4 5 5 7 8 8 0 2 3 5 7
En este gráfico se acumula un número importante de hojas en cada tallo, por lo que podríamos estar perdiendo información acerca de la estructura de los datos. Dividiremos cada tallo en dos, es decir, representaremos dos veces cada tallo, la primera vez que este aparezca irá acompañado por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9. Obtenemos, entonces, el gráfico de la derecha de la Figura 4.
Como puede observarse, al expandir la escala se observan más detalles y parece haber dos “grupos” de países, uno con mayor consumo per cápita de proteínas y otro con menor consumo, ya que la distribución de la variable tiene dos picos.
El problema de expandir la escala es que comienzan a aparecer detalles superfluos, o simplemente atribuibles al azar.
Gráfico de tallo-hojas espalda con espalda. Comparación de grupos.
Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos condiciones o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque ambos grupos comparten los tallos.
A continuación se muestra un gráfico de la presión arterial sistólica a los 30 minutos de comenzada la anestesia en pacientes sometidos a dos técnicas anestésicas diferentes a las que nos referiremos como T1 y T2.
Figura 5. Comparación de la presión arterial sistólica en pacientes sometidos a dos técnicas anestésicas (30 minutos del inicio de la anestesia).
T1 T 5 4 7 6 2 7 4 7 3 7 9 6 3 8 7 7 8 9 9 6 6 0 9 0 3 5 8 9 6 6 2 10 2 2 2 8 2 1 11 3 7 7 0 12 2 13 14
4 16 El gráfico nos muestra las siguientes características de la TAS en los dos grupos de pacientes.
El histograma es el más conocido de los gráficos para resumir un conjunto de datos numéricos y petende responder a las mismas preguntas que un gráfico de tallo-hojas. Una virtud del gráfico de tallo-hojas es que retiene los valores de las observaciones, sin embargo, esta característica puede ser una desventaja para gran cantidad de datos. Construir manualmente un histograma es más laborioso que construir un gráfico de tallo- hojas, pero la mayoría de los paquetes estadísticos producen histogramas.
Para construir un histograma es necesario previamente construir una tabla de frecuencias.