Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estatistica descriptiva, Apuntes de Estadística

Asignatura: Estadística, Profesor: , Carrera: Ciencias Ambientales, Universidad: USAL

Tipo: Apuntes

2013/2014

Subido el 26/02/2014

cameliacr
cameliacr 🇪🇸

4.1

(13)

6 documentos

1 / 64

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Liliana Orellana Marzo 2001, 1
ESTADÍSTICA DESCRIPTIVA
Capítulo 1. INTRODUCCIÓN
1.1 ¿Qué es la estadística?
ESTADÍSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos
imperfectos.
Los datos son generalmente imperfectos en el sentido que aún cuando posean información
útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan
extraer información a partir de los datos observados para comprender mejor las situaciones
que los mismos representan.
Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar
más allá del hecho que la teoría matemática que las sustentan puede ser muy compleja.
Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos.
Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto
las características sobresalientes e interesantes de nuestros datos que pueden ser usados en
casi todas las áreas del conocimiento.
Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una
investigación, desde el comienzo hasta el final. Existe el convencimiento de que la
estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más
visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con
el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la
elección del método de análisis para un problema, se basa tanto en el tipo de datos
diponibles como en la forma en que fueron recolectados.
1.2 ¿Por qué estudiar estadística?
Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología
estadística ejercen una profunda influencia en casi todos los campos de la actividad
humana. En particular, la estadística invade cada vez más cualquier investigación relativa
a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar
la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la
metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida.
¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo
científico o en un informe técnico?
- Porque las conclusiones pueden ser incorrectas.
- Porque no todos los lectores están en condiciones de detectar el error, y esto genera un
importante “ruido” en la bibliografía científica (Aunque este argumento tiende a
sobredimensionar la importancia de un paper, existe considerable evidencia que los
lectores sin formación metodológica tienden a aceptar como válidas las conclusiones
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40

Vista previa parcial del texto

¡Descarga Estatistica descriptiva y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA DESCRIPTIVA

Capítulo 1. INTRODUCCIÓN

1.1 ¿Qué es la estadística?

ESTADÍSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos.

Los datos son generalmente imperfectos en el sentido que aún cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan.

Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan puede ser muy compleja.

Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento.

Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una investigación, desde el comienzo hasta el final. Existe el convencimiento de que la estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la elección del método de análisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados.

1.2 ¿Por qué estudiar estadística?

Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología estadística ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadística invade cada vez más cualquier investigación relativa a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida.

¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo científico o en un informe técnico?

  • Porque las conclusiones pueden ser incorrectas.
  • Porque no todos los lectores están en condiciones de detectar el error, y esto genera un importante “ruido” en la bibliografía científica (Aunque este argumento tiende a sobredimensionar la importancia de un paper, existe considerable evidencia que los lectores sin formación metodológica tienden a aceptar como válidas las conclusiones

de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas).

El estudio de la Estadística y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la información que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretación de cualquier problema requiere, no sólo de conocimientos metodológicos sino también, de un profundo conocimiento del tema.

Aún cuando una persona no esté interesada en especializarse en estadística, un entrenamiento básico en el tema permite una mejor comprensión de la información cuantitativa.

1.3 Áreas de la estadística

Describiremos brevemente cada una de las áreas en que puede dividirse la estadística:

I. Diseño : Planeamiento y desarrollo de investigaciones. II. Descripción : Resumen y exploración de datos. III. Inferencia : Hacer predicciones o generalizaciones acerca de características de una población en base a la información de una muestra de la población.

I. Diseño

Es una actividad crucial. Consiste en definir como se desarrollará la investigación para dar respuesta a las preguntas que motivaron la misma. La recolección de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificación de la investigación ahorra trabajo en las siguientes etapas. Un estudio bien diseñado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento pobremente diseñado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas que motivaron la investigación, más allá de lo sofisticado que sea el análisis estadístico.

Aún en los casos en que se estudian datos ya registrados, en que estamos restringidos a la información existente, los principios del buen diseño de experimentos, pueden ser útiles para ayudar a seleccionar un conjunto razonable de datos que esté relacionado con el problema de interés.

II. Descripción

Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en gráficos que permiten detectar tanto las características sobresalientes como las características inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden caracterizar el conjunto con la menor distorsión o perdida de información posible.

Capítulo 2. TIPOS DE DATOS

En este capítulo presentaremos los distintos tipos de datos o variables que podemos encontrar en una investigación e comentaremos algunas estrategias para el manejo de datos con una computadora.

2.1 CARACTERÍSTICAS DE LOS CONJUNTOS DE DATOS.

En lo que sigue denominaremos

  • UNIDAD DE ANÁLISIS O DE OBSERVACIÓN al objeto bajo estudio. El mismo puede ser una persona, una familia, un país, una región, una institución o en general, cualquier objeto.
  • VARIABLE a cualquier característica de la unidad de observación que interese registrar, la que en el momento de ser registrada puede ser transformada en un número.
  • VALOR de una variable, OBSERVACIÓN o MEDICIÓN, al número que describe a la característica de interés en una unidad de observación particular.
  • CASO o REGISTRO al conjunto de mediciones realizadas sobre una unidad de observación.

Consideremos el siguiente ejemplo:

Caso Sexo Lugar nacimiento Edad PAS 1 F J1 35 110 2 M J2 (^28 120) ⇐ REGISTRO 3 M J2 59 136 ⇑ OBSERVACIÓN VARIABLE

Sexo, lugar nacimiento, edad, presión arterial sistólica son variables que describen a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables toman para esta persona.

Cuando se diseña una investigación, se intenta estudiar de qué modo una o más variables ( variables independientes ) afectan a una o más variables de interés ( variables dependientes ). Por ejemplo en un experimento, el investigador impone a los sujetos condiciones (variable independiente) y estudia el efecto de la misma sobre una característica del sujeto (aparición de una cierta característica, modificación de una condición, etc.).

Un paso importante al comenzar a manejar un conjunto de datos es identificar cuántas variables se han registrado y cómo fueron registradas esas variables, lo que permitirá definir la estrategia de análisis. En el ejemplo anterior algunas de las variables son números y otras son letras que indican categorías. A continuación se presenta una clasificación de los distintos tipos de datos que podemos encontrar. Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aquí un criterio que resulta útil desde el punto de vista de seleccionar el método de análisis estadístico más apropiado para los mismos.

2.2 TIPOS DE DATOS

2.2.1 DATOS CATEGÓRICOS O CUALITATIVOS

Las variables categóricas resultan de registrar la presencia de un atributo.

Las categorías de una variable cualitativa deben ser definidas claramente durante la etapa de diseño de la investigación y deben ser mutuamente excluyentes y exhaustivas. Esto significa que cada unidad de observación debe ser clasificada sin ambigüedad en una y solo una de las categorías posibles y que existe una categoría para clasificar a todo individuo.

En este sentido, es importante contemplar todas las posibilidades cuando se construyen variables categóricas, incluyendo una categoría tal como No sabe / No contesta, o No registrado u Otras, que asegura que todos los individuos observados serán clasificados con el criterio que define la variable.

Los datos categóricos se clasifican en dicotómicos, nominales y ordinales.

a) Dos categorías (DICOTÓMICOS)

El individuo o la unidad de observación puede ser asignada a solo una de dos categorías. En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a la ausencia y 1 a la presencia.

Ejemplos:

  1. varón – mujer
  2. embarazada - no embarazada
  3. fumador - no fumador
  4. hipertenso – normotenso

Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categórica a partir de una variable numérica.

b) Más de dos categorías

CATEGORÍAS NOMINALES ⇒ No existe orden obvio entre las categorías.

Ejemplos : país de origen, estado civil, diagnóstico.

CATEGORÍAS ORDINALES ⇒ Existe un orden natural entre las categorías.

Ejemplos:

  1. Tabaquismo: No fuma / ex-fumador / fuma ≤ 10 cigarrillos diarios / fuma > 10 cigarrillos diarios
  2. Severidad de la patología: Ausente / leve / moderado / severo.

Aún cuando los datos ordinales puedan ser codificados como números como en el caso de estadios de cáncer de mama de I a IV, no podemos decir que una paciente en el estadio IV

Sólo en casos especiales es preferible registrar datos numéricos como categóricos, por ejemplo, cuando se sabe que la medición es poco precisa (número de cigarrillos diarios, número de tazas de café en una semana).

2.2.3 OTRO TIPO DE DATOS

a) Porcentajes

Los porcentajes son el resultado de tomar el cociente entre dos cantidades. Ejemplos: reducción porcentual de la presión arterial luego de la aplicación de una droga, o peso corporal relativo (peso observado/peso deseable). En el primer caso las cantidades que forman el cociente se miden simultaneamente, en tanto que en el segundo caso el denominador es un valor estándar preexistente.

Aunque los porcentajes pueden pensarse como variables continuas pueden causar problemas en el análisis, especialmente cuando pueden tomar valores mayores y menores que 100% (ejemplo: de peso corporal relativo) o cuando pueden dar valores negativos (ejemplo: reducción porcentual de la PA. En este último caso, un paciente con PAS en 150 mm Hg con un 20% de aumento en la PAS llegará a 180 mmHg, pero una posterior disminución del 20% lo llevará a 144 mm Hg). Se debe tener cuidado al analizar estos datos.

b) Escalas analógicas visuales

Cuando se necesita que una persona indique el grado de alguna característica no medible, tal como satisfacción, dolor, bienestar, agrado, acuerdo, etc. una técnica que permite obtener categorías ordinales es la escala analógica visual. Se presenta al encuestado una línea recta (generalmente de 10 cm.) cuyos extremos indican estados extremos y se les pide que marquen una posición en la recta que represente la percepción de su estado.

Ejemplo. Interesa estimar grado de satisfacción con un tratamiento, se puede usar la siguiente escala.

Totalmente Totalmente insatisfecho satisfecho ubicación del encuestado

Estas escalas son muy útiles para valorar cambios en el mismo individuo. Aún cuando un puntaje de 3.7 no dice nada en si mismo, una reducción de 2 puntos en un paciente si nos da información. Debe tenerse cuidado al tratar este tipo de datos ya que, a diferencia de los datos numéricos, aún cuando se registren como números la escala subyacente no necesariamente es la misma para dos sujetos distintos.

c) Scores

Los scores son indicadores de la condición de un individuo basados en la observación de varias variables, generalmente categóricas. En clínica los scores se construyen en base a síntomas y signos, asignándole a cada uno de ellos un puntaje y calculando un puntaje total o score, que es un indicador de la condición del paciente.

Un ejemplo es el score Apgar usado como indicador de pronóstico en el recién nacido.

Puntaje Signo 0 1 2 Latidos Ausente < 100 ≥ 100 Respiración Ausente Llanto débil, hiperventilación Llanto fuerte Tono muscular Fláccido Leve Buena flexión Reflejos Ausente Leve Llanto Color Azul, pálido Cuerpo rosado, extremidades azules Totalmente rosa

El recién nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2, los cuales se suman y el score resultante es un número entre 0 a 10. Se considera que un score ≥ 7 es de buen pronóstico, y que un Apgar ≤ 3 es de muy mal pronóstico.

No es de interés aquí discutir la validez de este particular score, pero remarcaremos tres características que son comunes a este tipo de scores:

  • en la evaluación de cada signo está presente cierto nivel de subjetividad,
  • al transformar las categorías en números, estamos valorando las diferencias entre 0 y 1 y entre 1 y 2 como equivalentes,
  • los cinco signos son igualmente importantes en la construcción del score.

Los scores deberían tratarse en el análisis tal como se los trata en la práctica, como criterios para definir categorías ordinales y no como variables numéricas.

d) Datos censurados

Una observación censurada es aquella que no pudo ser medirla exactamente, pero que se sabe que está más allá de un cierto límite, es decir, conocemos una cota inferior o superior para el dato.

Ejemplos.

  • Cuando se miden elementos traza, el nivel del elemento en la muestra puede ser menor que el límite de detección de la técnica. Este es un dato con censura izquierda ya que no se conoce el verdadero valor, pero si se conoce una cota superior.
  • Estudios de seguimiento en los que interesa el tiempo de supervivencia. En los pacientes que se mantienen vivos finalizar el estudio, se desconoce el tiempo real de supervivencia, pero se sabe que éste es mayor que el tiempo de permanencia en el estudio. El tiempo de supervivencia está censurado a derecha, sólo conocemos una cota inferior para el mismo.
  • Un estudio de seguimiento en que interesa estudiar el tiempo transcurrido hasta la recidiva de una patología. En aquellos sujetos que se pierden del estudio (por abandono, por muerte por otras causas o por cualquier otra razón) pero que sabemos que estuvieron libres de la patología mientras permanecieron en el estudio (hasta el último control), el dato de tiempo transcurrido hasta la recidiva está censurado a derecha.

¿Por qué es importante identificar el tipo de datos?

  • Caja Negra. Se puede perder el contacto con los datos. Si el análisis se realiza automáticamente, se corre el riesgo de no advertir las características más relevantes de los datos, o de perder la información acerca de individuos con comportamiento atípico.
  • Los resultados dependen de la calidad del archivo de datos. Si los datos están mal registrados o tienen inconsistencias y el investigador no lo advierte, los resultados serán incorrectos más allá de lo sofisticado y elegante que sea el método de análisis estadístico que se utilice.

2.3.2 ESTRATEGIA PREVIA EL ANÁLISIS DE DATOS

a) Definición y codificación de las variables. Carga de datos.

Es recomendable usar un formato estandarizado para registrar la información. Esto vale tanto para estudios en los que los datos serán obtenidos a partir de registros existentes (por ejemplo historias clínicas) así como para estudios prospectivos.

Algunas variables tienen varias respuestas posibles no mutuamente excluyentes. En este caso es necesario ofrecer la opción si – no para cada posible respuesta. Ejemplo: Durante la última semana consumió: pescado si-no, legumbres si-no, carnes rojas si-no, carnes de ave: si-no, etc.

Las variables numéricas deberían ser registradas con la misma exactitud con que fueron obtenidas, no redondear. No categorizar variables numéricas para registrarlas.

Cuando el mismo sujeto es observado más de una vez, por ejemplo durante el control de embarazo o a lo largo de un ensayo, se obtienen medidas repetidas sobre el mismo individuo. No debe considerarse cada visita de un sujeto como un registro independiente. Es incorrecto tratar registros múltiples de un individuo como si fueran registros de distintos individuos. Este tipo de datos requiere de métodos estadísticos específicos que se conocen como técnicas para medidas repetidas.

Asignar un nombre de no más de 10 letras a cada variable. El nombre completo de la variable puede asignarse a través de una etiqueta (label). Algunos paquetes aceptan nombres de variables de a lo sumo 8 letras truncando las letras finales. Algunos caracteres no son permitidos en los nombres de variables, por ejemplo el punto. No deben dejarse espacios en blanco en el nombre de las variables.

La carga de datos se hace más simple, rápida y exacta si se codifican todas las variables categóricas. Es conveniente usar números para codificar las categorías de las distintas variables categóricas y asignar una etiqueta (label) a cada categoría de modo de identificarlas sin dificultad y de hacer más amigable las salidas de los procedimientos estadísticos.

Cuando se trata de fechas es importante definir el formato que se usará para la variable: día/mes/año, mes/día/año, día-mes-año, etc. Algunos paquetes no reconocen cualquier formato para las fechas y en consecuencia tratan a los valores de la variable como caracteres alfanuméricos (texto). Cuando ésto ocurre las fechas no pueden ser utilizadas en operaciones algebraicas ya que no son consideradas números sino caracteres.

b) Chequeo de los datos (Consistencia)

Pueden producirse errores cuando se toman las mediciones, cuando se registran los datos originales (ejemplo en la historia clínica), cuando se transcribe de la fuente original a una planilla, o cuando se tipean los datos para armar la base.

Usualmente no podemos saber si los datos son correctos, pero deberíamos asegurar que son plausibles. Esta etapa corresponde a lograr la CONSISTENCIA del archivo. No esperamos solucionar todos los errores, pero esperamos detectar los errores más groseros.

La consistencia de los datos intenta IDENTIFICAR y de ser posible RECTIFICAR errores en los datos.

El primer paso es chequear si el tipeo ha sido correcto. Cuando el archivo es pequeño se imprime y se controla. Cuando es grande, conviene tipearlo dos veces y comparar ambas versiones (EpiInfo lo hace con el procedimiento VALIDATE y produce un listado de diferencias).

Datos categóricos.

En este caso es simple chequear si todos los valores de la variable son plausibles, ya que hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguíneo: 0, A, B, AB. Es suficiente con producir una tabla de frecuencias para cada variable categórica en la que se controla que las categorías coinciden con las categorías definidas. Algunos paquetes diferencias letras mayúsculas de minúsculas, por lo tanto consideran que la categoría “a” de grupo sanguíneo es diferente de la “A”.

Es aconsejable hacer un listado de todas las tablas de frecuencia de las variables categóricas antes de comenzar con el análisis estadístico de los datos.

Datos numéricos.

Para cada variable debería proponerse el rango de valores esperado o posible. Ejemplo: Edad materna al parto: 12 a 50 años, Presión arterial sistólica: 70 a 250 mg de Hg.

Un error frecuente es colocar mal la coma o el punto decimal. Valores fuera del rango esperado no necesariamente son incorrectos. Existen valores que son poco probables y valores que son imposibles, lamentablemente el límite entre ambos es difícil de definir. Valores poco probables pero posibles deberían ser corregidos sólo cuando hay evidencia de error.

Cuando la base ha sido importada desde un programa (software) diferente al que se está usando es impotante controlar que durante la exportación se haya respetado el tipo de variable. En particular, que las variables que originalmente estaban definidas como numéricas, no hayan sido transformadas a texto durante la transformación porque no se reconoce el indicador de símbolo decimal (coma, punto). Cuando la variable es de tipo texto no es posible realizar operaciones albegraicas con ella.

c) Análisis exploratorio de los datos

Antes de analizar los datos es importante producir gráficos y tablas, los que permitan detectar rápidamente datos anómalos o comportamientos atípicos. Dedicaremos el siguiente capítulo a tratar este tema.

2.3.3 MALOS USOS O ABUSOS DE LA COMPUTADORA

Hemos descripto algunas desventajas de usar computadoras para manejar nuestros datos, agregamos aquí algunos malos usos y abusos que deberían evitarse.

a) Pescar en los datos

En estudios con objetivos pobremente definidos, en los que se registra información porque “puede ser interesante”, suelen realizarse gran número de análisis estadísticos buscando que aparezca alguna diferencia entre grupos o asociaciones entre pares de variables. Debe tenerse en cuenta que en este tipo de análisis existe buena chance de encontrar relaciones significativas sólo debidas al azar, cuando en realidad no existe tal relación en la población.

Los análisis exploratorios son muy útiles para ayudar a proponer nuevas hipótesis que deberán ser contrastadas en otro estudio posterior. Un mismo estudio no puede ser usado para proponer hipótesis y para verificarlas.

b) Análisis estadísticos complejos

Aunque es tentador, no es una buena práctica someter a los datos a análisis estadísticos complejos sólo porque se encuentren disponibles en el software. El análisis debe ser el mínimo requerido para responder sus preguntas. Una razón importante para hacer análisis simples es que las conclusiones son más fáciles de interpretar y de comunicar.

c) Precisión espuria

Las salidas de los programas estadísticos producen resultados con gran cantidad de cifras decimales. Sin embargo, los resultados deben ser comunicados con adecuada precisión.

Ejemplo: Un porcentaje calculado como (17/45)*100 = 37.778% debería informarse como 38% ya que la ocurrencia de un caso más modifica el porcentaje en más del 2%, (18/45) *100 = 40%.

Capítulo 3. ESTADÍSTICA DESCRIPTIVA. GRÁFICOS.

La estadística descriptiva o análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y medidas resúmenes. En este capítulo presentaremos formas simples de resumir y representar gráficamente conjuntos de datos.

El objetivo de construir gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del tipo de variable que nos interese representar por esa razón distinguiremos en la presentación gráficos para variables categóricas y para variables numéricas.

3.1 PRESENTACIÓN DE DATOS CATEGÓRICOS

3.1.1 TABLA DE FRECUENCIA

El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis que caen en cada una de las clases de la variable cualitativa.

Consideremos los casos de meningitis notificados durante el año 2000 al SI.NA.VE (Argentina) clasificados según tipo de meningitis.

Tabla 1. Notificaciones de meningitis en la Argentina, año 2000. Fuente: SI.NA.V.E.

Notación Número de notificaciones (frecuencia)

Frecuencia relativa (%) Meningitis bacteriana sin aislar Haemophilus infuenzae Meningitis tuberculosa Neisseria meningitidis Otros gérmenes Sin especificar Streptococo neumoniae Total viral

BSA

HI

MTB

NM

OG

SE

SN

TV

Total país 1952 100.00 %

La primer y segunda columna de la Tabla 1 muestran las categorías de la variable (tipo de meningitis y la sigla correspondiente), la tercer columna presenta el número de casos de meningitis de cada tipo notificados, es decir la frecuencia o frecuencia absoluta , en tanto que la última columna presenta la frecuencia relativa o el porcentaje de casos notificados de cada tipo de meningitis. Por ejemplo, la frecuencia relativa de la categoría BSA se calcula del siguiente modo:

númerototaldecasos

números decasosdeBSA = ⋅ = ⋅ = ⋅ = n

f fr (^) BSA BSA

Figura 2. Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.

BSA

HI MTB

NM

OG

SE

SN

BSA TV

HI (^) MTB

NM

OG

SE

SN

TV

0%

5%

10%

15%

20%

25%

30%

Año 1999 Año 2000

3.1.3 GRÁFICO DE TORTAS

En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se correponde con la frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos.

Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en 2 o más grupos.

Las Figura 3 muestra los datos sobre meningitis presentados en la Figura 2.

Figura 3. Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.

BSA21%

3%HI MTB1%

25%NM OG3% 11%SE

14%SN

22%TV^ BSA22%

2%HI MTB1%

24%NM OG5% 12%SE

16%SN

18%TV

¿Cuál preferir: gráfico de barras o de tortas?

La información que brindan los dos tipos de gráficos es equivalente, sin embargo, el gráfico de barras resulta más natural para comparar las distribuciones de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ángulos. Por otra parte, en el gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.

3.2 REPRESENTACIÓN GRÁFICA DE UN ÚNICO CONJUNTO DE

DATOS NUMÉRICOS

Comenzaremos representando el conjunto de datos más simple posible: un único grupo de números. Trataremos de responder a preguntas tales como:

¿Son los valores medidos casi todos iguales? ¿Son muy diferentes unos de otros? ¿En qué sentido difieren? ¿Cómo podemos describir cualquier patrón o tendencia? ¿Son un único grupo? ¿Hay varios grupos de números? ¿Difieren algunos pocos números notablemente del resto?

Usaremos distintos tipos de gráficos para representar a los datos de modo de hacer visibles sus características más importantes. Mirando un gráfico, es posible ver más allá de los detalles que presenta un listado de números y formarse una impresión de la estructura general.

3.2.1 GRÁFICO DE TALLOS Y HOJAS (STEM AND LEAF)

Esta técnica gráfica desarrollada por Tukey es muy sencilla y permite mostrar la forma de la distribución de una variable numérica.

Es apropiada para conjuntos de observaciones no muy extensos, se construye con poco esfuerzo por lo que es muy simple de realizar con lápiz y papel.

Consideremos los datos de la Tabla 2, correspondientes a casos de neumonía notificados (tasa cada 1000 habitantes) por las provincias argentinas durante el año 2000 (Fuente: SI.NA.VE, Argentina). Los datos se presentan ordenados de menor a mayor para simplificar el trabajo.

Tabla 2. Tasas de neumonía cada 1000 habitantes. Año 2000, Argentina. Fuente: SINAVE

Provincia Tasa Provincia Tasa Corrientes 0.00 Río Negro 3. Córdoba 1.28 La Rioja 3. Capital Federal 1.60 Chubut 4. Entre Ríos 1.67 Santa Fé 4. Tucumán 2.19 Tierra del Fuego 4. Catamarca 2.87 Neuquén 4. Buenos Aires 3.01 San Juan 4. Salta 3.16 Mendoza 5. Misiones 3.20 San Luis 7. Jujuy 3.21 Formosa 8. Santa Cruz 3.33 La Pampa 9. Santiago del Estero 3.37 Chaco 10.

Para construir un gráfico de tallo y hojas procedemos del siguiente modo:

¿Cómo elegir el número de tallos?

El número de tallos debe ser tal que permita mostrar una imagen general de la estructura del conjunto de datos. Aunque existen algunos criterios para definir el número de tallos, la decisión depende fundamentalmente del sentido común. Demasiados detalles distraen, demasiado agrupamiento puede distorsionar la imagen del conjunto.

Consideremos el siguiente ejemplo con datos sobre consumo diario per cápita de proteínas en 32 países desarrollados. Los datos se presentan ordenados de menor a mayor por simplicidad.

Tabla 3. Consumo de proteínas per cápita en países desarrollados. 7.83 9.03 10. 8.06 9.16 10. 8.45 9.23 10. 8.49 9.34 10. 8.53 9.39 10. 8.60 9.42 11. 8.64 9.56 11. 8.70 9.89 11. 8.75 10.00 11. 8.92 10.28 11. 8.93 10.

Seleccionando como tallo la unidad obtenemos el gráfico de tallo-hojas de la izquierda de la Figura 4.

Figura 4. Variaciones de los tallos. Datos de consumo de proteínas per cápita.

7 8 9 10 11

8 0 4 4 5 6 6 7 7 9 9 0 1 2 3 3 4 5 8 0 2 4 5 5 7 8 8 0 2 3 5 7

7 8 8 9 9 10 10 11 11

8 0 4 4 5 6 6 7 7 9 9 0 1 2 3 3 4 5 8 0 2 4 5 5 7 8 8 0 2 3 5 7

En este gráfico se acumula un número importante de hojas en cada tallo, por lo que podríamos estar perdiendo información acerca de la estructura de los datos. Dividiremos cada tallo en dos, es decir, representaremos dos veces cada tallo, la primera vez que este aparezca irá acompañado por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9. Obtenemos, entonces, el gráfico de la derecha de la Figura 4.

Como puede observarse, al expandir la escala se observan más detalles y parece haber dos “grupos” de países, uno con mayor consumo per cápita de proteínas y otro con menor consumo, ya que la distribución de la variable tiene dos picos.

El problema de expandir la escala es que comienzan a aparecer detalles superfluos, o simplemente atribuibles al azar.

Gráfico de tallo-hojas espalda con espalda. Comparación de grupos.

Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos condiciones o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque ambos grupos comparten los tallos.

A continuación se muestra un gráfico de la presión arterial sistólica a los 30 minutos de comenzada la anestesia en pacientes sometidos a dos técnicas anestésicas diferentes a las que nos referiremos como T1 y T2.

Figura 5. Comparación de la presión arterial sistólica en pacientes sometidos a dos técnicas anestésicas (30 minutos del inicio de la anestesia).

T1 T 5 4 7 6 2 7 4 7 3 7 9 6 3 8 7 7 8 9 9 6 6 0 9 0 3 5 8 9 6 6 2 10 2 2 2 8 2 1 11 3 7 7 0 12 2 13 14

4 16 El gráfico nos muestra las siguientes características de la TAS en los dos grupos de pacientes.

  • La distribución de TAS tiene forma similar en ambos grupos: Un pico o moda y forma simétrica y aproximadamente acampanada.
  • Diferencias en posición. Los pacientes del grupo T1 tienen niveles de TAS levemente mayores que los pacientes del grupo T2.
  • Similar dispersión. Los valores de TAS de los pacientes de ambos grupos se encuentran en rangos aproximadamente iguales, salvo por el valor atípico ( outlier ) que se observa en el grupo T1.

3.2.2 HISTOGRAMA

El histograma es el más conocido de los gráficos para resumir un conjunto de datos numéricos y petende responder a las mismas preguntas que un gráfico de tallo-hojas. Una virtud del gráfico de tallo-hojas es que retiene los valores de las observaciones, sin embargo, esta característica puede ser una desventaja para gran cantidad de datos. Construir manualmente un histograma es más laborioso que construir un gráfico de tallo- hojas, pero la mayoría de los paquetes estadísticos producen histogramas.

Para construir un histograma es necesario previamente construir una tabla de frecuencias.