










Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Bioestadística aplicada a la nutrició, Profesor: pablo garcia, Carrera: Nutrició Humana i Dietètica, Universidad: UA
Tipo: Apuntes
1 / 18
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!











El análisis estadístico juega un papel esencial en el tratamiento de la información procedente de una investigación, abarcando diversos aspectos relativos a su descripción, o a la extracción de conclusiones y generalización de éstas que podamos realizar. A lo largo de cuatro capítulos se abordará las técnicas y procesos básicos que permitirán analizar estadísticamente la información de un conjunto de datos. El problema a resolver en el presente capítulo se centra en el proceso de organización, descripción y presentación de la información necesaria para el estudio de las características de interés. Nos referiremos a esa información como el conjunto o base de datos. La calidad de las aplicaciones estadísticas realizadas dependerá en gran medida de un manejo correcto de tal información y una identificación adecuada de los diversos elementos estadísticos que la conforman, pudiendo extraer conclusiones erróneas como consecuencia de una identificación incorrecta.
Definiremos el concepto de base de datos como una colección de resultados de diversas características, estructurados de acuerdo con algún objetivo particular. Es muy frecuente que la gran cantidad de información generada en el entorno sanitario dé lugar a la configuración de diferentes bases de datos. Así, por ejemplo, la información de las historias clínicas de los pacientes atendidos en un servicio hospitalario pueden presentar diferentes estructuras según la finalidad, administrativa, de investigación, con vistas al tratamiento,... Para definir los elementos estadísticos básicos nos basaremos en la información contenida en el cuadro 1.1, obtenida sobre cinco individuos en un estudio para determinar la presencia de cálculos biliares y otras características.
La información que se presenta en este cuadro está estructurada en forma de base de datos, en la que cada línea contiene los datos de cada uno de los individuos del estudio. Desde el punto de vista estadístico, una base de datos contiene diversos elementos estadísticos, a saber:
Individuo o elemento : La base de datos contiene información sobre las características de una colección de unidades que denominaremos individuos o elementos (pueden ser personas o cosas). En el cuadro 1.1, los elementos son cada una de las personas de las que se recoge información.
presentación de la información
Variable : Es una característica de interés sobre un elemento. Es esencial que sus resultados cambien entre diferentes elementos, pues de no hacerlo estaríamos ante una constante. En el cuadro 1.1, la edad es una variable. Según la forma en que las variables presentan sus resultados, éstas pueden ser cualitativas (presentan sus resultados en forma de estados o categorías, como en el caso del sexo, hombres-mujeres), o cuantitativas (presentan sus resultados en forma de valores numéricos, como en el caso de la edad o el número de cálculos). No obstante, en función de los posibles resultados, las variables cuantitativas pueden ser continuas , cuando éstos pueden ser cualesquiera valores numéricos, pudiendo alcanzar un número infinito de valores distintos, o discretas , cuando sus resultados surgen de un proceso de recuento, pudiendo tomar un número finito o infinito numerable de valores. En el ejemplo, la edad es una variable cuantitativa continua, puesto que el número de posibles resultados es infinito (cualquier valor mayor que cero es válido), pudiendo medirla en las unidades que estimemos oportunas (años, meses, días,...). El número de cálculos es un ejemplo de variable cuantitativa discreta, presentando un número de resultados distintos que es numerable (0,1,2,3,...), y supuestamente finito. Un ejemplo de variable discreta, con un número de resultados infinito numerable puede ser el número de tomas de temperatura corporal realizadas con un termómetro clínico, 0 (se rompe en la primera), 1, 2, 3,...., (desconocemos el número, pudiendo ser tan grande como queramos). Es frecuente convertir variables cuantitativas en cualitativas, agrupando los valores numéricos en diferentes categorías. Así, podríamos convertir el número de cálculos en una variable de dos categorías: 'No tiene' (se corresponde con el valor 0), 'Tiene' (se corresponde con los valores restantes, 0, 1, 2,...); de hecho, la variable glucosa aparece categorizada según ésta sea mayor a 140 mg/100ml o menor o igual a 140 mg/100ml.
Observación : Es la información de una variable sobre un individuo de la base de datos. También es denominada medida, valor o resultado. Así, en el ejemplo, 74 es la observación de la variable edad en el individuo llamado Javier.
Caso o registro : Es el conjunto de observaciones correspondientes a un individuo de la base de datos. En el ejemplo, cada fila contiene toda la información de cada uno de los individuos de la base de datos, representando un caso o registro.
Tipos de datos : En la práctica, los datos que configuran la base de datos provienen de las observaciones de diferentes variables. Tales datos pueden ser de diferentes tipos. Así, los datos que surgen de un proceso de medición, representando cantidades, capacidades, o características similares pueden ser denominados medidas. En el cuadro 1.1, la edad o el peso son de este tipo. Los datos que surgen de un proceso de recuento o son frecuencias de ocurrencia de algún suceso se denominan frecuenciales. El número de cálculos biliares es de este tipo, pues surge del recuento de cálculos en cada individuo. Otro tipo de datos surge de producir una ordenación en los individuos. Estos datos son denominados ordinales. El número de orden según la nota
Nº de caso Nombre Sexo Edad Peso Glucosa Nº Cálculos 1 Andreu 1 47 69 1 0 7 Joaquín 1 67 66 2 0 115 Elisa 2 57 89 1 0 CASO 123 María 2 62 82 1 2 210 Javier 1 55 74 1 1_______
Cuadro 1.1.- Datos estructurados en forma de base de datos
presentación de la información
La asignación de los individuos a las diferentes categorías o valores debe ser exclusiva y exhaustiva , es decir, cada uno de los individuos debe ser asignado a una y sólo una de las categorías o valores, mientras que todos los individuos deben ser asignados.
Cuando la variable es cuantitativa, suele ser estructurada de forma más sintética, pues la mayor variabilidad en sus observaciones, especialmente si la variable es continua, daría lugar a una tabla con información excesivamente detallada y con poca capacidad de resumen. La solución se obtiene tabulando la variable por intervalos. Se trata de definir una secuencia de intervalos de forma que un individuo será contabilizado en uno de ellos si el valor de la variable a estudio está incluido en él. Cada intervalo es definido a través de sus límites [xi , xi+1[, como el conjunto de valores de la variable, digamos X, tal que xi X < xi+1. Con esta definición se dirá que los intervalos son abiertos por la derecha y cerrados por la izquierda.
Así, en el cuadro 1.3 encontramos la distribución de frecuencias de la variable edad agrupada en intervalos. El intervalo 20 - 25, p.ej., contiene todos aquellos individuos cuya edad es superior o igual a 20 e inferior a 25.
En algunos casos, el primer y último intervalo puede no verificar la normativa descrita para la construcción. Así, es frecuente ver expresiones
' < 25 ' o ' 70 ' en tales intervalos. Esta situación no es recomendable, salvo que sea estrictamente necesaria, puesto que cálculos posteriores pueden requerir del conocimiento de ambos límites. Otra situación frecuente es la de definir los intervalos para algunas variables, como es el caso de la edad, como 20 - 24, 25
SEXO fi fri pi
Hombres Mujeres
Total 200 1,00 100
; p fr 100 n
f fr
f frecuenciaabsolutacategoríai
n 200
i i
i i
i
EDAD fi pi Pi
20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 60 - 65 65 - 70 70 - 75
Total 200 100
Cuadro 1.3.- Distribución de frecuencias por intervalos
Cuadro 1.2.- Tabla de distribución de frecuencias
presentación de la información
distintos de la variable hasta un único intervalo en el que se encuentren todos los valores. Habitualmente, la mayoría de las situaciones son resueltas con un número de intervalos que puede oscilar entre 4 y 20.
Adicionalmente, si la variable es cuantitativa, la magnitud en que han ido apareciendo y agrupándose los individuos, a medida que nos referimos a edades mayores puede ser recogida a través de los porcentajes acumulados (Pi), obtenidos sumando acumulativamente los porcentajes. De igual forma pueden ser calculadas las frecuencias absolutas acumuladas, (Fi ) y frecuencias relativas acumuladas (Fri) de los diferentes valores:
i
j 1
i j
i
j 1
i j
i
j 1
Pi pj ; F f ; Fr fr
A través de la distribución de frecuencias es posible resumir el patrón de comportamiento de una variable. Sin embargo, la representación de este patrón en un gráfico puede ayudar a comprenderlo. Se entenderá por gráfico cualquier representación con símbolos, líneas, figuras geométricas o caracteres orientada a este fin. Desde este punto de vista, las representaciones gráficas posibles son muchas y muy diversas. Además, en la actualidad los paquetes de representación gráfica por ordenador ofrecen una gama muy amplia y variada de posibles representaciones (bidimensionales, tridimensionales, pictogramas,...). No obstante, podemos establecer algunos gráficos básicos para las diferentes variables.
Gráficos para variables cualitativas
La información disponible para este tipo de variables se concentra en sus categorías y las correspondientes frecuencias absolutas, relativas o porcentajes.
Las figuras 1.2 y 1.3 presentan las distribuciones de frecuencias de las variables sexo y consumo de alcohol obtenidas en un estudio sobre 200 individuos. En la primera de ellas se ha representado los porcentajes de las diferentes categorías de la variable, dibujando un paralelogramo hasta la altura correspondiente en cada una de ellas. Este tipo de representación gráfica recibe el nombre de diagrama de barras.
En la figura 1.3 se ha representado los porcentajes de las categorías de la variable consumo de alcohol, asignando un sector circular de forma proporcional al porcentaje alcanzado por cada una de ellas. Este tipo de representación gráfica recibe el nombre de diagrama de sectores , aunque también es conocido como pastel o tarta.
Gráficos para variables cuantitativas
La información disponible para este tipo de variables es mayor que en el caso cualitativo. Por una parte dispondremos de información acerca de los valores de la variable, hecho que sugiere la utilización de alguna escala de medida para ellos. En segundo lugar, la información sobre la distribución de frecuencias de la variable puede ser ampliada a través de los porcentajes y frecuencias absolutas o relativas acumuladas.
Las figuras 1.4 y 1.5 presentan la distribución de frecuencias de la variable edad, agrupando los valores en
Figura 1.2.- Diagrama de barras
Figura 1.3.- Diagrama de sectores
presentación de la información
Frecuentemente interesa inspeccionar la información conjunta de dos variables. Para ello podemos construir tablas de distribución de frecuencias conjuntas, o construir gráficos que informen sobre el comportamiento conjunto. Distinguiremos tres casos según el tipo de variables involucradas.
Como ejemplo, sea un estudio en el que para las variables SEXO (hombre, mujer) y ALCOHOL (nunca, ocasional o diariamente), se observan las siguientes frecuencias en las diferentes parejas de categorías combinadas:
Hombre, Nunca toma alcohol 43 Hombre, Ocasional o diariamente 49
Mujer, Nunca toma alcohol 94 Mujer, Ocasional o diariamente 14
La forma habitual de estructurar esta información es a través de una tabla de distribución de frecuencias conjuntas, como se muestra en el cuadro 1.4, obteniendo adicionalmente las distribuciones de frecuencias de cada una de las variables por separado. Estas reciben el nombre de distribuciones de frecuencias marginales y recogen los totales por filas o columnas en la tabla. En general, el interés en estas situaciones se centra en el cálculo de los porcentajes por filas y columnas. Estos porcentajes (entre paréntesis en el cuadro 1.4, primer paréntesis por filas y segundo por columnas) recogen la información condicional de la distribución de cada una de las variables dada una categoría determinada de la otra. Así, entre los hombres, los porcentajes de consumo de alcohol son 46,7% y 53,3% para las categorías nunca y ocasional o diariamente respectivamente, mientras que en las mujeres, estos porcentajes son 87% y 13% respectivamente. La representación gráfica más habitual para la distribución conjunta de dos variables cualitativas es el diagrama de barras combinado.
Las figuras 1.8 y 1.9 presentan distintas construcciones de este tipo. En la 1.8 se ha representado los porcentajes por columnas y la 1.9 los porcentajes por filas. En ambos casos se visualiza rápidamente el
Hombre Mujer
Nunca
Ocas. o diaria.
Figura 1.8.- Diagrama de barras combinado. Porcentajes por columnas
Figura 1.9.- Diagrama de barras combinado. Porcentajes por filas (escala 100%)
Cuadro 1.4.- Distribución de frecuencias conjuntas
presentación de la información
desequilibrio existente entre hombres y mujeres en las diferentes categorías de consumo de alcohol.
La mayor variabilidad de este tipo de variables, junto con la información cuantitativa de sus valores sugiere mayor complejidad en el resumen de la información. La información disponible será la de todas las parejas de valores (xi , yi), i=1,....,n, de la que se desprenderá la distribución conjunta de las variables. La figura 1.10 presenta el diagrama de dispersión de las variables nivel de colesterol y edad. Para su construcción se ha representado en el eje de abcisas la edad y en el de ordenadas el nivel de colesterol. Cada uno de los puntos corresponde a la representación de la pareja de coordenadas (xi , yi) (xi = edad del individuo i-ésimo, yi = colesterol del individuo i-ésimo). Este tipo de diagrama permite visualizar el comportamiento conjunto de las variables, intentando resumir la forma en que se relacionan o vinculan. En el ejemplo se observa un comportamiento de conjunto que sugiere una tendencia a alcanzar mayores valores de colesterol según se incrementa la edad.
Otra forma de abordar la inspección del comportamiento conjunto puede ser categorizando cada una de las variables a través de la definición de los intervalos correspondientes y generando la tabla de distribución de frecuencias conjunta tal como se ha descrito para variables cualitativas.
Cuando los datos se refieren a una variable cualitativa, por ejemplo el consumo de alcohol (nunca, ocasional o diariamente) y el nivel de colesterol, es posible utilizar tablas o representaciones gráficas para resumir el comportamiento conjunto. En el cuadro 1.5 y figura 1.11 se presenta las distribuciones de frecuencias del colesterol según consumo de alcohol y la representación gráfica de éstas a través de los polígonos de frecuencias correspondientes. Puede observarse la tendencia a alcanzar con mayor frecuencia valores más elevados de colesterol en el grupo definido por el consumo ocasional o diario de alcohol.
10 20 30 40 50 60 70 80
600
500
400
300
200
100
0
Figura 1.10.- Diagrama de dispersión
presentación de la información
Una de las variables recogidas en un estudio es el nivel de colesterol (en mg/100ml) (ver cuadro 1.6). Además del interés de esta variable por sí misma, su importancia como factor de riesgo de enfermedad cardiovascular sugiere a los investigadores profundizar en su comportamiento. Se desea obtener medidas que resuman la información contenida en el conjunto de observaciones de la base de datos, y que, a ser posible, puedan ser comparadas por otros investigadores. Entre las posibles medidas a calcular, se desea obtener alguna que represente al conjunto de los datos en un sentido de promedio o centro. Así mismo, se desea una medida que nos informe del nivel de homogeneidad o parecido en el colesterol entre los individuos que han dado lugar a la base de datos.
Un problema adicional para esta variable deriva de la definición de normocolesterolemia (nivel de colesterol por debajo de cierta cifra, denotando normalidad) e hipercolesterolemia (nivel de colesterol por encima de cierta cifra, denotando un colesterol excesivamente elevado). Estas calificaciones dependen de que el nivel de colesterol de un individuo se encuentre por debajo o sea superior a una cifra predeterminada. Diversos estudios clínico- epidemiológicos han ido modificando a lo largo del tiempo su valor (240 mg/100ml, 220 mg/100ml o 200 mg/100ml como cifra más reciente). Los investigadores se plantean algunas cuestiones de interés: ¿cúal es el porcentaje de individuos que serían calificados como hipercolesterolémicos para cada uno de los posibles puntos de corte? ¿atendiendo a un criterio puramente empírico, cúal debería ser el punto de corte tal que fueran calificados como hipercolesterolémicos el 5% de los individuos? ¿Idem para el 10%?
Previamente, los investigadores habían inspeccionado la distribución de frecuencias de la variable colesterol, inspeccionando la forma de esta distribución para intervalos de amplitud 40 mg/100ml de colesterol., observándose una cierta tendencia a que los valores se desplacen con mayor frecuencia hacia la derecha (valores más elevados) que hacia la izquierda. ¿Es posible calcular alguna medida que capte esta situación?.
Las medidas calculadas sobre los datos disponibles recibirán una calificación diferente según los datos sean los de todos los individuos sobre los que se quiere caracterizar o extraer conclusiones, en cuyo caso diremos que hemos observado a toda la población, o únicamente los de una parte de estos individuos, en cuyo caso diremos que hemos observado una muestra. Desde el punto de vista estadístico es esencial diferenciar estas situaciones, pues condicionan decisivamente el nivel de aplicación de diferentes procedimientos. Así, mientras que si se ha observado a toda la población las técnicas de descripción estadística (distribuciones de frecuencias, gráficos, medidas resumen de información) aportarán toda la información deseada, en el caso de que la observación sea parcial, es decir una muestra, será necesario aplicar procedimientos estadísticos más complejos para extraer conclusiones sobre la población. Cuando las medidas para resumir la información de una o más variables sean calculadas sobre datos de una población recibirán el nombre de parámetros , mientras que si lo son sobre datos de una muestra recibirán el nombre de estadísticos. En la mayor parte de las ocasiones se dispone sólo de una muestra de observaciones, por lo que los parámetros poblacionales pueden resultar de interés pero serán desconocidos, mientras que sí serán calculables los estadísticos muestrales, siendo deseable la extracción de conclusiones sobre toda la población. Este proceso se conoce con el nombre de inferencia estadística , y aspectos tales como la estricta y clara definición de la población o el proceso de selección de los individuos que conforman la muestra, conocido como proceso de muestreo, son esenciales para su correcta aplicación. En capítulos sucesivos se profundizará sobre estos elementos.
263 239 230 241 180 235 167 263 163 218 197 224 191 233 166 137 304 222 212 188 206 248 188 244 195 185 176 266 214 225 250 303 211 180 184 227 263 366 195 305 268 311 302 232 160 210 181 154 206 299 262 156 298 236 307 206 199 256 228 261 226 188 158 187 235 251 209 231 237 200 211 173 237 260 167 202 337 314 188 159 305 216 185 225 259 251 271 237 235 250 188 306 313 244 164 227 159 217 209 355 219 164 211 244 344 268 226 310 223 233 229 301 206 228 180 232 254 137 214 200 242 167 251 169 316 258 302 133 163 218 326 334 203 206 172 252 161 182 195 173 162 256 145 193 269 160 156 301 214 232 169 268 322 290 241 203 289 259 244 247 266 314 294 193 250 193 137 160 156 299 198 188 290 257 219 220 278 245 209 263 172 245 226 190 254 336 239 196 247 204 146 164 347 212 234 187 209 151 174 226
Cuadro 1.6.- Datos de colesterol
presentación de la información
Las medidas de tendencia central tienen como objetivo describir, a través de un valor numérico, la localización de las observaciones. Son valores que representan, según diferentes criterios, la posición dónde se concentran los datos observados. La comparación de estas medidas, calculadas para una misma variable, entre diferentes conjuntos de datos puede indicarnos las diferencias en la posición de los valores entre los conjuntos considerados. Presentamos a continuación las medidas más usuales.
Media
La media, o media aritmética para diferenciarla de otras posibles medias, es la medida de tendencia central más utilizada.. Diremos que dada una variable genérica X, y un conjunto de n observaciones de esta variable {x 1 , x 2 , x 3 ,...,xn}, la media es la suma de todas las observaciones dividida por su número:
n
x Media x
n
i 1
Si calculamos la media de la variable colesterol, sobre los datos que se presentan en el cuadro 1.6, obtendremos:
=227,38mg/100ml 200
x=
Para un determinado conjunto de datos, la media es única, interviniendo en su cálculo todos y cada uno de los valores de la variable. Este hecho confiere a la media el ser más informativa que otras medidas de tendencia central, y el verse afectada por valores extremos de los datos, que pueden incrementar o disminuir su valor de forma notable, convirtiéndola en poco representativa del centro de la estructura de los datos. Esto sucederá en mayor o menor medida cuando los datos presenten estructuras no simétricas. Para resolver este último caso pueden calcularse medias ajustadas de orden p (0<p<100), utilizando el p% central de las observaciones (una vez ordenadas de menor a mayor).
Mediana
La mediana de un conjunto de n observaciones de una variable es aquel valor tal que la cantidad de datos inferiores a él es igual a la cantidad de datos superiores. Es una medida que busca el centro de la estructura de los datos bajo la idea de distribuir las observaciones en dos conjuntos de igual número. Para entender el concepto y proceder a su cálculo es necesario partir de que el conjunto de observaciones de la variable es ordenado (generalmente de menor a mayor), de esta forma la mediana puede ser definida como:
Mediana = Md = Valor de la observación que ocupa la posición o rango
n+ 1 rMd=
En caso de que rMd no sea entero, Md se calcula como la semisuma de los valores anterior y posterior. Para ejemplificar su cálculo, considérese la secuencia de observaciones de la variable tiempo de estancia en un centro hospitalario, para 12 individuos, ordenados de menor a mayor (ver cuadro 1.7).
La mediana será el valor que ocupe la posición
Cuadro 1.7.- Días de estancia de 12 individuos
presentación de la información
Las medidas de tendencia central informan acerca de la localización de los valores de las observaciones de una variable. Sin embargo, esta información es insuficiente para comprender el comportamiento de la variable. Situaciones claramente diferenciadas pueden dar lugar a medidas de tendencia central iguales, por lo que éstas sólo pueden ser utilizadas parcialmente como resumen de la información. Se denominan medidas de dispersión aquellas que pretenden captar y resumir la mayor o menor variabilidad, la mayor o menor concentración, homogeneidad o parecido entre las observaciones de la variable. Se presenta a continuación las medidas de dispersión más frecuentes. Como en las medidas de tendencia central, se partirá de una variable genérica, X, y de un conjunto de n observaciones {x 1 , x 2 , x 3 , x 4 ,...,xn}.
Rango o recorrido
Se define como la diferencia entre el mayor y el menor valor de la variable:
Rango = R = xmax - xmin
Los valores máximo y mínimo de la variable colesterol, referida en el cuadro 1.6, son 133 y 366 mg/100ml respectivamente. Con ello, el rango para esta variable sobre las 200 observaciones es
R = 366 – 133 = 233 mg/100ml
es decir, todas las observaciones se encuentran en este recorrido. El rango es una medida de cálculo sencillo y rápido, puesto que depende sólo del mayor y menor valor de la variable. Pero debido a ello es escasamente informativa de lo que sucede con el resto de observaciones, afectándose por la existencia de observaciones extremas.
Varianza y desviación típica o estándar
Es la medida de variabilidad más utilizada. La idea para su construcción surge de cuantificar las distancias, y por consiguiente la variabilidad, entre los valores de la variable a través de su diferencia respecto de una medida central como es la media:
Varianza = n
(x-x)
s =
i
2
n
2 i=^1
Debido a que las unidades de la varianza son las de la variable pero cuadráticas, se define la desviación típica o estándar como la raíz cuadrada positiva de la varianza:
Desviación típica o estándar = n
(x-x) s=
i
2
n
i= 1
Sobre los datos del cuadro 1.7, para los que la media en días de estancia es de 18,1 días, la varianza y desviación típica serían:
presentación de la información
2
2 2 2 2 (^2) =995,4días 12
s=
s = s^2 = 995,4=31,6días
Tanto la varianza como la desviación típica deben ser mayores o iguales a 0. El valor 0 sólo se alcanzará en aquellos casos en que los datos alcancen el mismo valor. Representan una cuantificación absoluta de la variabilidad o dispersión de los datos, es decir, dependiente de su localización (media) y sus unidades de medida. Esto hace que sus valores para diferentes variables o conjuntos de datos no sean comparables. Las expresiones expuestas para la varianza y la desviación típica se refieren al conjunto de datos interpretado como una población. Representan las medidas descriptivas resumen de la variabilidad de ese conjunto de datos. Cuando éste es contemplado como una muestra de una determinada población, y el objetivo a través de la varianza y la desviación típica es calcular un valor que resuma la variabilidad, pretendiendo aproximarse al verdadero valor poblacional, deben ser utilizadas las expresiones para la varianza y desviación típica:
Varianza = n- 1
(x-x) s =
i
2
n
i= 1 c
2
; Desviación típica = s (^) c= s^2 c
que resultan ser los estimadores de los respectivos parámetros poblacionales. Cuando n es grande, la diferencia es mínima entre las expresiones expuestas, pero si n es pequeño, puede haber una diferencia notable. Hay que tener en cuenta que algunos paquetes estadísticos para ordenador o calculadoras científicas realizan los cálculos con ambas expresiones o a veces con sólo una de ellas.
Coeficiente de variación
La varianza y desviación típica representan medidas absolutas de la dispersión de un conjunto de observaciones de una variable. Su interpretación depende de la unidad de medida de la variable así como de su localización. Esto hace que las desviaciones típicas o varianzas de variables distintas sobre un mismo conjunto de datos o de la misma variable sobre conjuntos de datos diferentes no sean comparables, no pudiendo afirmar en que caso hay mayor o menor variabilidad. Para resolver este problema se puede recurrir al siguiente coeficiente:
Coeficiente de Variación = (x100) x
s CV=
que, al dividir desviación típica por la media elimina las unidades de medida y el efecto de la localización de la variable, resultando así una medida relativa de la variabilidad de los datos. Suele ser expresado en porcentaje, pudiendo alcanzar valores entre 0 e . Sobre los datos del cuadro 1.7, para los que la media y desviación típica resultaban ser de 18,1 y 31,6 días, respectivamente, el coeficiente de variación será:
El resultado refleja la alta variabilidad de los datos, producida, fundamentalmente por la observación con valor 121 días.
presentación de la información
ciertos percentiles extremos (generalmente de orden 2,5, 5, 95, 97,5) para establecer puntos de corte que sitúan porcentajes de población que se encuentran en las zonas de valores más elevados o bajos de la variable (p. ej. peso, talla, ácido úrico, colesterol, etc.). Algunos percentiles reciben nombres específicos, como es el caso de los deciles (percentiles 10, 20, 30,...,90), cuartiles (percentiles 25, 50 y 75, dividen la distribución de las observaciones en cuatro regiones con igual porcentaje de casos), y, en general, quintiles (dividen en cinco regiones), sextiles , etc.
Las medidas de forma pretenden resumir una característica distinta de la localización y la dispersión de las observaciones de la variable.
Se trata de resumir si los datos presentan una distribución más o menos simétrica o con un menor o mayor apuntamiento. Para cuantificar el grado de asimetría puede calcularse el coeficiente de asimetría :
s
n
(x-x)
As = 3
i
3
n
i= 1
donde s es la desviación típica de la variable.
La interpretación del coeficiente es como sigue:
As = 0 Simetría (Figura 1.15) As > 0 Asimetría positiva (Figura 1.16) As < 0 Asimetría negativa (Figura 1.17)
Otra característica de la forma de la distribución de la variable es su mayor o menor apuntamiento (ver figura 1.18). La cuantificación del grado de apuntamiento puede realizarse a través del coeficiente de curtosis :
s
n
(x-x)
Cu = 4
i
4
n
i= 1
30
20
10
0
30
20
10
0
30
20
10
0
Figura 1.15.- Distribución simétrica
Figura 1.16.- Distribución asimétrica positiva
Figura 1.17.- Distribución asimétrica negativa
Figura 1.18.- Dos casos de apuntamiento
presentación de la información
donde s es la desviación típica de la variable. La interpretación del coeficiente de curtosis es ligeramente diferente a la del coeficiente de asimetría, puesto que no existe una situación equivalente a la simétrica, pudiendo hablar de mayor o menor curtosis únicamente. No obstante, es frecuente comparar el valor de Cu con la curtosis de la curva de probabilidad normal (se definirá más adelante), cuyo valor es 3, hablando entonces de:
Cu = 3 è Distribución mesocúrtica (apuntamiento semejante al del modelo normal) Cu > 3 è Distribución leptocúrtica (más apuntada que la curva normal) Cu < 3 è Distribución platicúrtica (menos apuntada que la curva normal)
Las medidas de forma son utilizadas con frecuencia para tener un resumen descriptivo de la mayor o menor normalidad (como modelo de probabilidad) de la variable, puesto que los valores para una variable que siga este modelo son As= 0 ,Cu= 3
Las definiciones y cálculos para las diferentes medidas resumen han sido expuestos sobre las observaciones individuales {x 1 , x 2 , x 3 ,...,xn} de una variable. Estas son las definiciones y cálculos exactos. Cuando los datos disponibles están tabulados en forma de tabla de distribución de frecuencias, las expresiones de cálculo de algunas de las medidas deben ser adaptadas a esta situación. En el cuadro 1.8 se presenta las fórmulas adecuadas. El cálculo será solo aproximado si la tabulación es en forma de intervalos. En ese caso xmi es el punto medio del intervalo i. En otro caso, las fórmulas son adecuadas, y xmi representará el valor i-ésimo de la variable. En el cálculo de la mediana o percentiles de orden q, xi representa el límite inferior del intervalo al que debe pertenecer la mediana o el percentil de que se trate, una vez inspeccionadas las frecuencias acumuladas de la variable y considerado que la mediana y el percentil q dejarán n/2 y qn/100 observaciones a su izquierda, respectivamente. De la misma manera, ai representa la amplitud de ese intervalo.
Medidas de tendencia central Medidas de dispersión Medidas de forma
n
xmf
x
i
k
i 1
a F F
+ n/2-F Md (^) x i i i 1
i- 1 i (^)
quefesmáxima
Interv aloparael
Mo=Interv alomodal=
i
R xmmax-xmmin
n
(xm-x) f s
i^ i
2
k
2 i=^1
s s^2 (x100) x
s CV
a F-F
qn
P x+ i i i- 1
i- 1 q i
s
n
(xm-x) f
As (^3)
i i
3
k
i= 1
s
n
(xm-x) f
Cu (^4)
i i
4
k
i= 1
Cuadro 1.8.- Cálculo de estadísticos descriptivos para datos agrupados