Distribucion Normal ejercicios | Apuntes de Matemáticas

Investigación: La distribución normal 1/12

www.fisterra.com Atención Primaria en la Red

La distribución normal

Pértegas Díaz S., Pita Fernández S.

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña.

Cad Aten Primaria 2001; 8: 268-274.

Actualización 10/12/2001.

__________________________________

1. Introducción

Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de

errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de

los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas

variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los

datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes

isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide

el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un

rectángulo con área proporcional al número de datos en ese rango1. Uniendo los puntos medios del

extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran

cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los

rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una

apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asintótica"

representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función

de densidad.

Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la

práctica es la distribución normal, también llamada distribución gaussiana2, 3, 4, 5. Su importancia se

debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y

cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),

o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se

asume que siguen una distribución normal. No obstante, y aunque algunos autores6, 7 han señalado que el

comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una

distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo

de comportamiento.

El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por

otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad

de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de

la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de

datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La

simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen

otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un

modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando

los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no

exijan este tipo de restricciones (los llamados métodos no paramétricos).

A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más

relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección

3 se describirán los métodos habituales para contrastar la hipótesis de normalidad.

2. La Distribución Normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).

Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la

ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de

Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su

media y su desviación estándar, denotadas generalmente por y . Con esta notación, la densidad de

la normal viene dada por la ecuación:

Vista previa parcial del texto

¡Descarga Distribucion Normal ejercicios y más Apuntes en PDF de Matemáticas solo en Docsity!

Pértegas Díaz S., Pita Fernández S. Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña.Cad Aten Primaria 2001; 8: 268-274.Actualización 10/12/2001.__________________________________ 1. Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección deerrores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, delos datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estasvariables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, losdatos de la Figura 1a, que muestra unisquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divideel rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo unrectángulo con área proporcional al número de datos en ese rangoextremo superior de las barras, se obtiene el llamadocantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de losrectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría unaapariencia cada vez más suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asintótica"representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada funciónde densidad.Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en lapráctica es ladebe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales ycotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente seasume que siguen una distribución normal. No obstante, y aunque algunos autorescomportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una Introducción distribución normal , también llamada histograma^ La distribución normal de la tensión arterial sistólica de una serie de pacientes polígono de frecuenciasdistribución gaussiana 1. Uniendo los puntos medios del2, 3, 4, 5. Si se observase una gran6, 7. Su importancia se han señalado que el

distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipode comportamiento.El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, porotras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidadde los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones dela normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente dedatos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. Lasimple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existenotras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de unmodo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuandolos datos no sean normales, podremos o bien transformarlosexijan este tipo de restricciones (los llamados métodos no paramétricos).A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades másrelevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección3 se describirán los métodos habituales para contrastar la hipótesis de normalidad. 2. La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló laecuación de la curva; de ahí que también se la conozca, más comúnmente, como la Gauss" media y su desviación estándar, denotadas generalmente porla normal viene dada por la ecuación: La Distribución Normal. La distribución de una variable normal está completamente determinada por dos parámetros, su 8 o emplear otros métodos estadísticos que noy. Con esta notación, la densidad de "campana de

que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que unacaracterísticaAl igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número dedatos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontalse levantan perpendiculares en dos puntosprobabilidad de que la variable de interés,curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamentehacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar undato cercano al valor medio que uno que se encuentre muy alejado de éste. Propiedades de la distribución normal: La distribución normal posee ciertas propiedades importantes que conviene destacar:IV.III.V.II.I. Tiene una única moda, que coincide con su media y su mediana.La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entreteóricamente posible. El área total bajo la curva es, por tanto, igual a 1.Es simétrica con respecto a su mediaprobabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un datomenor.La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a unadesviación típica (El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviacionesestándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un Ecuación 1: , si su función de densidad viene dada por la Ecuación 1.sigue una distribución normal de media ). Cuanto mayor sea Xa , tome un valor cualquiera en ese intervalo. Puesto que lay b. Según esto, para este tipo de variables existe una, el área bajo la curva delimitada por esas líneas indica la , más aplanada será la curva de la densidad. y varianza , y se denota como y es

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia dedistribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entretodas ellas, la más utilizada es lamedia 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1,resultando: Es importante conocer que, a partir de cualquier variableobtener otra característicaVI.^ valor comprendido en el intervaloLa forma de la campana de Gauss depende de los parámetrosla posición de la campana, de modo que para diferentes valores delargo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamientode la curva. Cuanto mayor sea el valor decurva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidadde obtener datos cercanos al valor medio de la distribución. Z con una distribución normal estándar, sin más que efectuar la transformación: distribución normal estándar Ecuación 2:^ , más se dispersarán los datos en torno a la media y la X que siga una distribución, que corresponde a una distribución de^. y^ (Figura 3). La media indicala gráfica es desplazada a lo , se puede

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg.,es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar quese obtendría la misma conclusión recurriendo a la propiedad (III) de la distribución normal.No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nosencontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teóricade la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída alazar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar losresultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que sedispone del peso de n=100 individuos de esa misma población, obteniéndose una media muestral deacerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones sebasa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dichoaxioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismasuna distribución normal con igual media que la de la población y desviación estándar la de la poblacióndividida porcon lo cual, a partir de la propiedad (III) se conoce que aproximadamente un 95% de los posibles valoresdePuesto que los valores de caerían dentro del intervalo Kg, y una desviación estándar muestral. En nuestro caso, podremos entonces considerar la media muestral , y. son desconocidos, podríamos pensar en aproximarlos por sus análogos Kg, querríamos extraer alguna conclusión

muestrales, resultando95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg. Aunquela teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construirun intervalo de confianza para la media de una población. 3. La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de losprocedimientos estadísticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simpleexploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas,podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica dedistribución normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a,correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso delpeso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramenteasimétrica y diferente de la gaussiana.Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetivaacerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos másrigurosos para contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el saber si losdatos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría,pues es ésta una de las características fundamentales de la distribución de Gauss. Aunque la simetría dela distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variableen cuestiónalgún índice que nos permita cuantificar cualquier desviación. Si se dispone de una muestra de tamaño Contrastes de Normalidad 8 de una característica(comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de X , se define el coeficiente de asimetría de Fisher. Estaremos, por lo tanto, un como: n ,

a partir del cual podemos considerar que una distribución es simétrica (izquierda (menos "aplastada", en relación con el grado de apuntamiento de una distribución gaussiana. El coeficiente de aplastamiento o curtosis de Fisher permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una normal,normal,Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de asimetría toma unvalor mayor para la distribución de la edad (En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de –0.320 para el peso y de –0.366para la edad.Losun conjunto de datos puede considerarse o no procedente de una distribución normal. La idea básicaconsiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricosque se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal,los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempretenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los gráficos Q-Q gráficos de probabilidad normal ), leptocúrtica (más apuntada que una normal, <0) o hacia la derecha ( se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles). >0). En segundo lugar, podemos preguntarnos si la curva es más oconstituyen otra importante herramienta gráfica para comprobar si , dado por: ) que para el peso observado () o platicúrtica (más aplanada que una =0), asimétrica hacia la gráficos P-P ).

de la distribución normal. Además de permitir valorar la desviación de la normalidad, los gráficos deprobabilidad permiten conocer la causa de esa desviación. Una curva en forma de "U" o con algunacurvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica conrespecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colasmayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas dela distribución.Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis quecuantifiquen de un modo más exacto las desviaciones de la distribución normal. Existen distintos testsestadísticos que podemos utilizar para este propósito. Elextendido en la práctica. Se basa en la idea de comparar la función de distribución acumulada de losdatos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas.Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera uncierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la mayoría de los paquetesestadísticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor deltest como el p-valor correspondiente, no nos detendremos más en explicar su cálculo. Existenmodificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados. Otroprocedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipode procedimientos deben ser utilizados con precaución. Cuando se dispone de un número suficiente dedatos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para test de Kolmogorov-Smirnov es el más

Figura 1.dos muestras de pacientes isquémicos ingresados en una unidad decuidados intensivos. Figura 1a.- Valores de tensión arterial sistólica en una muestra de Figura 1b.- Valores de tensión arterial sistólica de una muestra de Histograma de los valores de tensión arterial sistólica para1000 pacientes isquémicos ingresados en UCI.5000 pacientes ingresados en UCI.

Figura 2.bajo la curva. Gráfica de una distribución normal y significado del área

Figura 3. Ejemplos de distribuciones normales con diferentes parámetros.

Figura 4.valores de peso y edad en dos muestras de pacientes. Figura 4a.- Histogramas Histogramas y gráficos de probabilidad normal de los Figura 4b.- Gráficos Q-Q de probabilidad.

Distribucion Normal ejercicios, Apuntes de Matemáticas

Documentos relacionados

Vista previa parcial del texto

¡Descarga Distribucion Normal ejercicios y más Apuntes en PDF de Matemáticas solo en Docsity!