











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: analisis de datos, Profesor: jone datos, Carrera: Psicología, Universidad: UPV-EHU
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












LA DISTRIBUCIÓN NORMAL
Autores: Ángel A. Juan ([email protected]), Máximo Sedano ([email protected]), Alicia Vila
La distribución de probabilidad conocida como distribución normal es, por la cantidad de fenómenos que explica, la más importante de las distribuciones estadísticas.
A la distribución normal también se la denomina con el nombre de campana de Gauss, pues al representar su función de probabilidad, ésta tiene forma de campana. [1]
En el math-block sobre la distribución binomial se introduce el concepto de variable aleatoria, distinguiendo además dos tipos de variables, las discretas y las continuas. En este apartado seguimos con el estudio de distribuciones de probabilidad analizando la distribución de probabilidad continua más importante, la distribución normal.
A continuación veremos las características principales de una distribución de probabilidad normal, definiendo posteriormente la distribución normal estándar así como sus usos. Posteriormente, veremos cómo utilizar la distribución normal para estimar probabilidades binomiales.
Sería conveniente revisar el math-block “La distribución binomial” para tener asimilados los conceptos relacionados con las distribuciones de probabilidad y las definiciones de variables aleatorias continuas, así como entender el uso del Minitab en los distintos ejemplos que aparecen.
Una variable aleatoria continua es aquella que puede asumir un número infinito de valores dentro de un determinado rango.
Por ejemplo, el peso de una persona podría ser 80.5, 80.52, 80.525,... dependiendo de la precisión de la báscula.
La Normal es la distribución de probabilidad más importante. Multitud de variables aleatorias continuas siguen una distribución normal o aproximadamente normal. Una de sus características más importantes es que casi cualquier distribución de probabilidad, tanto discreta como continua, se puede aproximar por una normal bajo ciertas condiciones.
La distribución de probabilidad normal y la curva normal que la representa, tienen las siguientes características:
Como hemos comentado anteriormente, observar que:
+∞ −∞
a a
Veamos, a través de una sencilla aplicación, este concepto de cómo la distribución normal representa un área bajo la curva. Para ello, podemos consultar el siguiente enlace: http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html, donde veremos, cambiando (1) los valores de la media y la desviación estándar, y (2) los valores entre los cuales queremos calcular la probabilidad, a qué porción de espacio bajo la curva normal corresponde la probabilidad buscada.
Se observó que no existe una sola distribución de probabilidad normal, sino una “familia” de
Para resolver este problema, se utiliza un solo “miembro” de la familia de distribuciones normales, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como distribución estándar normal , de forma que todas las distribuciones normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo por la desviación estándar.
Primero, convertiremos la distribución real en una distribución normal estándar utilizando un valor llamado Z, o estadístico Z que será la distancia entre un valor seleccionado, designado
σ
estándar o tipificada.
De esta manera, un valor Z mide la distancia entre un valor especificado de X y la media aritmética, en las unidades de la desviación estándar. Al determinar el valor Z utilizando la expresión anterior, es posible encontrar el área de probabilidad bajo cualquier curva normal haciendo referencia a la distribución normal estándar en las tablas correspondientes.
Así pues, para averiguar el área anterior utilizaremos la tabla que encontraremos al final de este apartado. Dicha tabla nos proporciona la probabilidad de que la v.a. normal estándar Z tome un valor situado a la izquierda de un número c , i.e.: P(Z<c). En otras palabras, esta
Ejemplos:
a) P(Z<1,52) = {ver tabla} = 0, b) P(Z>1,52) = {área total = 1} = 1 – P(Z<1,52) = 0, c) P(0<Z<1,52) = P(Z<1,52) – P(Z<0) = {simetría} = 0,9357 – 0,5000 = 0, d) P(-2,1<Z<0) = P(Z<0) – P(Z<-2,1) = {sim+tabla} = 0,5000 – 0,0179 = 0,
Por otra parte, denotemos por z(α) aquel número real tal que P[Z>z(α)] = α
Por ejemplo:
a) z(0,25) = nº que deja un área de 0,25 a su derecha = {tabla} ≈ 0, ya que P(Z<0,67) = 0,7486 y P(Z<0,68) = 0,.
b) Si queremos calcular un nº real c tal que P(-c<Z<c) = 0,95 , nos interesa hallar z(0,025) {ver gráfico inferior}. Según la tabla, c = z(0,025) = 1,96 ya que P(Z<1,96) = 0,975 y P(Z<-1,96) = 0,025 :
0
0,
0,
0,
0,
0,
Valores de la v.a. Z
Función de densidad (f.d.p.)
Normal(0,1)
c
Los applets que aparecen a continuación permiten identificar los respectivos porcentajes del área bajo la curva:
mejor cuanto mayor sea n.
Hay que tener en cuenta que, antes de aplicar la distribución normal, es necesario asegurarse de que la distribución que queremos aproximar es, efectivamente, binomial.
Para ello, hay que comprobar:
Factor de corrección de continuidad
En el caso de una v.a. discreta, tiene sentido preguntarse por la probabilidad de que ésta tome un determinado valor. Sin embargo, si consideramos que la v.a. X es continua, entonces
por continuidad que veremos a continuación, es decir, en el caso anterior calcularemos P(a- 0,5<X<a+0,5).
Dicho valor 0,5 se suma o se resta, dependiendo de los requerimientos, a un valor seleccionado cuando una distribución de probabilidad discreta se aproxima por medio de una distribución continua.
Los posibles casos son:
Si consultamos en: http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html , veremos mediante un applet muy sencillo la aproximación de una normal a una distribución binomial. Clicaremos en el botón Begin , que aparece a la parte superior izquierda de la pantalla, y cambiaremos el valor de N y p, así como los valores del intervalo.
Para mostrar la aplicación de la aproximación normal a la binomial y la necesidad de un factor de corrección, veamos el siguiente ejemplo resuelto con Minitab:
Ejemplo:
Para muchas combinaciones de n y p es posible aproximar bastante bien una distribución binomial B(n,p) mediante una distribución normal de media μ = np y varianza σ^2 = np(1-p). Generalmente, esta aproximación tiende a ser tanto mejor cuanto mayor es el número de pruebas n.
Introducimos en la columna C1 de una hoja de trabajo los números 0, 1, 2, ..., 16. En la columna C2 calcular P(X = 0), P(X = 1), ..., P(X = 16), siendo X una binomial de parámetros n = 16 y p = 0,5.
Seleccionamos: Calc > Make Patterned Data > Simple Set of Numbers :
Ahora introducimos en la columna C3 el valor de la función de densidad de probabilidad (f.d.p.) asociada a los valores de la C1 para una distribución normal que aproxime a la binomial anterior.
Observar que: μ = np = 8 y σ2 = np*(1-p) = 4
Hacemos: Calc > Probability Distributions > Normal :
Dibujamos ahora, un diagrama de barras con los datos de las columnas C1 (en eje x) y C2 (en eje y). Superpuesto a él, dibujamos la función de densidad que se obtiene a partir de las columnas C1 (en eje x) y C3 (en eje y).
A fin de superponer ambos gráficos, elegimos la opción: Graph > Layout :
Seleccionamos: Graph > Chart :
Finalmente hacemos: Graph > Plot :
Para representar los gráficos superpuestos basta con hacer: Graph > End Layout :
A partir del gráfico anterior, observamos que podemos aproximar la probabilidad de que una variable binomial tome un determinado valor mediante la f.d.p. de una distribución normal. Así, por ejemplo, podemos estimar P(X = 7) (área en azul) por P(6,5 < X < 7,5) área comprendida entre la curva roja y ambos puntos). En el primer caso estamos considerando que la variable X es binomial, mientras que en el segundo consideramos que dicha variable es normal (y por tanto hacemos uso de la aproximación por continuidad, puesto que para cualquier variable continua la probabilidad puntual es cero).
0 1 2 3 4 5 6 7 8 910111213141516
0,
C
0 5 10 15
0,
0,
0,
C
C2 y C
(^) fdp norm al
binom ial
Aproxim ación norm al a una binom ial
Obtenemos,
Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean C1 50 61.92 63.00 61.84 10.28 1.
Variable Minimum Maximum Q1 Q C1 39.00 96.00 56.00 68.
Por tanto, de este gráfico podemos observar que efectivamente el histograma muestra aproximadamente una curva simétrica semejante a la correspondiente a una distribución normal.
Además, si analizamos los parámetros estadísticos vemos que la media y la mediana toman valores bastante cercanos, lo cual propicia también que la distribución se aproxime a una normal.
Realizamos ahora el gráfico de normalidad. Seleccionamos Stat > Basic Statistics > Normality Test:
Como vemos, la mayoría de los puntos se encuentran sobre la línea roja, lo cual indica que estos datos se pueden aproximar por una distribución normal.
b) Teniendo en cuenta la media y la desviación típica obtenida en el apartado anterior, simular con Minitab, los posibles resultados de los ingresos producidos en los mismos 50 cajeros durante el siguiente mes y comprobar mediante un gráfico de normalidad que, efectivamente, estos datos siguen una distribución normal.
Seleccionamos Calc > Random Data > Normal (guardad los datos en la columna C2):
Observar que obtendremos 50 datos que seguirán una distribución normal con media 62,92 y desviación típica 10,28, pero que serán diferentes a los datos del esta resolución y diferentes a los que cada uno de vosotros obtengáis.
a) Supongamos que la fábrica ya tiene los patrones hechos, y recomienda la talla L hasta 160 cm., talla XL hasta 180 cm. y talla XXL para alturas superiores. Bajo estas condiciones, ¿qué proporción de camisetas de cada tipo es razonable que se fabriquen?
Escribimos en la primera columna los números 160 y 180, y seleccionamos Calc > Probability Distributions > Normal , activando la opción Cumulative Probability y rellenando con la información de que disponemos:
Cumulative Distribution Function
Normal with mean = 164.500 and standard deviation = 9.
x P( X <= x) 160.0000 0. 180.0000 0.
Por tanto,
p( talla L ) = p[X < 1,60] = 0,312, es decir, el 31,2% p( talla XL ) = p[1,60 < X < 1,80] = p[X < 1,80] – p[X < 1,60] = 64,2% p( talla XXL ) = p[X > 1,80] = 1 – p[X < 1,80] = 4,6%
b) Supongamos ahora, que por razones de mercado, la empresa cree conveniente fabricar el 10% de camisetas de la talla L, el 65% de la talla XL y el 25% restante de la talla XXL. ¿Cuáles serán los límites de alturas con que se tendría que diseñar cada talla?
En este apartado, como sabemos el valor de las probabilidades, lo que pretendemos calcular son los valores de la distribución. Para ello, tendremos que utilizar la opción de la Probabilidad inversa acumulada.
Es decir, queremos saber t, tal que P(X<t)=0.
De igual manera, buscamos c, tal que P(X<c)=0.75 (0.1+0.65) Introducimos, en la columna C2, dichos valores (0.1, 0.75)
Seleccionamos Calc > Probability Distributions > Normal , y activamos Inverse Cumulative Probability , con C2 como Input Column :
Inverse Cumulative Distribution Function
Normal with mean = 164.500 and standard deviation = 9.
P( X <= x) x 0.1000 152. 0.7500 170.
Los valores de X obtenidos son las alturas en cm., que delimitarán las tallas porque son los valores que verifican las expresiones anteriores , es decir:
P(X<152.71) = 0. P(X<170.71) = 0.
[1] Moya Anegón, F.; López Gijón, J.; García Caro, C. (1996): “Técnicas cuantitativas aplicadas a la biblioteconomia y documentación”. Ed. Síntesis.
[2] Lind, D.; Mason, R.; Marchal, W. (2001): “Estadística para Administración y Economía”. Ed. Irwin McGraw-Hill.
[3] Johnson, R. (1996): “Elementary Statistics”. Ed. Duxbury.
[4] Farber, E. (1995): “A Guide to Minitab”. Ed. McGraw-Hill.
http://www.unalmed.edu.co/~estadist/NORMAL/Distribucion_Normal.htm Características básicas de una distribución normal.
http://es.geocities.com/riotorto/norm/norm.htm Página correspondiente a procesamientos estadísticos de datos biomédicos.
http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html Teoría y applets, relacionados con la aproximación de una normal a una binomial.
http://www.udc.es/dep/mate/recursos.html Selección de recursos en Internet para la enseñanza-aprendizaje de la Estadística.
http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html Applets relacionados con la representación de una distribución normal.