








Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Conceptos básicos sobre las variables aleatorias discretas y continuas, incluyendo la definición de una variable aleatoria, la función de masa de probabilidad y la distribución de bernoulli, binomial y poisson. Se tratan las propiedades de la media y varianza, como la esperanza matemática, las reglas de transformación de la esperanza y la relación entre la varianza y la desviación típica. Además, se introduce la distribución normal y se explica cómo calcular probabilidades utilizando tablas de distribución normal.
Tipo: Apuntes
1 / 14
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









Estadística y metodología de la investigación Curso 2016- Pedro Faraldo, Beatriz Pateiro
1 Introducción 1
2 Variables aleatorias 1 2.1 Variable aleatoria discreta........................................ 2 2.2 Medidas características.......................................... 2 2.3 Distribución Binomial.......................................... 3 2.4 Distribución de Poisson......................................... 5 2.5 Variable aleatoria continua........................................ 5 2.6 Medidas características.......................................... 6 2.7 Distribución Normal........................................... 6
3 Introducción a la inferencia estadística 10 3.1 Tipos de muestreo............................................ 11
4 Teorema Central del Límite 11
5 Aproximaciones entre distribuciones 12
Uno de los objetivos claves de la estadística es inferir o extraer conclusiones con respecto a la población basándose en la información contenida en una muestra. Para poder estudiar las características de la población es necesario dotar a la variable de interés de un modelo probabilístico de distribución que nos permita explicar su comportamiento aleatorio.
Ejemplo 1: En una ciudad de la costa gallega, los jóvenes de entre 14 y 23 años se reúnen cada noche de sábado para organizar un botellón. La ingesta de alcohol hace que un 40% de ellos sufran una intoxicación etílica leve. Además, hay 5 de cada mil que sufren una intoxicación etílica grave (coma etílico), ya que superan los 3 g/l en sangre. A mayores de los problemas ocasionados por la intoxicación etílica, otra de las graves consecuencias son los accidentes de tráfico. La Dirección General de Tráfico estipula como tasa máxima de alochol 0.5 g/l en sangre (equiv. 0.25 mg/l en aire expirado).
En este tema se introducen algunos resultados básicos sobre variables aleatorias y se describen dos de las familias de distribuciones discretas y continuas más relevantes: la distribución Binomial, la distribución de Poisson y la distribución Normal. Es común que los resultados posibles (espacio muestral Ω) de un experimento aleatorio no sean valores numéricos. Para el cálculo de probabilidades asociadas con un experimento resulta más sencillo utilizar valores numéricos en lugar de trabajar directamente con los elementos de un espacio muestral. De este
modo, el concepto de variable aleatoria surge ante la necesidad de representar numéricamente los resultados de un determinado experimento aleatorio. De manera simplificada, podríamos decir que una variable aleatoria es una correspondencia que asocia a cada elemento del espacio muestral de un experimento un número. Dependiendo de las posibles asignaciones numéricas a la variable, distinguiremos entre variables aleatorias discretas y continuas.
Si X es una variable aleatoria (v.a.) sobre un espacio muestral Ω, y sólo toma valores en un conjunto finito (o infinito numerable) entonces diremos que X es una variable aleatoria discreta. Si x 1 ; : : : ; xn son los posibles valores que toma una v.a. discreta, al conjunto de probabilidades p 1 ; : : : ; pn tales que:
P( X = xi ) = pi; i = 1 ; : : : ; n con
∑^ n
i =
pi = 1
se le denomina función de masa de probabilidad. El comportamiento de una variable aleatoria también se puede describir a través de la función de distribución. La función de distribución de una v.a. X es una función que a cada valor real x le asocia la probabilidad de que la variable tome valores menores o iguales a dicho número:
F ( x ) = P( X ≤ x ) :
Es decir, la función de distribución de una v.a. X en un punto x nos da la probabilidad acumulada hasta este valor. Esta función toma valores entre 0 y 1, y es no decreciente.
Sea X una v.a. discreta, con valores x 1 ; : : : ; xn y masa de probabilidad p 1 ; : : : ; pn. Podemos obtener las siguientes medidas características:
∑^ n
i =
xipi:
Propiedades de la media:
(a) E( aX + b ) = a E( X ) + b , a; b ∈ R. (b) E( X + Y ) = E( X ) + E( Y ). (c) Si g es una función: E( g ( X )) = g (E( X )) =
∑ n i =1 g ( xi ) pi. (d) E( X Y ) = E( X )E( Y ), si X , Y son independientes ( Para la definición de independencia de variables, véase Crujeiras y Faraldo (2010) ).
σ^2 = Var( X ) = E[( X − E( X ))^2 ] y σ = +
Propiedades de la varianza:
(a) Var( aX + b ) = a^2 Var( X ). (b) Var( X ) = E( X^2 ) − E^2 ( X ) = E( X^2 ) − μ^2. (c) Var( X + Y ) = Var( X ) + Var( Y ), si X e Y son independientes.
0 2 4 6 8
Masa de probabilidad
x
0 2 4 6 8
0.^
0.^
Distribución
x
Figure 1: Masa de probabilidad y función de distribución de una Bi(8 ; 0 : 4).
∑ n i =1 Xi , donde^ Xi^ ∼^ Ber( p ).
Volviendo al ejemplo sobre un grupo de 6 amigos del ejemplo, calcula:
a) La probabilidad de que 3 sufran intoxicación etílica leve.
b) La probabilidad de que al menos 2 sufran intoxicación etílica leve.
c) Número esperado de amigos que sufrirán intoxicación etílica leve.
En este caso, encontrar a alguien que sufra intoxicación etílica leve es lo que hemos denominado éxito. Por tanto, p = 0 : 4 (el 40% sufren intoxicación etílica leve). Si definimos la variable:
X = { no^ de amigos, en el grupo de 6, que sufren intoxicación etílica leve }
esta sigue una distribución X ∼ Bi(6 ; 0 : 4). Por tanto, para resolver el apartado a) tendríamos que calcular:
En el apartado b), necesitamos calcular P( X ≥ 2), que se podría hacer como la suma de P( X = 2), P( X = 3), : : : hasta P( X = 6), o bien:
P( X ≥ 2) = 1 − P( X < 2) = 1 − [P( X = 0) + P( X = 1)] = 1 − 0 : 23 = 0 : 77 :
Finalmente, el número esperado de amigos que sufrirán intoxicación etílica leve será al media de la variable X :
E( X ) = n · p = 6 · 0 : 4 = 2 : 4 :
Observa que, aunque la variable sea discreta con Sop ( X ) = { 0 ; 1 ; : : : ; 6 } , la esperanza no tiene porqué ser un valor del soporte, pero debe estar entre el máximo y el mínimo de los posibles valores.
Un proceso de Poisson es un experimento aleatorio que consiste en observar la aparición de sucesos en un soporte continuo, por ejemplo, en el tiempo. Este proceso ha de ser estable: es decir, el número medio de sucesos por unidad de tiempo ( λ ) se mantiene constante. Además, los sucesos han de ser independientes. Si consideramos la variable: X = no^ de sucesos en un intervalo ⇒ X ∼ Pois ( λ ) :
Esta variable toma valores { 0 ; 1 ; 2 ; : : :}. La masa de probabilidad es:
P( X = x ) =
e−λλx x! :
La media y la varianza de una v.a. de Poisson son:
E( X ) = Var( X ) = λ:
Siguiendo con el ejemplo, en los servicios de urgencias del hospital más cercano se registra una llegada media de 2 personas cada 10 minutos, por intoxicación etílica. Calcula:
a) El número esperado de personas que llegarán en los próximos 20 minutos.
b) Probabilidad de que en los próximos 20 minutos lleguen 5 personas.
c) Probabilidad de que en los próximos 20 minutos lleguen, al menos, 3 personas.
Si definimos la variable:
X = { no^ de personas que llegan, por intoxicación etílica, cada 20 minutos }
esta variable tendrá una distribución X ∼ Pois (4) (si en 10 minutos se registra una llegada media de 2 personas, en 20 minutos se tendrá una media de 4 personas). Por tanto, el número esperado E( X ) = 4. Para resolver el apartado b), debemos calcular:
P( X = 5) = e
Finalmente, se pide P( X ≥ 3). Para resolver esto, debemos tener en cuenta que:
P( X ≥ 3) = 1 − P( X < 3) = 1 − P( X ≤ 2) = 1 − [P( X = 0) + P( X = 1) + P( X = 2)] = 0 : 762 :
Una v.a. continua es aquella que toma valores en un intervalo (o varios intervalos) de la recta real. La función de distribución de una v.a. continua se define de igual manera a la de una v.a. discreta, es decir, la función de distribución de una v.a. X es una función que a cada valor real x le asocia la probabilidad de que la variable tome valores menores o iguales a dicho número, al igual que para variables discretas F ( x ) = P( X ≤ x ). Como
Si tenemos μ = 0 y σ^2 = 1, entonces X ∼ N (0 ; 1) y su densidad será:
f ( x ) =
2 π
e−^
x 22 :
−6 −4 −2 0 2 4 6
Densidad Normal
−6 −4 −2 0 2 4 6
Distribución Normal
Figure 2: Densidad y distribución Normal. Negro: N (0 ; 1). Verde: N ( − 2 ; 1). Azul: N (0 ; 4).
Como podemos ver en la Figura 2, el cambiar los valores de los parámetros de localización (media) y escala (desviación típica), tiene distinto efecto sobre la forma de la densidad y por tanto, de la distribución.
Tomando como referencia la Normal estándar ( N (0 ; 1), distribución Normal con media μ = 0 y varianza σ^2 = 1), si cambiamos la media, lo que hacemos es trasladar la gráfica, hacia la derecha si la media es positiva, y hacia la izquierda si es negativa. Cuando modificamos la varianza, si la aumentamos lo que estamos haciendo es incrementar la dispersión, con lo que la curva se achata , incrementando la probabilidad de los valores más altos y más bajos con respecto al modelo estándar. Si la reducimos, lo que veríamos es que se concentra más alrededor de la media. Al incremetar la varianza, la densidad se vuelve mesocúrtica (curtosis negativa), mientras que al disminuir la varianza, lo que se obtiene es una curva leptocúrtica (curtosis positiva). La densidad de una N (0 ; 1) tiene curtosis nula (platocúrtica).
La función de distribución de la Normal estándar, que denotaremos por Φ( z ), está tabulada. En la distribución N (0 ; 1) será de utilidad que identifiquemos en qué intervalos se encuentran el 90%, 95% y 99% de los valores. En la Figura 3 se muestran los tres intervalos más usuales para los posibles valores de una N (0 ; 1). Estos intervalos serán de utilidad tanto en la estimación por intervalos de confianza como para los contrastes de hipótesis.
Cuando la distribución de la variable es Normal, pero no estándar, para poder calcular probabilidades a partir de las tablas necesitamos tipificar. Es decir, si X ∼ N ( μ; σ^2 ), la transformada:
X − μ σ
0.^ 0.^ 0.^ 0.^
−1.64 1.
0.^ 0.^ 0.^ 0.^
−1.96 1.
0.^ 0.^ 0.^ 0.^
−2.58 2.
Figure 3: Intervalos en una N (0 ; 1). El 90% de los valores están en ( − 1 : 64 ; 1 : 64). El 95% de los valores están en ( − 1 : 96 ; 1 : 96). El 99% de los valores están en ( − 2 : 58 ; 2 : 58).
Veíamos en el ejemplo que al cabo de tres horas, la concentración media de alcohol en sangre de los jóvenes es de 0.45 g/l , con una desviación típica de 0.4 g/l. Si esta concentración se distribuye según una Normal, calcula:
a) La probabilidad de que un individuo elegido al azar no supere los 0.6 g/l.
b) La probabilidad de que un individuo que tiene más de 0.2 g/l pueda conducir.
Si denotamos por X = { concentración de alcohol en sangre, al cabo de 3 horas } , esta variable tiene una dis- tribución X ∼ N ( μ = 0 : 45 ; σ^2 = 0 : 4 · 0 : 4 = 0 : 16). Para calcular estas probabilidades, tendremos que tipificar:
X − μ σ
Para el segundo apartado, debemos tener en cuenta que un individuo puede conducir si su tasa de alcohol es menor de 0 : 5 g/l. Por tanto, calcularemos:
Ten en cuenta que, dado que la Normal es continua, la probabilidad puntual es nula, y podemos utilizar < o ≤ ( > o ≥ ) indistintamente.
En algunos casos lo que nos interesa no es calcular la probabilidad de unos ciertos valores sino, dada una
El cuantil 0.2 de una N (0 ; 1) es: q (0 : 2) = − 0 : 84. Por tanto:
x 0 − 0 : 45 0 : 4
= − 0 : 84 ⇔ x 0 = 0 : 45 − 0 : 84 · 0 : 4 = 0 : 114 g/l:
Por tanto, el 20% de los individuos tienen una tasa de alcohol en sangre inferior a 0.114 g/l. Para el segundo apartado, procederíamos de forma similar, pero teniendo en cuenta:
P( X ≥ x 0 ) = 0 : 15 ⇔ P( X ≤ x 0 ) = 0 : 85 :
En algunos casos, tendremos que utilizar ambas la distribución Normal y la Binomial para poder responder a las cuestiones que se nos planteen. Veamos cómo se resolvería el siguiente ejemplo:
Con los datos obtenidos anteriormente, para un grupo de 6 amigos mayores de 18 años, calcula la probabilidad de que sólo uno pueda conducir.
Si consideramos X = { no^ de amigos, en el grupo de 6, que pueden conducir }; esta variable tendrá una distribu- ción X ∼ Bi(6 ; p ), donde p es la probabilidad de que un individuo pueda conducir, o equivalentemente, que tenga una tasa de alcohol en sangre inferior a 5 g/l. ¿Cómo calculamos p?
Consideramos Y = { tasa de alcohol en sangre } , con distribución Y ∼ N (0 : 45 ; 0 : 16). Entonces,
p = P( Y ≤ 0 : 5) = P
Así, X ∼ Bi(6 ; 0 : 55), y la probabilidad de que sólo uno pueda conducir se tendría como:
3 Introducción a la inferencia estadística
Una vez introducidos los modelos de probabilidad que describen el comportamiento de las poblaciones de interés, veremos algunos de los conceptos básicos de la inferencia estadística, que tiene como objetivo extraer conclusiones sobre la población basándose en la información contenida en una muestra. Entre los problemas que se pretenden resolver con la inferencia estadística se distinguen dos tipos: la estimación, tanto puntual como por intervalos y los contrastes de hipótesis, que se abordarán en los siguientes temas.
- Población: conjunto homogéneo de individuos sobre los que se estudian características observables con el objetivo de extraer alguna conclusión. - Parámetro: característica de la población, por ejemplo, la media, la varianza,... - Estadístico: cualquier función de la muestra. Por ejemplo, la media o la varianza muestrales son estadísticos. Los estadísticos los denotaremos por T ( X 1 ; : : : ; Xn ).
- Estimadores: son estadísticos independientes de los parámetros de la población, y que se utilizan para aproximarlos. Si θ es el parámetro de interés, el estimador se denotará por θ ˆ. Por ejemplo, podemos considerar la media muestral como estimador de la media poblacional:
T ( X 1 ; : : : ; Xn ) =
n
∑^ n
i =
Xi = X = ˆ μ:
- Método de muestreo: procedimiento para seleccionar una muestra. Si en una población queremos obtener una muestra de un cierto tamaño n (siendo n menor que el tamaño de la población), la manera de obtener esta muestra no es única. En la siguiente sección, describiremos distintos métodos para seleccionar muestras.
En esta sección describiremos brevemente cuatro métodos de muestreo clásicos: muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo por conglomerados. En los desarrollos posteriores que realicemos, consideraremos que la muestra de la que disponemos se ha obtenido mediante muestreo aleatorio simple.
- Muestreo aleatorio simple: cada muestra posible de tamaño n tiene la misma probabilidad de ser selec- cionada, y cada individuo de la población tiene la misma probabilidad de caer en la muestra. - Muestreo sistemático: se utiliza cuando los individuos están ordenados en listas. Si tenemos una población de N individuos y queremos extraer una muestra de tamaño n , debemos calcular k (parte entera de N/n ) y elegir un valor l en { 1 ; 2 ; : : : ; k}. Los elementos de la muestra se seleccionan como aquellos en las posiciones {l; k + l; 2 k + l; : : : ; ( n − 1) k + l}. - Muestreo estratificado: cuando en la población existen grupos o clases homogéneos con respecto a la característica a estudiar (estratos), los individuos de la muestra se seleccionan con una cierta afijación en cada estrato. Es decir, para seleccionar una muestra de tamaño n , si tenemos K estratos en la población, elegiremos en cada uno n 1 ; : : : ; nK individuos, de tal modo que
k =1 nk^ =^ n. En cada estrato, los^ nk^ se suelen seleccionar por muestreo aleatorio o por muestreo sistemático.
4 Teorema Central del Límite
El Teorema Central del Límite es uno de los principales resultados en la teoría de la probabilidad. En su enunciado más simple, el Teorema Central del Límite establece que la suma de un número grande de observaciones independientes de la misma distribución se aproxima a una distribución Normal.
Teorema 1 (Teorema Central del Límite). Sean X 1 ; : : : ; Xn variables aleatorias independientes e idénticamente distribuidas con media μ y varianza σ^2_. Si n → ∞ (n suficientemente grande) entonces:_
Sn =
∑^ n
i =
Xi ∼ N ( nμ; nσ^2 ) :
Corrección de Yates
Al aproximar la distribución Binomial o la Poisson por la Normal estamos conservando la media y la varianza. Sin embargo, al calcular probabilidades utilizando la aproximación a la Normal debemos tener en cuenta que tanto la Binomial como la Poisson son discretas, mientras que la Normal es continua. Para una variable X ∼ Bi(50 ; 0 : 3) podemos calcular la probabilidad de que X sea 20, P( X = 20) y podemos ver en la Figura 5 que es positiva. Sin embargo, utilizando la aproximación X ∼ N (15 ; 75), al ser continua, la probabilidad P( X = 20) será nula. Para solucionar este problema, utilizaremos la corrección de Yates. La probabilidad de que X sea igual a 20 es la misma que:
P( X = 20) = P(19 : 5 < X < 20 : 5) ;
y sobre esta segunda expresión podemos utilizar la aproximación Normal, obteniendo un resultado no nulo. Esta corrección también se debe emplear al aproximar la Poisson por la Normal.
Aproximación de la Binomial por la Normal. Sobre el ejemplo, en un grupo de 200 personas mayores de 18 años, calcula:
Consideramos la variable
X = { no^ de personas, en el grupo de 200, que pueden conducir }:
Esta variable será X ∼ Bi(200 ; p ), donde p es la probabilidad de que una persona pueda conducir (es decir, que su tasa de alcohol en sangre sea inferior a 0.5 g/l ). En el Capítulo 3, vimos que p = 0 : 55, teniendo en cuenta que la tasa de alcohol en sangre se distribuía según una N (0 : 45 ; : 16). Por tanto, X ∼ Bi(200 ; 0 : 55) (con E( X ) = 110, Var( X ) = 49 : 5) y debemos calcular P( X = 110).
Dado que n = 200 y p ∈ (0 : 1 ; 0 : 9), aproximaremos la distribución por una N (110 ; 49 : 5). Como estamos pasando de una variable discreta a una continua, debemos hacer la corrección de Yates:
P( X = 110) = P(99 : 5 < X < 100 : 5)
= P
Para el segundo apartado, debemos aplicar la corrección en ambos extremos del intervalo:
P(80 < X < 105) = P(80 : 5 ≤ X ≤ 104 : 5) ;
y aquí se aplicaría la aproximación a la N (110 ; 49 : 5), obteniendo, después de tipificar:
P(80 : 5 ≤ X ≤ 104 : 5) = P( − 4 : 19 < Z < − 0 : 78) = 0 : 22 :
Aproximación de la Binomial por la Poisson. Sobre el ejemplo del Capítulo 3, en un grupo de 200 personas, calcula la probabilidad de que 2 de ellas sufran intoxicación etílica grave.
En este caso, la variable:
X = { no^ de personas, en el grupo de 200, que sufren intoxicación etílica grave }
sigue una distribución Bi(200 ; 0 : 005) (5 de cada 1000 sufren intoxicación etílica grave). Aunque n es suficien- temente grande, no podremos aproximar esta distribución por una Normal, ya que la probabilidad de éxito es extrema. La aproximación se hará a una Poisson con media np = 200 · 0 : 005 = 1. Es decir, X ∼ Pois (1). Por tanto:
P( X = 2) = e
Anexo. Tabla de relaciones
Estadística descriptiva V.A. discreta V.A.continua
Muestra X v.a. discreta X v.a. continua ( x 1 ; : : : ; xn ) Sop ( X ) = {x 1 ; : : : ; xn} Sop ( X ) = ( a; b ) ⊆ R
fi =
ni n
frecuencia relativa p 1 ; : : : ; pn masa de probabilidad f ( x ) función de densidad
fi ≥ 0,
∑^ n
i =
fi = 1 pi ≥ 0,
∑^ n
i =
pi = 1 f ( x ) ≥ 0,
−∞
f ( x ) dx = 1
Fi =
Ni n
frec. relativa acumulada F ( x ) = P( X ≤ x ) distribución F ( x ) = P( X ≤ x ) distribución Fk = 1 ( k clases) F ( −∞ ) = 0 ; F (+ ∞ ) = 1 F ( −∞ ) = 0 ; F (+ ∞ ) = 1
x =
n
∑^ n
i =
xi μ = E( X ) =
∑^ n
i =
xipi μ = E( X ) =
−∞
xf ( x ) dx
s^2 =
n
∑^ n
i =
( xi − x )^2 σ^2 = Var( X ) =
∑^ n
i =
( xi − μ )^2 pi σ^2 = Var( X ) =
−∞
( x − μ )^2 f ( x ) dx
s^2 =
n
∑^ n
i =
x i^2 − x^2 σ^2 =
∑^ n
i =
x^2 i pi − μ^2 σ^2 =
−∞
x^2 f ( x ) dx − μ^2
Tabla 2: Tabla de relaciones: estadística descriptiva, variable aleatoria discreta y variable aleatoria continua.