Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Asignatura: analisis de datos I, Profesor: jone datos, Carrera: Psicología, Universidad: UPV-EHU

Tipo: Apuntes

2013/2014

Subido el 03/04/2014

osmazh
osmazh 🇪🇸

3.3

(30)

9 documentos

1 / 35

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1 | Página
Tema 1: ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS.
1.1. Introducción
1.2. Objetivos
1.3. Distribuciones muestrales
1.3.1. Distribución muestral de la media
1.3.2. Distribución muestral de la proporción
1.3.3. Distribución muestral de la varianza
1.4. La estadística inferencial
1.4.1. Estimación de parámetros
1.4.1.1. Intervalo de confianza de la media
1.4.1.2. Intervalo de confianza para la proporción
1.4.1.3. Intervalo de confianza para la varianza
1.4.2. Amplitud del intervalo de confianza y su relación con el tamaño muestral
1.4.3. Contraste de hipótesis
1.4.3.1. Metodología clásica del contraste de hipótesis
1.4.3.2. Errores al tomar una decisión en un contraste de hipótesis
1.5. Ejercicios de autoevaluación
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23

Vista previa parcial del texto

¡Descarga datos y más Apuntes en PDF de Psicología solo en Docsity!

Tema 1: ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS.

1.1. Introducción 1.2. Objetivos 1.3. Distribuciones muestrales 1.3.1. Distribución muestral de la media 1.3.2. Distribución muestral de la proporción 1.3.3. Distribución muestral de la varianza 1.4. La estadística inferencial 1.4.1. Estimación de parámetros 1.4.1.1. Intervalo de confianza de la media 1.4.1.2. Intervalo de confianza para la proporción 1.4.1.3. Intervalo de confianza para la varianza 1.4.2. Amplitud del intervalo de confianza y su relación con el tamaño muestral 1.4.3. Contraste de hipótesis 1.4.3.1. Metodología clásica del contraste de hipótesis

1.4.3.2. Errores al tomar una decisión en un contraste de hipótesis 1.5. Ejercicios de autoevaluación

1.1.- Introducción

En la asignatura de primer curso “Introducción al análisis de datos” se han estudiado procedimientos

para organizar, representar y describir un conjunto de datos -bien mediante la creación de tablas, gráficos o

calculando medidas que nos informan de su tendencia central, variabilidad, forma, relación, etc.- de tal forma

que, de forma resumida, nos proporcionan un conocimiento eficaz y con sentido de las características de la

muestra. En esta asignatura de segundo vamos a dar un paso adelante con el objetivo de utilizar esta

información para que, mediante la inferencia y el contraste de hipótesis, podamos hacer generalizaciones

referidas a la población a partir del análisis descriptivo de una, dos, o más muestras. Este conocimiento

siempre será aproximado o, dicho con otras palabras, esta inferencia siempre será probabilística.

En este primer capítulo abordamos los fundamentos de la inferencia estadística, rama de la

Estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de

las muestras que se pueden extraer de la misma. En el proceso de inferencia hay que seguir unas pautas

para que las afirmaciones que hagamos finalmente referidas a la población, y las correspondientes decisiones

que tomemos respecto a ella, sean lo más racionales posibles. En este proceso inferencial se pueden

distinguir básicamente los siguientes pasos: extracción de la muestra, medición de la(s) característica(s)

objeto de nuestro interés, cálculo del estadístico en la muestra para inferir el parámetro de la población, y

evaluación probabilística del error que podemos cometer al realizar dicha inferencia.

De manera resumida, explicaremos los fundamentos teóricos y los aspectos prácticos del proceso de

inferencia, repasando un concepto fundamental, sin el cual no es posible comprender cómo se produce la

inferencia, y que se conoce como distribución muestral , que ya fue tratado en el tema 8 de la asignatura

de “Introducción al análisis de datos” y al cual remitimos al estudiante que por algún motivo no ahondó lo

suficiente en este concepto. Posteriormente abordamos los procedimientos de estimación de parámetros, así

como las propiedades que debe tener un estimador para que cumpla bien su función de estimar el parámetro

que se desea conocer en la población 1 .

Finalmente, explicamos con cierta amplitud la metodología del contraste de hipótesis sobre

parámetros de una población, proceso íntimamente relacionado con el proceso de estimación. En los

epígrafes dedicados a los contrastes de hipótesis, además de la metodología, se tratan aspectos sustantivos

de los contrastes tales como los posibles errores que se pueden cometer al hacer una inferencia, y un

concepto que está en boga desde los años ochenta del pasado siglo, como es el de la magnitud otamaño del

efecto, y que ya es preceptivo referir en cualquier informe de investigación empírica.

En cualquier caso, el estudiante debe saber que la temática que se trata en este texto asume

conocimientos previos tratados en la asignatura de primer curso de tal forma que se supone adquiridos los

conceptos básicos de análisis descriptivo de los datos, probabilidad, el cálculo de las probabilidades de las

distribuciones discretas y continuas e, íntimamente relacionadas con éstas últimas, el concepto de distribución

muestral. Adquiridos estos conceptos a los que nos hemos referido, en este primer tema marcamos los

siguientes objetivos.

1.2.- Objetivos :

 Conocer cómo es la distribución muestral de los estadísticos media, varianza y proporción.

 Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción.  Calcular el tamaño de la muestra en función de la precisión de la estimación deseada.

1 El concepto de parámetro se explica detenidamente en el tema 9 sobre contrastes no paramétricos.

representamos la variable por Y o por X y S (^) X si la representamos con la letra X. Pero esta muestra no es la

única posible. Se pueden extraer muchas otras muestras diferentes, todas ellas del mismo tamaño (n=100), y

en cada una de ellas calcular su media y desviación típica que variarán de una muestra a otra de tal manera

que con las puntuaciones de todas las medias muestrales (véase Figura 1.1) se origina otra distribución que

se llama distribución muestral de la media. Con el mismo procedimiento se obtendría la distribución muestral

de la desviación típica o de cualquier otro estadístico, como la proporción, la correlación de Pearson, etc. y

corresponde a la distribución de probabilidad de un estadístico al calcularlo en todas las posibles muestras del

mismo tipo y tamaño, n, extraídas de una población de tamaño N.

Figura 1.1: Proceso de construcción de la distribución muestral para el estadístico media. A la izquierda aparece la representación de

una variable en una población de tamaño N. Esta variable es normal con media 100 y desviación típica 15. A la derecha se muestra la

distribución muestral teórica del estadístico Media calculado en todas las muestras posibles de tamaño n. Obsérvese que ambas distribuciones (la poblacional y la muestral) tienen la misma media pero la distribución muestral tiene una variabilidad muy inferior a la

variabilidad de la distribución poblacional.

Como se estudió en el tema 8 de la asignatura “Introducción al análisis de datos”, a la hora de

determinar la forma de la distribución muestral de la media hay que distinguir tres situaciones:

1.- Si la distribución poblacional de la variable de estudio es normal con media  y desviación típica conocida

 , entonces la distribución muestral del estadístico media es también normal, con independencia del tamaño

de la muestra, y cuya media y desviación típica (o error típico de la media) son, respectivamente:

Y

n

Y

 ^ 

Obsérvese que para diferenciar los parámetros poblacionales (^ ^ y  ) de los parámetros de la

distribución muestral de la media (  Y y  Y ) hemos incluido en esta última un subíndice que señala el

estadístico sobre el que se ha calculado la distribución muestral.

Obviamente, si tipificamos el valor del estadístico media Y que se distribuye normalmente, obtenemos

la variable Z:

n

Y Y

Z

Y

cuya distribución será normal, N  0 , 1  lo cual permite conocer mediante las tablas de la curva normal la

probabilidad asociada a cada valor del estadístico Y en la distribución muestral o la distancia, en términos

probabilísticos, desde la media de una muestra concreta, Y^ , a la media de la población^ ^ (que coincide con

la media de la distribución muestral,  Y ).

2.- Si se desconoce la forma de la distribución poblacional de la variable, la forma de la distribución muestral

de la media depende del tamaño de la muestra. El Teorema Central del Límite (TCL) establece que sin

importar la forma de la distribución poblacional, la distribución muestral de la media se aproximará a la

normal a medida que aumenta el tamaño de la muestra. Y el tamaño que debe tener la muestra para que la

distribución muestral se considere normal depende de la forma que tenga la distribución poblacional. Cuanto

más se aleje ésta de la distribución normal mayor tendrá que ser el tamaño de la muestra. Si asumimos que

la mayoría de las variables que se utilizan en las ciencias sociales no se alejan en exceso de la distribución

normal, vamos a considerar que una muestra es grande cuando n>30. Esto nos permitirá establecer, como

supuesto necesario para algunos tests inferenciales o de contraste de hipótesis, que la distribución muestral

de la media es normal incluso aunque desconozcamos la distribución poblacional pero el tamaño muestral

alcance o supere este valor.

3.- Finalmente, en la práctica investigadora, no es frecuente conocer la varianza de la población  2

. Estudios

realizados por W.S. Gosset al final del siglo XIX demostraron que en estas circunstancias la distribución

muestral de la media es una distribución diferente de la normal, que se conoce con el nombre de distribución

t de Student (este fue el pseudónimo que tuvo que utilizar Gosset para poder publicar sus investigaciones

sobre la distribución t ya que su contrato laboral con la cervecera Guinness le impedía publicar con su nombre

verdadero). En estas circunstancias Gosset demostró que la distribución de la variable

n

S

Y

T

n  1

sigue el modelot de Student conn-1 grados de libertad, dondeSn-1 es la cuasi-desviación típica de la muestra

ya vista el curso anterior. Por otra parte, la distribuciónt de Student se aproxima a la normal y esto supone

que cuando el valor den es grande (a efectos prácticos por encima de 100 aunque otros autores ponen el

límite en n>30)T se aproxima aZ, y por tanto su distribución será muy parecida a la normal.

Ejemplo 1.1 : Supongamos que en un determinado Estado la población de escolares es evaluada sobre

conocimientos matemáticos básicos. Las puntuaciones en la población tienen media y desviación

típica , Si de esta población se extrae una muestra aleatoria de 121 sujetos: ¿cuál es la probabilidad

de obtener una media de 52 puntos o superior?; ¿cuál es la probabilidad de obtener una media que esté

comprendida entre 48 y 51 puntos?

1.3.2. Distribución muestral de la proporción

En el ámbito de las Ciencias Sociales es habitual dirigir nuestra atención a situaciones en la que no

estamos interesados en la media de la muestra sino que queremos investigar la proporción de personas que

votarán a un determinado partido político, que presentan un determinado síntoma, o que, en definitiva,

cumplen una determinada condición a la que genéricamente llamaremos “éxito”. En estas situaciones

tenemos que apoyarnos en la distribución muestral de la proporción, la cual se genera con la misma lógica

que la distribución muestral de la media, con la única diferencia de que al extraer todas las posibles muestras

de tamaño n de la población, el estadístico que se calcula en cada una de ellas es la proporción p=x/n

donde x es el número de datos de la muestra que cumplen la condición designada como “éxito” y n es el

tamaño de la muestra.

Entonces, si llamemos  a la proporción de casos que cumplen una determinada condición en una

población de tamaño N y extraemos todas las posibles muestras aleatorias de tamañon, en la que definimos

la variableP = “Proporción de aciertos”, la distribución muestral de la proporción es la distribución de

probabilidad del conjunto de todas las proporciones, P, obtenidas en todas las muestras posibles de tamaño

n, extraídas de una población de tamaño N. La variable aleatoria P, sigue el modelo de probabilidadbinomial,

cuya media y desviación típica son, respectivamente:

N

p

p

Como sabemos por los temas ya estudiados en el primer curso, las probabilidades asociadas a cada

valor deP se pueden buscar en la distribución binomial con parámetrosn y .

Por otra parte, la distribución binomial -igual que la , lat de Student o laF de Snedecor-Fischer- se

aproxima a la normal a medida que aumenta el tamaño de la muestra, y por tanto se puede generar una

nueva variable:

P

P

Z

cuya distribución es la normal tipificada.

Ejemplo 1.2 : Una escuela de educación primaria está compuesta por un 40% de niños y un 60% de

niñas. Si se elige una muestra aleatoria de 20 alumnos, ¿cuál será la probabilidad de que haya más de 9

niños?

La probabilidad de que en una muestra de 20 alumnos haya más de 9 niños, siendo la proporción de

éstos en la población  = 0,40, se obtiene recurriendo a la distribución binomial con parámetros n=20 y

  0 , 40 la probabilidad pedida es, utilizando la expresión de su función de distribución, la siguiente

2 :

2 Valor que también podríamos obtener recurriendo a la tabla de la distribución binomial como se estudió en el Tema 6 de

la asignatura deIntroducción al Análisis de Datos.

2

20

9

0

y y

y y

P y P y

Y utilizando la distribución normal, tipificamos la proporción de niños obtenida en la muestra P=9/20=0,

P

P

Z

PZ P Z

PZ

Los resultados obtenidos por los dos procedimientos no coinciden pero la diferencia encontrada va

desapareciendo a medida que aumenta el tamaño de la muestra, ya que el ajuste de la distribución binomial

a la normal es más exacto. Esta diferencia entre la probabilidad calculada mediante la distribución binomial

(discreta) y la calculada mediante la curva normal (de parámetros media igual a n  p y varianza igual a n  p

 (1-p)) se debe a que esta última es continua. Si en vez de utilizar el punto P = 0.45 correspondiente a 9

éxitos utilizamos el punto medio entre 9 y 10 éxitos (P = 9.5 / 20 = 0.475) y repetimos los pasos anteriores

obtendríamos un valor de 0.2483, bastante cercano al inicial (0.2447). En la Figura 1.3 se muestra la

diferencia entre ambas perspectivas. Parece obvio que la segunda es más aproximada, aunque dependa de

introducir como aproximación un valor (y = 9.5) que no puede producirse jamás en la distribución binomial ya

que esta exige valores enteros.

Figura 1.3: efecto de utilizar y = 9 o y = 9.5 sobre las probabilidades para calcular la aproximación de la normal a la binomial. La curva

continua es la curva normal con la misma media y desviación típica que la binomial. Las líneas verticales representan la función de

probabilidad de la binomial.

1.3.3. Distribución muestral de la varianza

La varianza es una medida de dispersión que permite determinar la variabilidad que presentan los

datos recogidos en una variable objeto de estudio.

2

2

n

n

X

X

Igual que sucedía antes, la distribución se aproxima a la distribución normal a medida que

aumentan sus grados de libertad, por lo que se puede construir, de nuevo, una variable aleatoria tipificadaZ

que siga una distribución normal tipificada, y cuya expresión es:

2

2

2

2 1

2

2

2

n

n

n S

Z

n

n

n S

Z

X

Z

n

n

X

X

Ejemplo 1.3 : Supongamos que la altura (en centímetros) de los recién nacidos en Méjico se distribuye

N(48,6). Si se selecciona una muestra de 25 recién nacidos, ¿cuál es la probabilidad de que la

desviación típica de la muestra tome un valor inferior a 4,75 centímetros?

Utilizando la desviación típica de la muestra, el valor de la variable aleatoria es:

2

2

2

2 2 

n S n X

que es un valor de una distribución con 24 grados de libertad. Si buscamos en la tabla de probabilidades

de la distribución , se observa que el valor 15,6587 que aparece en la tabla (el más aproximado a

nuestro resultado) deja por debajo una probabilidad de 0,10. Por tanto, la probabilidad de que una muestra

de 25 recién nacidos tenga una desviación típica inferior a 4,75 centímetros (o una varianza inferior a 4,

2 )

es aproximadamente de 0,10.

1.4. La estadística inferencial

Como se ha comentado en la introducción de este tema, la inferencia estadística nos va permitir

inferir los parámetros de una, dos o más poblaciones a partir de la información recogida en las muestras. Esta

inferencia o generalización de lo particular a lo general, la vamos a realizar mediante dos procedimientos

íntimamente relacionados: la estimación de parámetros y el contraste de hipótesis. En ambos casos se

trata de generalizar la información obtenida en una muestra a una población. Con la estimación tratamos de

conocer el valor de uno o más parámetros correspondientes a una variable aleatoria poblacional, Y, a partir

de los datos recogidos en una muestra. De forma alternativa, los procedimientos para el contraste de

hipótesis (que son los más utilizados en la experimentación científica en el campo de las ciencias sociales y de

la salud), nos permiten tomar una decisión sobre un valor hipotético que se formula como parámetro

poblacional. El procedimiento se lleva a cabo analizando si determinadas características que hipotéticamente

formulamos para definir la población pueden ser ciertas a partir de la información proporcionada por una

muestra representativa de la misma.

2

2

2  24 g.. l

Los procedimientos de contraste de hipótesis en los diseños de una, dos o más muestras que se

verán en este curso se apoyan en el supuesto de que la muestra se ha seleccionado mediante muestreo

aleatorio simple. Para ello, se tienen que cumplir dos condiciones: la muestra tiene que seleccionarse por

algún procedimiento aleatorio y, en segundo lugar, todos los elementos de la población tiene la misma

probabilidad de formar parte de la muestra. De esta forma, una muestra representativa es una reproducción

a escala de la población a la que pertenece respecto a la o las variables que tratamos de estudiar. Por

ejemplo si en la población de estudiantes de la UNED, el 60% son mujeres y de éstas el 40% tienen cargas

laborales frente al 75% en los estudiantes varones y queremos estudiar cómo las variables sexo y cargas

laborales influyen en el rendimiento académico es necesario que la muestra recoja este mismo reparto de

proporciones respecto al sexo y cargas laborales. De no cumplirse esta condición, de los resultados

observados en la muestra no se podrían hacer extrapolaciones válidas a la población general.

Aunque la estimación por intervalos y el contraste de hipótesis se tratan a continuación en epígrafes

separados, veremos que son procedimientos complementarios de forma que los intervalos pueden aplicarse

para el contraste de hipótesis y el contraste de hipótesis es una toma de decisión respecto al parámetro

poblacional formulado.

1.4.1.- Estimación de parámetros

Un estimador es un estadístico calculado en una muestra que se utiliza para estimar un parámetro

poblacional. Para cada parámetro (v.g la media poblacional) pueden existir diferentes estimadores (v.g. la

media aritmética, la media cuadrática, la mediana, la moda). Para que un estimador realice buenas

estimaciones del parámetro poblacional es preciso que tenga las cuatro propiedades que de forma muy

resumida expondremos en las siguientes líneas. Para desvincular las propiedades de los estimadores de un

parámetro concreto, designaremos de forma genérica con U al parámetro poblacional, con U ˆ^ a su valor

estimado y con u a cualquier estadístico de la muestra que puede utilizarse como estimador. Por ejemplo, 

es el parámetro media poblacional y ˆ^ su valor estimado. En este caso concreto, el estimador que se utiliza

para estimar la media poblacional es el estadístico media aritmética de la muestra,  Y

. Es importante

observar que, como hemos señalado al comienzo, podríamos haber elegido otros estadísticos muestrales

como estimadores del parámetro media poblacional (v.g., la mediana, por citar algún otro de tendencia

central). La cuestión es ¿cuál de los posibles estimadores deberíamos utilizar? Esto dependerá de la bondad

de los mismos. Por lo tanto, es preciso saber qué hace que un estadístico, u, sea un buen estimador del

parámetro 3 .

Insesgado. Un buen estimador tiene que ser insesgado, lo cual supone que su valor esperado, E(u), o media

de su distribución muestral,  u ,debe coincidir con el parámetro que estima. La media muestral, tal como

hemos visto, es un estimador insesgado de la media poblacional, y lo mismo ocurre con la proporción, la

cuasi-varianza muestral y otros estadísticos que veremos a lo largo del curso. Sin embargo la varianza

muestral es un estimador sesgado de la varianza poblacional ya que

2 2 E ( Sn )  (sin embargo, como

veremos más adelante,

2 2 E ( Sn  1 )  por lo que la cuasivarianza muestral es un estimador insesgado de la

3 Obsérvese que para denotar que un estadístico concreto es estimador de un parámetro, lo denotamos poniendo el

acento circunflejo sobre el parámetro a estimar. De esta forma, conceptualmente no es lo mismo la media como

estadístico de una muestra ( Y ) que la media muestral como estimador de la media poblacional, es decir, ˆ^  Y.

Aunque numéricamente valgan lo mismo, en el primer caso se la considera un simple índice descriptivo mientras que en

el segundo se la considera un “representante” de la media poblacional y, además, un buen representante ya que nos

sirve para inferir el valor  desconocido.

Por ejemplo, suponga que deseamos conocer el tiempo medio semanal que los estudiantes de

psicología de la UNED dedican al estudio de una determinada asignatura. Mediante una encuesta realizada a

una muestra representativa se obtiene una media de 6h/semanales. Este valor sería la estimación puntual

para la media de todos los estudiantes. En otro caso, y mediante procedimientos que veremos más adelante

podremos determinar que el tiempo medio que dedican los estudiantes al estudio es un valor comprendido

entre 4,7h/semanales y 7,3 h/semanales con una probabilidad del 95%. Para llegar a estos resultados

habremos utilizado los datos obtenidos en la muestra que ha sido encuestada y del conocimiento de las

distribuciones muestrales de los estadísticos, con el doble objetivo tanto de asignar un valor del estadístico en

la muestra que extraemos de la población, como estimación puntual de su parámetro, como para la

estimación por intervalos.

1.4.1.1- Intervalo de confianza para la media

Para el cálculo del intervalo de confianza de la media hay que considerar las circunstancias bajo la

cuales la distribución muestral de la media es una distribución normal o una distribución t de Student conn-

grados de libertad. Para ilustrar el procedimiento nos apoyaremos en varios ejemplos distinguiendo, por

tanto, las siguientes tres situaciones:

1.- Distribución poblacional normal y varianza poblacional conocida

2 . En estas circunstancias

sabemos que la distribución muestral de la media es normal con media , y error típico igual a la desviación

típica poblacional dividida por la raíz de n:.

Se trata, por tanto, de determinar dos valores que definen un intervalo dentro del cual estimamos

que se encontrará la media poblacional, ߤ, con una determinada probabilidad, que representamos por 1 െ ߙ,

y se denomina nivel de confianza. Teniendo en cuenta las propiedades de la distribución normal, si fijamos

un nivel de confianza del 1   0 , 95 o del 95%, sabemos que a 1,96 desviaciones típicas a izquierda y

derecha de la media de la distribución muestral,   

Y , se encuentra el 95% de las medias de cualquier

muestra, como se muestra en la Figura 1.4.

N ,

n

Figura 1.4. Distribución muestral de medias con intervalo del 95% alrededor del valor esperado

Es decir, en 95 de cada 100 muestras su media se encontrará dentro del intervalo

n n

  . Expresado formalmente el intervalo alrededor del parámetro, con un nivel de

confianza del 95% (0,95) es:

n

Y

n

P

Resolviendo esta desigualdad se llega a la siguiente expresión que afirma que la probabilidad de que

en un intervalo construido alrededor de la media de una muestra se encuentra el parámetro  de la

población con una probabilidad del 0,95 se calcula según:

n

Y

n

P Y

En general, el intervalo de confianza para la media poblacional, estimado a partir de la media de la

muestra y con un nivel de confianza de 1   , es:

2 1 2

PY Z y Y Z y

Siendo el error típico de la media:

n

Y

Efectivamente, la Figura 1.4 es la representación de las medias de todas las muestras de tamañon

que se pueden extraer de una población. De todas estas muestras, en el 95% de ellas su media se encontrará

de la zona central delimitada por los valores:

n

  1. 96 y

n

  1. 96 y sólo un 5% estarán fuera de

ese zona. Por lo tanto, partiendo de la media de muestra que se encuentre dentro de la zona central -aunque

no necesariamente en la media poblacional ya que varía de una muestra a otra- construimos un intervalo con

la misma amplitud que tendrá una probabilidad del 95% de contener la media poblacional. Si partimos de la

media de una muestra que se encuentra fuera de la zona central del 95%, el intervalo de confianza que

construyamos sobre ella no podrá incluir entre sus valores a la media de la población. Esto último sucederá,

en promedio, en 5 de cada 100 muestras que extraigamos de la población. La representación gráfica de lo

que acabamos de explicar se puede ver en la Figura 1.5.

qué límites se encontrará el verdadero promedio de palabras bien recordadas, con una probabilidad de 0,95?

Se desconoce la varianza poblacional y, además, la muestra es pequeña, por lo que la distribución de

referencia es la t de Student. En la distribución t de Student con 11 gl, (Figura 1.6) buscamos los valores que

dejan en la zona central una probabilidad de 0,95. Estos valores son -2,201 y +2,201 que se incluyen en la

expresión general:

2 1 2 Y Y PY t Y t

P ( 7  2 , 201     

P ( 6 , 174  7 , 826 ) 0 , 95

Figura 1.6. Intervalo de confianza de la media en la distribución t

La interpretación correcta del intervalo de confianza es que dentro de él se encontrará, o no, el

verdadero valor del parámetro, pero nos permite afirmar que si repitiésemos el proceso con muchas muestras

del mismo tipo y tamaño, el ( 1  )%de los intervalos así construidos contendrá al verdadero valor del

parámetro (promedio de palabras recordadas en la población). Y esta interpretación es la que hay que

mantener para todo intervalo de confianza de cualquier otro parámetro poblacional que vayamos a estimar,

no cayendo en el error de interpretarlo en el sentido de que el ( 1  )% de las personas –en este ejemplo,

el 95% de las personas- tienen un promedio de palabras recordadas comprendido entre 6,17 y 7,82.

1.4.1.2. Intervalo de confianza para la proporción

Sabemos que la distribución muestral de la proporción es una distribución binomial que se aproxima a

la normal cuando se utilizan muestras grandes. Bajo estas condiciones, la distribución muestral de la

proporción es normal con media y error típico iguales a:

 (^) p  

n

p

Como la proporción poblacional,  , es un valor desconocido hay que estimarlo a partir de su estimador

insesgado, la proporción muestral, p, y el error típico de la distribución muestral de la proporción queda de la

siguiente forma:

n

p p

n

p

Teniendo en cuenta las propiedades de la distribución normal, si fijamos un nivel de confianza del 1   y

siguiendo el mismo razonamiento utilizado para el caso de la media, partimos de la siguiente expresión:

2 1 2

P Z P p Z P

Resolviendo esta desigualdad se llega a la siguiente expresión que afirma que la probabilidad de que en un

intervalo de confianza construido alrededor de la proporción de una muestra se encuentra el parámetro de la

población es de 1  .

2 1 2

P p Z P p Z P

O de forma más desarrollada:

    ^ 

(^2 12) n

p p p Z n

p p P p Z

Ejemplo 1.5 : Para dejar constancia real de las preferencias de los padres sobre la lengua vehicular en la

que prefieren que se eduque a sus hijos, una determinada asociación de padres realiza una encuesta sobre

una muestra de 800 familias residentes en una determinada autonomía bilingüe, encontrando que 280

familias son partidarios de que todas de las asignaturas se enseñen en Castellano. Con un nivel de confianza

del 95% ¿entre que valores se encontrará la proporción de padres que en esa Comunidad son partidarios de

que todas las asignaturas se impartan en Castellano?

La proporción de familias partidarias de la enseñanza en Castellano obtenida en la muestra es

p=280/800 = 0,35. Al tratarse de una muestra grande, la distribución binomial se aproxima a la normal.

Buscamos en la tabla de la distribución normal los valores Z que dejan una probabilidad central del 95% y son

-1,96 y +1,96 (Figura 1.7) y aplicamos la siguiente expresión:

ܮ (^) ௜௡௙ ܼെ ݌ ൌ ఈ ൗଶ

. ට

௣.ሺଵି௣ሻ ௡

ൌ 0,35 െ 1,96. ට

଴,ଷହ.଴,଺ହ଼ ଴଴

ൌ 0,

ܮ (^) ௦௨௣ ܼ൅ ݌ ൌ (^) ଵି ఈ ൗଶ

. ඨ

݌. ሺ1 െ ݌ሻ݊ ൌ 0,35 ൅ 1,96. ඨ

0,35.0,

800

ൌ 0,

2 1 2

(^21)

2 2 1 2

n

n n

n S P

Resolviendo las desigualdades, y despejando la varianza poblacional 

2 , se llega a la siguiente expresión:

 

2 1 2

1

2 2 2 1 2

2

n

n

n

n Sn n S P

De aquí se sigue que los límites del intervalo de confianza para la varianza poblacional son:

2 1 2

1

2

inf  

n

n Sn l

^ 

2 1 2

2

n

n Sup

n S l

^ 

Con las pertinentes modificaciones, se puede usar también la varianza insesgada (cuasi-varianza) siendo en

este caso los límites inferior y superior los siguientes:

2 1 2

1

2 1 inf

 

n

n Sn l

^ 

2 1 2

2 ( 1 ) 1

n

n Sup

n S l

^ 

Cuando el tamaño de la muestra está por encima de 100 sujetos, la distribución muestral de la varianza se

puede aproximar a la normal, siendo los límites en este caso:

n

l S Z S

2

2 inf      n

l (^) Sup S Z S

2 1

2     

Ejemplo 1.6: Un grupo de 30 alumnos de enseñanza secundaria seleccionados al azar en una determinada

Comunidad realizan un test de comprensión verbal de su lengua autónoma. Las puntuaciones obtenidas se

distribuyen normalmente con media 120 y varianza 36. Con una probabilidad de 0’90, ¿entre que valores se

encontrará la varianza en comprensión verbal de todos los alumnos de secundaria de esa Comunidad?

Buscamos en la tabla de la distribución chi-cuadrado y con n-1=29 grados de libertad, los dos valores de la

variable chi-cuadrado que dejan una probabilidad de 0,90 central. Estos valores son 17,708 y 42,557 tal y

como se representan en la Figura 1.9.

Figura 1.9. Distribución chi-cuadrado con 29 g.l y valores que delimitan una probabilidad de 0,90 central

2 1 2

1

2

inf 

  n

n Sn l

^ 

2 1 2

2

n

n Sup

n S l

^ 

Al mismo resultado llegaríamos utilizando la cuasi-varianza de la muestra. En este ejemplo, la varianza es 36

por lo que la cuasi-varianza vale:

2 2 1 

n

n S S n n

Y los límites son:

2 1 2

1

2 1 inf 

 

n

n Sn l

^ 

2 1 2

2 1 

n

n Sup

n S l

^ 

1.4.2.- Amplitud del intervalo de confianza y su relación con el tamaño muestral

La amplitud de un intervalo de confianza depende de dos factores: el nivel de confianza y el error típico

de la distribución muestral del estadístico. Este segundo factor está en proporción inversa al tamaño de la

muestra, de tal forma que cuanto mayor es el tamaño de la muestra, menor es el error típico del estadístico.

Esta relación es fundamental, pues permite dar al intervalo de confianza el grado de precisión que se desee.

Para que el lector vea el proceso, vamos a ejemplificarlo con la media. El error típico de este estimador,

cuando se desconoce la varianza poblacional, es , y para obtener el error máximo de estimación se

multiplica por el valor de la distribuciónt de Student (o la Z de la distribución normal si el tamaño muestral es

elevado) correspondiente al nivel de confianza que se haya estipulado. Es decir, la distancia desde la media

muestral a cualquiera de los límites, que vamos a llamar error máximo de estimación y lo designamos con

E es:

n-

S

n