



























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: analisis de datos I, Profesor: jone datos, Carrera: Psicología, Universidad: UPV-EHU
Tipo: Apuntes
1 / 35
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




























Tema 1: ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS.
1.1. Introducción 1.2. Objetivos 1.3. Distribuciones muestrales 1.3.1. Distribución muestral de la media 1.3.2. Distribución muestral de la proporción 1.3.3. Distribución muestral de la varianza 1.4. La estadística inferencial 1.4.1. Estimación de parámetros 1.4.1.1. Intervalo de confianza de la media 1.4.1.2. Intervalo de confianza para la proporción 1.4.1.3. Intervalo de confianza para la varianza 1.4.2. Amplitud del intervalo de confianza y su relación con el tamaño muestral 1.4.3. Contraste de hipótesis 1.4.3.1. Metodología clásica del contraste de hipótesis
1.4.3.2. Errores al tomar una decisión en un contraste de hipótesis 1.5. Ejercicios de autoevaluación
1.1.- Introducción
En la asignatura de primer curso “Introducción al análisis de datos” se han estudiado procedimientos
para organizar, representar y describir un conjunto de datos -bien mediante la creación de tablas, gráficos o
calculando medidas que nos informan de su tendencia central, variabilidad, forma, relación, etc.- de tal forma
que, de forma resumida, nos proporcionan un conocimiento eficaz y con sentido de las características de la
muestra. En esta asignatura de segundo vamos a dar un paso adelante con el objetivo de utilizar esta
información para que, mediante la inferencia y el contraste de hipótesis, podamos hacer generalizaciones
referidas a la población a partir del análisis descriptivo de una, dos, o más muestras. Este conocimiento
siempre será aproximado o, dicho con otras palabras, esta inferencia siempre será probabilística.
En este primer capítulo abordamos los fundamentos de la inferencia estadística, rama de la
Estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de
las muestras que se pueden extraer de la misma. En el proceso de inferencia hay que seguir unas pautas
para que las afirmaciones que hagamos finalmente referidas a la población, y las correspondientes decisiones
que tomemos respecto a ella, sean lo más racionales posibles. En este proceso inferencial se pueden
distinguir básicamente los siguientes pasos: extracción de la muestra, medición de la(s) característica(s)
objeto de nuestro interés, cálculo del estadístico en la muestra para inferir el parámetro de la población, y
evaluación probabilística del error que podemos cometer al realizar dicha inferencia.
De manera resumida, explicaremos los fundamentos teóricos y los aspectos prácticos del proceso de
inferencia, repasando un concepto fundamental, sin el cual no es posible comprender cómo se produce la
inferencia, y que se conoce como distribución muestral , que ya fue tratado en el tema 8 de la asignatura
de “Introducción al análisis de datos” y al cual remitimos al estudiante que por algún motivo no ahondó lo
suficiente en este concepto. Posteriormente abordamos los procedimientos de estimación de parámetros, así
como las propiedades que debe tener un estimador para que cumpla bien su función de estimar el parámetro
que se desea conocer en la población 1 .
Finalmente, explicamos con cierta amplitud la metodología del contraste de hipótesis sobre
parámetros de una población, proceso íntimamente relacionado con el proceso de estimación. En los
epígrafes dedicados a los contrastes de hipótesis, además de la metodología, se tratan aspectos sustantivos
de los contrastes tales como los posibles errores que se pueden cometer al hacer una inferencia, y un
concepto que está en boga desde los años ochenta del pasado siglo, como es el de la magnitud otamaño del
efecto, y que ya es preceptivo referir en cualquier informe de investigación empírica.
En cualquier caso, el estudiante debe saber que la temática que se trata en este texto asume
conocimientos previos tratados en la asignatura de primer curso de tal forma que se supone adquiridos los
conceptos básicos de análisis descriptivo de los datos, probabilidad, el cálculo de las probabilidades de las
distribuciones discretas y continuas e, íntimamente relacionadas con éstas últimas, el concepto de distribución
muestral. Adquiridos estos conceptos a los que nos hemos referido, en este primer tema marcamos los
siguientes objetivos.
1.2.- Objetivos :
Conocer cómo es la distribución muestral de los estadísticos media, varianza y proporción.
Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción. Calcular el tamaño de la muestra en función de la precisión de la estimación deseada.
1 El concepto de parámetro se explica detenidamente en el tema 9 sobre contrastes no paramétricos.
representamos la variable por Y o por X y S (^) X si la representamos con la letra X. Pero esta muestra no es la
única posible. Se pueden extraer muchas otras muestras diferentes, todas ellas del mismo tamaño (n=100), y
en cada una de ellas calcular su media y desviación típica que variarán de una muestra a otra de tal manera
que con las puntuaciones de todas las medias muestrales (véase Figura 1.1) se origina otra distribución que
se llama distribución muestral de la media. Con el mismo procedimiento se obtendría la distribución muestral
de la desviación típica o de cualquier otro estadístico, como la proporción, la correlación de Pearson, etc. y
corresponde a la distribución de probabilidad de un estadístico al calcularlo en todas las posibles muestras del
mismo tipo y tamaño, n, extraídas de una población de tamaño N.
Figura 1.1: Proceso de construcción de la distribución muestral para el estadístico media. A la izquierda aparece la representación de
una variable en una población de tamaño N. Esta variable es normal con media 100 y desviación típica 15. A la derecha se muestra la
distribución muestral teórica del estadístico Media calculado en todas las muestras posibles de tamaño n. Obsérvese que ambas distribuciones (la poblacional y la muestral) tienen la misma media pero la distribución muestral tiene una variabilidad muy inferior a la
variabilidad de la distribución poblacional.
Como se estudió en el tema 8 de la asignatura “Introducción al análisis de datos”, a la hora de
determinar la forma de la distribución muestral de la media hay que distinguir tres situaciones:
, entonces la distribución muestral del estadístico media es también normal, con independencia del tamaño
de la muestra, y cuya media y desviación típica (o error típico de la media) son, respectivamente:
Y
n
Y
estadístico sobre el que se ha calculado la distribución muestral.
Obviamente, si tipificamos el valor del estadístico media Y que se distribuye normalmente, obtenemos
la variable Z:
n
Y
cuya distribución será normal, N 0 , 1 lo cual permite conocer mediante las tablas de la curva normal la
probabilidad asociada a cada valor del estadístico Y en la distribución muestral o la distancia, en términos
2.- Si se desconoce la forma de la distribución poblacional de la variable, la forma de la distribución muestral
de la media depende del tamaño de la muestra. El Teorema Central del Límite (TCL) establece que sin
importar la forma de la distribución poblacional, la distribución muestral de la media se aproximará a la
normal a medida que aumenta el tamaño de la muestra. Y el tamaño que debe tener la muestra para que la
distribución muestral se considere normal depende de la forma que tenga la distribución poblacional. Cuanto
más se aleje ésta de la distribución normal mayor tendrá que ser el tamaño de la muestra. Si asumimos que
la mayoría de las variables que se utilizan en las ciencias sociales no se alejan en exceso de la distribución
normal, vamos a considerar que una muestra es grande cuando n>30. Esto nos permitirá establecer, como
supuesto necesario para algunos tests inferenciales o de contraste de hipótesis, que la distribución muestral
de la media es normal incluso aunque desconozcamos la distribución poblacional pero el tamaño muestral
alcance o supere este valor.
3.- Finalmente, en la práctica investigadora, no es frecuente conocer la varianza de la población 2
. Estudios
realizados por W.S. Gosset al final del siglo XIX demostraron que en estas circunstancias la distribución
muestral de la media es una distribución diferente de la normal, que se conoce con el nombre de distribución
t de Student (este fue el pseudónimo que tuvo que utilizar Gosset para poder publicar sus investigaciones
sobre la distribución t ya que su contrato laboral con la cervecera Guinness le impedía publicar con su nombre
verdadero). En estas circunstancias Gosset demostró que la distribución de la variable
n
n 1
sigue el modelot de Student conn-1 grados de libertad, dondeSn-1 es la cuasi-desviación típica de la muestra
ya vista el curso anterior. Por otra parte, la distribuciónt de Student se aproxima a la normal y esto supone
que cuando el valor den es grande (a efectos prácticos por encima de 100 aunque otros autores ponen el
límite en n>30)T se aproxima aZ, y por tanto su distribución será muy parecida a la normal.
Ejemplo 1.1 : Supongamos que en un determinado Estado la población de escolares es evaluada sobre
conocimientos matemáticos básicos. Las puntuaciones en la población tienen media y desviación
típica , Si de esta población se extrae una muestra aleatoria de 121 sujetos: ¿cuál es la probabilidad
de obtener una media de 52 puntos o superior?; ¿cuál es la probabilidad de obtener una media que esté
comprendida entre 48 y 51 puntos?
1.3.2. Distribución muestral de la proporción
En el ámbito de las Ciencias Sociales es habitual dirigir nuestra atención a situaciones en la que no
estamos interesados en la media de la muestra sino que queremos investigar la proporción de personas que
votarán a un determinado partido político, que presentan un determinado síntoma, o que, en definitiva,
cumplen una determinada condición a la que genéricamente llamaremos “éxito”. En estas situaciones
tenemos que apoyarnos en la distribución muestral de la proporción, la cual se genera con la misma lógica
que la distribución muestral de la media, con la única diferencia de que al extraer todas las posibles muestras
de tamaño n de la población, el estadístico que se calcula en cada una de ellas es la proporción p=x/n
donde x es el número de datos de la muestra que cumplen la condición designada como “éxito” y n es el
tamaño de la muestra.
Entonces, si llamemos a la proporción de casos que cumplen una determinada condición en una
población de tamaño N y extraemos todas las posibles muestras aleatorias de tamañon, en la que definimos
la variableP = “Proporción de aciertos”, la distribución muestral de la proporción es la distribución de
probabilidad del conjunto de todas las proporciones, P, obtenidas en todas las muestras posibles de tamaño
n, extraídas de una población de tamaño N. La variable aleatoria P, sigue el modelo de probabilidadbinomial,
cuya media y desviación típica son, respectivamente:
p
p
Como sabemos por los temas ya estudiados en el primer curso, las probabilidades asociadas a cada
valor deP se pueden buscar en la distribución binomial con parámetrosn y .
Por otra parte, la distribución binomial -igual que la , lat de Student o laF de Snedecor-Fischer- se
aproxima a la normal a medida que aumenta el tamaño de la muestra, y por tanto se puede generar una
nueva variable:
P
cuya distribución es la normal tipificada.
Ejemplo 1.2 : Una escuela de educación primaria está compuesta por un 40% de niños y un 60% de
niñas. Si se elige una muestra aleatoria de 20 alumnos, ¿cuál será la probabilidad de que haya más de 9
niños?
La probabilidad de que en una muestra de 20 alumnos haya más de 9 niños, siendo la proporción de
éstos en la población = 0,40, se obtiene recurriendo a la distribución binomial con parámetros n=20 y
2 :
2 Valor que también podríamos obtener recurriendo a la tabla de la distribución binomial como se estudió en el Tema 6 de
la asignatura deIntroducción al Análisis de Datos.
2
20
9
0
y y
y y
P y P y
Y utilizando la distribución normal, tipificamos la proporción de niños obtenida en la muestra P=9/20=0,
P
Los resultados obtenidos por los dos procedimientos no coinciden pero la diferencia encontrada va
desapareciendo a medida que aumenta el tamaño de la muestra, ya que el ajuste de la distribución binomial
a la normal es más exacto. Esta diferencia entre la probabilidad calculada mediante la distribución binomial
(discreta) y la calculada mediante la curva normal (de parámetros media igual a n p y varianza igual a n p
(1-p)) se debe a que esta última es continua. Si en vez de utilizar el punto P = 0.45 correspondiente a 9
éxitos utilizamos el punto medio entre 9 y 10 éxitos (P = 9.5 / 20 = 0.475) y repetimos los pasos anteriores
obtendríamos un valor de 0.2483, bastante cercano al inicial (0.2447). En la Figura 1.3 se muestra la
diferencia entre ambas perspectivas. Parece obvio que la segunda es más aproximada, aunque dependa de
introducir como aproximación un valor (y = 9.5) que no puede producirse jamás en la distribución binomial ya
que esta exige valores enteros.
Figura 1.3: efecto de utilizar y = 9 o y = 9.5 sobre las probabilidades para calcular la aproximación de la normal a la binomial. La curva
continua es la curva normal con la misma media y desviación típica que la binomial. Las líneas verticales representan la función de
probabilidad de la binomial.
1.3.3. Distribución muestral de la varianza
La varianza es una medida de dispersión que permite determinar la variabilidad que presentan los
datos recogidos en una variable objeto de estudio.
2
2
n
n
X
X
Igual que sucedía antes, la distribución se aproxima a la distribución normal a medida que
aumentan sus grados de libertad, por lo que se puede construir, de nuevo, una variable aleatoria tipificadaZ
que siga una distribución normal tipificada, y cuya expresión es:
2
2
2
2 1
2
2
2
n
n
n S
n
n
n S
n
n
X
X
Ejemplo 1.3 : Supongamos que la altura (en centímetros) de los recién nacidos en Méjico se distribuye
N(48,6). Si se selecciona una muestra de 25 recién nacidos, ¿cuál es la probabilidad de que la
desviación típica de la muestra tome un valor inferior a 4,75 centímetros?
Utilizando la desviación típica de la muestra, el valor de la variable aleatoria es:
2
2
2
2 2
n S n X
que es un valor de una distribución con 24 grados de libertad. Si buscamos en la tabla de probabilidades
de la distribución , se observa que el valor 15,6587 que aparece en la tabla (el más aproximado a
nuestro resultado) deja por debajo una probabilidad de 0,10. Por tanto, la probabilidad de que una muestra
de 25 recién nacidos tenga una desviación típica inferior a 4,75 centímetros (o una varianza inferior a 4,
2 )
es aproximadamente de 0,10.
1.4. La estadística inferencial
Como se ha comentado en la introducción de este tema, la inferencia estadística nos va permitir
inferir los parámetros de una, dos o más poblaciones a partir de la información recogida en las muestras. Esta
inferencia o generalización de lo particular a lo general, la vamos a realizar mediante dos procedimientos
íntimamente relacionados: la estimación de parámetros y el contraste de hipótesis. En ambos casos se
trata de generalizar la información obtenida en una muestra a una población. Con la estimación tratamos de
conocer el valor de uno o más parámetros correspondientes a una variable aleatoria poblacional, Y, a partir
de los datos recogidos en una muestra. De forma alternativa, los procedimientos para el contraste de
hipótesis (que son los más utilizados en la experimentación científica en el campo de las ciencias sociales y de
la salud), nos permiten tomar una decisión sobre un valor hipotético que se formula como parámetro
poblacional. El procedimiento se lleva a cabo analizando si determinadas características que hipotéticamente
formulamos para definir la población pueden ser ciertas a partir de la información proporcionada por una
muestra representativa de la misma.
2
2
2 24 g.. l
Los procedimientos de contraste de hipótesis en los diseños de una, dos o más muestras que se
verán en este curso se apoyan en el supuesto de que la muestra se ha seleccionado mediante muestreo
aleatorio simple. Para ello, se tienen que cumplir dos condiciones: la muestra tiene que seleccionarse por
algún procedimiento aleatorio y, en segundo lugar, todos los elementos de la población tiene la misma
probabilidad de formar parte de la muestra. De esta forma, una muestra representativa es una reproducción
a escala de la población a la que pertenece respecto a la o las variables que tratamos de estudiar. Por
ejemplo si en la población de estudiantes de la UNED, el 60% son mujeres y de éstas el 40% tienen cargas
laborales frente al 75% en los estudiantes varones y queremos estudiar cómo las variables sexo y cargas
laborales influyen en el rendimiento académico es necesario que la muestra recoja este mismo reparto de
proporciones respecto al sexo y cargas laborales. De no cumplirse esta condición, de los resultados
observados en la muestra no se podrían hacer extrapolaciones válidas a la población general.
Aunque la estimación por intervalos y el contraste de hipótesis se tratan a continuación en epígrafes
separados, veremos que son procedimientos complementarios de forma que los intervalos pueden aplicarse
para el contraste de hipótesis y el contraste de hipótesis es una toma de decisión respecto al parámetro
poblacional formulado.
1.4.1.- Estimación de parámetros
Un estimador es un estadístico calculado en una muestra que se utiliza para estimar un parámetro
poblacional. Para cada parámetro (v.g la media poblacional) pueden existir diferentes estimadores (v.g. la
media aritmética, la media cuadrática, la mediana, la moda). Para que un estimador realice buenas
estimaciones del parámetro poblacional es preciso que tenga las cuatro propiedades que de forma muy
resumida expondremos en las siguientes líneas. Para desvincular las propiedades de los estimadores de un
parámetro concreto, designaremos de forma genérica con U al parámetro poblacional, con U ˆ^ a su valor
es el parámetro media poblacional y ˆ^ su valor estimado. En este caso concreto, el estimador que se utiliza
. Es importante
observar que, como hemos señalado al comienzo, podríamos haber elegido otros estadísticos muestrales
como estimadores del parámetro media poblacional (v.g., la mediana, por citar algún otro de tendencia
central). La cuestión es ¿cuál de los posibles estimadores deberíamos utilizar? Esto dependerá de la bondad
de los mismos. Por lo tanto, es preciso saber qué hace que un estadístico, u, sea un buen estimador del
parámetro 3 .
Insesgado. Un buen estimador tiene que ser insesgado, lo cual supone que su valor esperado, E(u), o media
hemos visto, es un estimador insesgado de la media poblacional, y lo mismo ocurre con la proporción, la
cuasi-varianza muestral y otros estadísticos que veremos a lo largo del curso. Sin embargo la varianza
muestral es un estimador sesgado de la varianza poblacional ya que
2 2 E ( Sn ) (sin embargo, como
veremos más adelante,
2 2 E ( Sn 1 ) por lo que la cuasivarianza muestral es un estimador insesgado de la
3 Obsérvese que para denotar que un estadístico concreto es estimador de un parámetro, lo denotamos poniendo el
acento circunflejo sobre el parámetro a estimar. De esta forma, conceptualmente no es lo mismo la media como
Aunque numéricamente valgan lo mismo, en el primer caso se la considera un simple índice descriptivo mientras que en
el segundo se la considera un “representante” de la media poblacional y, además, un buen representante ya que nos
Por ejemplo, suponga que deseamos conocer el tiempo medio semanal que los estudiantes de
psicología de la UNED dedican al estudio de una determinada asignatura. Mediante una encuesta realizada a
una muestra representativa se obtiene una media de 6h/semanales. Este valor sería la estimación puntual
para la media de todos los estudiantes. En otro caso, y mediante procedimientos que veremos más adelante
podremos determinar que el tiempo medio que dedican los estudiantes al estudio es un valor comprendido
entre 4,7h/semanales y 7,3 h/semanales con una probabilidad del 95%. Para llegar a estos resultados
habremos utilizado los datos obtenidos en la muestra que ha sido encuestada y del conocimiento de las
distribuciones muestrales de los estadísticos, con el doble objetivo tanto de asignar un valor del estadístico en
la muestra que extraemos de la población, como estimación puntual de su parámetro, como para la
estimación por intervalos.
1.4.1.1- Intervalo de confianza para la media
Para el cálculo del intervalo de confianza de la media hay que considerar las circunstancias bajo la
cuales la distribución muestral de la media es una distribución normal o una distribución t de Student conn-
grados de libertad. Para ilustrar el procedimiento nos apoyaremos en varios ejemplos distinguiendo, por
tanto, las siguientes tres situaciones:
1.- Distribución poblacional normal y varianza poblacional conocida
2 . En estas circunstancias
sabemos que la distribución muestral de la media es normal con media , y error típico igual a la desviación
típica poblacional dividida por la raíz de n:.
Se trata, por tanto, de determinar dos valores que definen un intervalo dentro del cual estimamos
que se encontrará la media poblacional, ߤ, con una determinada probabilidad, que representamos por 1 െ ߙ,
y se denomina nivel de confianza. Teniendo en cuenta las propiedades de la distribución normal, si fijamos
Y , se encuentra el 95% de las medias de cualquier
muestra, como se muestra en la Figura 1.4.
n
Figura 1.4. Distribución muestral de medias con intervalo del 95% alrededor del valor esperado
Es decir, en 95 de cada 100 muestras su media se encontrará dentro del intervalo
n n
confianza del 95% (0,95) es:
n
n
Resolviendo esta desigualdad se llega a la siguiente expresión que afirma que la probabilidad de que
población con una probabilidad del 0,95 se calcula según:
n
n
En general, el intervalo de confianza para la media poblacional, estimado a partir de la media de la
2 1 2
PY Z y Y Z y
Siendo el error típico de la media:
n
Y
Efectivamente, la Figura 1.4 es la representación de las medias de todas las muestras de tamañon
que se pueden extraer de una población. De todas estas muestras, en el 95% de ellas su media se encontrará
de la zona central delimitada por los valores:
n
n
ese zona. Por lo tanto, partiendo de la media de muestra que se encuentre dentro de la zona central -aunque
no necesariamente en la media poblacional ya que varía de una muestra a otra- construimos un intervalo con
la misma amplitud que tendrá una probabilidad del 95% de contener la media poblacional. Si partimos de la
media de una muestra que se encuentra fuera de la zona central del 95%, el intervalo de confianza que
construyamos sobre ella no podrá incluir entre sus valores a la media de la población. Esto último sucederá,
en promedio, en 5 de cada 100 muestras que extraigamos de la población. La representación gráfica de lo
que acabamos de explicar se puede ver en la Figura 1.5.
qué límites se encontrará el verdadero promedio de palabras bien recordadas, con una probabilidad de 0,95?
Se desconoce la varianza poblacional y, además, la muestra es pequeña, por lo que la distribución de
referencia es la t de Student. En la distribución t de Student con 11 gl, (Figura 1.6) buscamos los valores que
dejan en la zona central una probabilidad de 0,95. Estos valores son -2,201 y +2,201 que se incluyen en la
expresión general:
2 1 2 Y Y PY t Y t
Figura 1.6. Intervalo de confianza de la media en la distribución t
La interpretación correcta del intervalo de confianza es que dentro de él se encontrará, o no, el
verdadero valor del parámetro, pero nos permite afirmar que si repitiésemos el proceso con muchas muestras
del mismo tipo y tamaño, el ( 1 )%de los intervalos así construidos contendrá al verdadero valor del
parámetro (promedio de palabras recordadas en la población). Y esta interpretación es la que hay que
mantener para todo intervalo de confianza de cualquier otro parámetro poblacional que vayamos a estimar,
no cayendo en el error de interpretarlo en el sentido de que el ( 1 )% de las personas –en este ejemplo,
el 95% de las personas- tienen un promedio de palabras recordadas comprendido entre 6,17 y 7,82.
1.4.1.2. Intervalo de confianza para la proporción
Sabemos que la distribución muestral de la proporción es una distribución binomial que se aproxima a
la normal cuando se utilizan muestras grandes. Bajo estas condiciones, la distribución muestral de la
proporción es normal con media y error típico iguales a:
(^) p
n
p
Como la proporción poblacional, , es un valor desconocido hay que estimarlo a partir de su estimador
insesgado, la proporción muestral, p, y el error típico de la distribución muestral de la proporción queda de la
siguiente forma:
n
p p
n
p
siguiendo el mismo razonamiento utilizado para el caso de la media, partimos de la siguiente expresión:
2 1 2
P Z P p Z P
Resolviendo esta desigualdad se llega a la siguiente expresión que afirma que la probabilidad de que en un
intervalo de confianza construido alrededor de la proporción de una muestra se encuentra el parámetro de la
2 1 2
P p Z P p Z P
O de forma más desarrollada:
(^2 12) n
p p p Z n
p p P p Z
Ejemplo 1.5 : Para dejar constancia real de las preferencias de los padres sobre la lengua vehicular en la
que prefieren que se eduque a sus hijos, una determinada asociación de padres realiza una encuesta sobre
una muestra de 800 familias residentes en una determinada autonomía bilingüe, encontrando que 280
familias son partidarios de que todas de las asignaturas se enseñen en Castellano. Con un nivel de confianza
del 95% ¿entre que valores se encontrará la proporción de padres que en esa Comunidad son partidarios de
que todas las asignaturas se impartan en Castellano?
La proporción de familias partidarias de la enseñanza en Castellano obtenida en la muestra es
p=280/800 = 0,35. Al tratarse de una muestra grande, la distribución binomial se aproxima a la normal.
Buscamos en la tabla de la distribución normal los valores Z que dejan una probabilidad central del 95% y son
-1,96 y +1,96 (Figura 1.7) y aplicamos la siguiente expresión:
ܮ (^) ܼെ ൌ ఈ ൗଶ
. ට
.ሺଵିሻ
ൌ 0,35 െ 1,96. ට
,ଷହ.,ହ଼
ൌ 0,
ܮ (^) ௦௨ ܼ ൌ (^) ଵି ఈ ൗଶ
. ඨ
. ሺ1 െ ሻ݊ ൌ 0,35 1,96. ඨ
0,35.0,
800
ൌ 0,
2 1 2
(^21)
2 2 1 2
n
n n
n S P
Resolviendo las desigualdades, y despejando la varianza poblacional
2 , se llega a la siguiente expresión:
2 1 2
1
2 2 2 1 2
2
n
n
n
n Sn n S P
De aquí se sigue que los límites del intervalo de confianza para la varianza poblacional son:
2 1 2
1
2
inf
n
n Sn l
2 1 2
2
n
n Sup
n S l
Con las pertinentes modificaciones, se puede usar también la varianza insesgada (cuasi-varianza) siendo en
este caso los límites inferior y superior los siguientes:
2 1 2
1
2 1 inf
n
n Sn l
2 1 2
2 ( 1 ) 1
n
n Sup
n S l
Cuando el tamaño de la muestra está por encima de 100 sujetos, la distribución muestral de la varianza se
puede aproximar a la normal, siendo los límites en este caso:
n
l S Z S
2
2 inf n
l (^) Sup S Z S
2 1
2
Ejemplo 1.6: Un grupo de 30 alumnos de enseñanza secundaria seleccionados al azar en una determinada
Comunidad realizan un test de comprensión verbal de su lengua autónoma. Las puntuaciones obtenidas se
distribuyen normalmente con media 120 y varianza 36. Con una probabilidad de 0’90, ¿entre que valores se
encontrará la varianza en comprensión verbal de todos los alumnos de secundaria de esa Comunidad?
Buscamos en la tabla de la distribución chi-cuadrado y con n-1=29 grados de libertad, los dos valores de la
variable chi-cuadrado que dejan una probabilidad de 0,90 central. Estos valores son 17,708 y 42,557 tal y
como se representan en la Figura 1.9.
Figura 1.9. Distribución chi-cuadrado con 29 g.l y valores que delimitan una probabilidad de 0,90 central
2 1 2
1
2
inf
n
n Sn l
2 1 2
2
n
n Sup
n S l
Al mismo resultado llegaríamos utilizando la cuasi-varianza de la muestra. En este ejemplo, la varianza es 36
por lo que la cuasi-varianza vale:
2 2 1
n
n S S n n
Y los límites son:
2 1 2
1
2 1 inf
n
n Sn l
2 1 2
2 1
n
n Sup
n S l
1.4.2.- Amplitud del intervalo de confianza y su relación con el tamaño muestral
La amplitud de un intervalo de confianza depende de dos factores: el nivel de confianza y el error típico
de la distribución muestral del estadístico. Este segundo factor está en proporción inversa al tamaño de la
muestra, de tal forma que cuanto mayor es el tamaño de la muestra, menor es el error típico del estadístico.
Esta relación es fundamental, pues permite dar al intervalo de confianza el grado de precisión que se desee.
Para que el lector vea el proceso, vamos a ejemplificarlo con la media. El error típico de este estimador,
cuando se desconoce la varianza poblacional, es , y para obtener el error máximo de estimación se
multiplica por el valor de la distribuciónt de Student (o la Z de la distribución normal si el tamaño muestral es
elevado) correspondiente al nivel de confianza que se haya estipulado. Es decir, la distancia desde la media
muestral a cualquiera de los límites, que vamos a llamar error máximo de estimación y lo designamos con
E es:
n-
n