


































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Los conceptos básicos de las distribuciones muestrales de estadísticos, como el proceso de muestreo, la importancia de conocerlas y cómo estimar el intervalo de confianza. Además, se presentan ejemplos de distribuciones normal, binomial y chi-cuadrado, y se discuten los errores tipo i y ii.
Tipo: Apuntes
1 / 74
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!



































































Una población es un conjunto de individuos que comparten determinada
característica. Una muestra es un subconjunto de dicha población. Las variables
que definen de forma numérica cualquier característica de una población
reciben el nombre de parámetros (p.e. media, mediana, desviación típica,
proporción, correlación,...), y suelen representarse en los manuales de
estadística a través de letras griegas (p.e. μ suele representar la media, σ la
desviación típica, σ
2 la varianza, π la proporción, y ρ la correlación,...). Por su
parte las variables que definen de forma numérica cualquier característica de
una muestra reciben el nombre de estadísticos (p.e. media, mediana, desviación
típica, proporción,...) y suelen representar con letras latinas (p.e. suele
representar la media muestral, s la desviación típica, s
2 la varianza, P la
proporción, y r la correlación,...).
Para conducir cualquier investigación lo ideal sería poder medir a todos los
sujetos que componen una población. De este modo tendríamos certeza absoluta
de que nuestras conclusiones serían generalizables a dicha población. Pero por
motivos obvios de economía de recursos y tiempo ello nunca suele ser posible
(imaginemos p.e. que tuviéramos que medir a toda la población española). Sin
embargo podemos trabajar con una muestra representativa de dicha población e
intentar luego generalizar las conclusiones obtenidas en ella a toda la población.
En el proceso de inferencia estadística intentamos, previo conocimiento de
determinado estadístico, llegar a inferir o conocer determinado parámetro
poblacional, a priori desconocido. Inferir coincide pues con el significado
común de inducir (pasar del conocimiento de lo particular a lo general) como
contrapuesto al de deducción (o proceso por el cual pasamos del conocimiento
de lo general a lo particular). La característica primordial para que una
inferencia sea válida es que la muestra sea representativa, es decir, que sea
suficientemente grande y que haya sido obtenida por un tipo de muestreo
adecuado (ver ver punto 2 de este tema).
La estadística inferencial cubre dos grandes áreas de contenido: la estimación de
parámetros y el contraste de hipótesis. En el primer caso (tema 9 ) nos valemos
del conocimiento de determinado estadístico para llegar a conocer determinado
parámetro (p.e. piénsese en los sondeos de opinión, encuestas, etc.). En el
contraste de hipótesis (temas 10 a 13) nos valemos de la estimación de
determinados parámetros para comprobar si determinadas relaciones entre
X
nacionalidades, tipo de colegios, edades, niveles educativos, etc.). Se extrae
entonces una muestra aleatoria de sujetos de todos y cada uno de los estratos.
Destaca aquí el llamado muestreo estratificado proporcional que consiste en
conseguir que el tamaño de las muestras extraidas de cada estrato sea
proporcional al número de sujetos que componen cada estrato a nivel
poblacional.
población se agrupa por estratos de características similares solo que aquí se
aleatoriza qué estratos de entre todos los existentes van a ser incluidos en
nuestra muestra (desechando el resto de estratos), y una vez seleccionados al
azar dichos estratos elegimos al azar sujetos de los mismos. Es decir, la
diferencia entre el muestro estratificado y por conglomerados estriba en que en
el primero muestreamos todos los estratos (proporcionalmente o no), mientras
que en el segundo sólo muestreamos aquellos estratos que han siddo
seleccionados al azar de todos los estratos posibles.
que es muy frecuente en poblaciones muy grandes.
El segundo factor del que depende la representatividad de mi muestra es del
tamaño muestral (n), que debe de ser suficientemente grande (p.e. todo elmundo
puede entender que una muestra n=5 es difícil que sea representativa).
En Psicología Experimental (y cuasi-experimental) se habla de muestras
grandes a partir de 30-35 participantes.
En Psicología correlacional y de encuestas el tamaño muestral suele ser más
grande: casi todos los manuales de Estadística ofrecen tablas (ver p.e. la de
abajo) que nos dan el tamaño muestral requerido (n) en base a:
en Psicología)
Por ejemplo para realizar una encuesta dirigida a toda la población española, para un nivel de
riesgo α=.05, y un error de muestreo del ± 2%, necesitaríamos una muestra de un tamaño
mínimo de 2500 personas ( ver León y Montero, 2002, pp. 111).
Tabla 1.
Figura 1.
0,00,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,
0,
0,
0,
0,
0,
0,
M E D I A S
F r e c. r e l.
Para conocer las distribuciones muestrales de los distintos estadísticos no es
necesario recurrir a procedimientos empíricos (como el llevado a cabo arriba)
sino que se han desarrollado distintos teoremas matemáticos que demuestran las
distribuciones de probabilidad en que aquellas se basan. Así el Teorema
Central del Límite (De Moivre) fundamenta matemáticamente la distribución
muestral de la media, sin duda la distribución muestral más importante. Según
tal teorema si de una población grande (con media μ y varianza σ
2 ), distribuida
normalmente o no, extraemos muestras al azar de tamaño grande (n>30) y
calculamos en cada una de ellas su media entonces (1) la distribución muestral
de las medias muestrales sigue un modelo normal; (2) la media de tal
distribución de medias coincide con μ y (3) la desviación típica tal
distribución (también llamada error típico o estándar de la media) coincide
con.
El Teorema Central del Límite se expresa en forma abreviada así:
Del punto (3) se deduce que la variabilidad de la distribución muestral de
medias será siempre menor que la de la población, excepto cuando n=1, debido
a que la variabilidad de una población siempre es mayor que la observada en
una muestra aleatoria de ella.
La importancia del conocimiento de las distribuciones muestrales de los
principales estadísticos estriba en que gracias a ellas podemos asociar
probabilidades a valores concretos de cada estadístico y así poder luego bien
estimar los límites del intervalo de confianza en torno a los cuales si sitúa el
parámetro a estimar (tema 9) o bien contrastar hipótesis relativas a dicho
estadístico (temas 10 al 13).
(X X
= μ)
σ/ n
(s
X
= σ/ n )
X = N (μ,
σ
n
)
La distribución de muestras del estadístico proporción (P), extraídas de
poblaciones dicotómicas (donde la proporción de casos asociados a uno de los
dos estados es π) y muestreo con reposición, sigue el modelo binomial con
media π y error típico.
Con muestras grandes, o cuando el producto nπ ≥ 5, podemos utilizar la
aproximación a la curva normal tipificando P:
(Ejs. 1.6. y 1.7, Pardo y San Martín, pp 76-77; San Martín et al, pp 153).
π ( 1 − π )
n
z =
P − π
π(1 − π)
n
es N (0, 1)
Cuando un estadístico es utilizado para estimar un parámetro desconocido se
le llama estimador ( ). Si dicha estimación es hecha de forma puntual, es decir,
el valor de se toma como estimación concreta de hablamos de una
estimación puntual. En el caso más frecuente de que la estimación de se lleve
a cabo dando unos límites en torno a los cuales presumiblemente de halle
hablaremos de una estimación por intérvalos (ej. San Martín et al, pp. 180).
Los estimadores puntuales deben de cumplir una serie de propiedades
matemáticas (insesgamiento, consistencia, eficiencia y suficiencia). Sin
embargo, y dado que la estimación puntual se utiliza poco, nos basta con saber
que los mejores estimadores puntuales de μ, σ y π son, respectivamente, ,
y P.
Se trata de estimar los límites en torno a los cuales se encontrará el parámetro
(desconocido) a partir del conocimiento de la distribución muestral del
estadístico , asumiendo de antemano una determinada probabilidad de errar
(α) en nuestra estimación. El concepto de nivel de riesgo (α) hace referencia a
la probabilidad (asumida por nosotros a priori; generalmente en Psicología
α=.05) de equivocarnos en la estimación de , mientras que el concepto
complementario de nivel de confianza (1-α) refleja la probabilidad de acertar en
nuestra estimación. El intérvalo configurado por los límites superior e inferior
de nuestra estimación se le conoce como intérvalo de confianza.
θ
θ
^
θ
^
θ
θ
θ
X
s n − 1
θ
θ
^
θ
4.1. Intervalo confidencial para la media:
4.1.1. Conocida σ
2 :
4.1. 2. Desconocida σ
2 :
(Ejs. 2.1. Pardo y San Martín, pp 105; Cuadras et al, pp. 488; San Martín et al,
pp. 192)
En el SPSS: Analizar > Explorar + Estadísticos
4.2. Intervalo confidencial para la proporción:
4.2.1. Con muestras grandes:
4.2.2. Con muestras pequeñas:
(Ejs. 2.3. Pardo y San Martín, pp 111; Cuadras et al, pps. 495 y 498; San Martín
et al, pp. 196).
p X − z 1 −α/ 2
σ
n
$
%
&
'
≤ μ ≤ X + z 1 −α/ 2
σ
n
$
%
&
'
)
,
= ( 1 − α)
p X − t ( n − 1 ; 1 − α/ 2)
s n − 1
n
$
%
&
≤ μ ≤ X + t (n −1; 1 −α / 2)
s n − 1
n
$
%
&
(
)
,
= ( 1 − α)
p P − z 1 −α / 2
P(1 − P)
n
$
%
& ≤^ π^ ≤^ P^ +^ z 1 − α/ 2
P(1 − P)
n
$
%
&
)
,
.
= (1 − α)
p
n
n + z 1 − α/ 2
2
$
%
&
P +
z 1 −α / 2
2
2 n
− z 1 −α / 2
P( 1 − P)
n
z 1 −α / 2
2
4 n
2
'
$
%
(
&
≤ π ≤
≤
n
n + z 1 − α/ 2
2
$
%
&
P +
z 1 − α/ 2
2
2 n
P(1 − P)
n
z 1 −α / 2
2
4 n
2
'
$
%
(
&
. / / / / / 0
= (1 − α)
4.3. Intervalo confidencial para la varianza:
4.3.1. Con muestras pequeñas (n 100)
4.3.2. Con muestras grandes (n>100):
(Ejs. 2.2. Pardo y San Martín, pp 108; Cuadras et al, pp. 504; San Martín et al,
pp. 204).
≤
p
(n − 1)s
2
χ ( n − 1 ; α/ 2)
2
$
%
&
'
(
)
≥ σ
2
≥
(n − 1)s
2
χ (n −1;1−α / 2)
2
$
%
&
'
(
)
,
.
/
0
1
= (1 − α)
p s
2 − z 1 −α / 2
s
2
2
n
$
%
&
≤ σ
2
≤ s
2
s
2
2
n
$
%
&
)
,
.
= (1 − α)
A su vez H 0
puede ser de dos tipos:
(a) bilateral o de dos colas , cuando Ho se rechace tanto en el caso de que
como en el caso de que. En este caso H 0
se plantearía así:
(b) unilateral o de una cola , cuando Ho se rechace sólo en el caso de que por
ejemplo , hablándose de una H 0
unilateral derecha ; cuando Ho se rechace
en el caso de que entonces hablaremos de una H 0
unilateral izquierda.
La distribución muestral de H o
es siempre conocida, lo que nos permitirá asociar una
probabilidad al estadístico que hayamos calculado (t, F, etc.), y en base a ella tomar
una decisión estadística no ambigüa: p.e. en el programa SPSS si dicha probabilidad
(Sig) es > de .05 entonces aceptaré siempre H o
(lo que en el ejemplo anterior
supondría admitir que ambos medicamentos A y B producen resultados iguales),
mientras que si dicha probabilidad (Sig) es ≤ de .05 entonces rechazaré siempre H o
(lo que en el ejemplo anterior supondría admitir que ambos medicamentos A y B
producen resultados distintos).
) es generalmente la
hipótesis que el investigador está interesado en confirmar, denotando existe
evidencia suficiente para pensar que H o
es falsa. Se llama de la
desigualdad porque en su formulación nunca debe de aparecer un signo =.
Dado que su distribición muestral es desconocida no se utiliza para tomar
decisiones estadísticas.
usualmente con niveles de riesgo de .05.
modo en que el investigador decide asignar los sujetos a las condiciones o
tratamientos experimentales. Existen multitud de diseños de investigación y se
explicarán en profundidad en el módulo de “Diseños de Investigación en
Psicología” de 4º curso. En nuestro ejemplo ya dijimos que optamos por
asignar los sujetos al azar a las dos condiciones tratamentales.
llevarse a cabo una buena medición psicológica, características de la misma
(fiabilidad, validez,...), etc.
μ A
> μ B
μ A
< μ B
H o
: μ A
= μ B
o tambien μ A
− μ B
= 0
μ A
> μ B
μ A
< μ B
análisis de datos: Una vez llevada a cabo la medición se hace necesario
seleccionar la prueba estadística a aplicar en función del tipo de VI elegida, y de
la naturaleza de la VD (cuantitativa, semicuantitativa o cualitativa).
En la tabla inferior se presentan las principales pruebas estadísiticas de contraste
de hipótesis que veremos en este módulo.
En nuestro ejemplo el estadístico
podría ser adecuado. Para su cálculo introduciremos los datos individuales en el
programa SPSS, seleccionaremos la opción Analizar > comparar medias > t
para muestras independientes y le pediremos que nos calcule dicho valor p y la
probabilidad (sig) asociada al mismo.
de probabilidad. Como ya hemos dicho antes en el SPSS rechazaremos Ho si la
probabilidad asociada a mi estadístico (sig) es menor o igual que α, mientras
que aceptaremos Ho en caso contrario. En el caso de contrastes unilaterales se
deberán cumplir dos condiciones: a) que las medias muestrales vayan en la
dirección prevista y b) que al dividir sig /2 el resultado siga siendo menor o igual
a .05.
t =
(X 1
− X 2
) − (μ 1
− μ 2
)
n 1
s 1
2
s 2
2
n 1
− 2
"
$
%
&
'
1
n 1
1
n 2
"
$
%
&
'
es t n 1 + n 2 − 2
Cuando tomamos una decisión estadística podemos cometer dos tipos de
errores. La teoría de contraste de hipótesis de Pearson y Newman plantea los
dos tipos de error que podemos cometer al aceptar o rechazar Ho. De un lado
tenemos α (error tipo I) que refleja la probabilidad de rechazar Ho cuando en
realidad es verdadera; ya quedó dicho que en Psicología y por convención α se
suele mantener en .05. De otro lado nos encontramos con el error β (o error tipo
II) que refleja la probabilidad de aceptar en nuestra decisión Ho como verdadera
cuando en realidad es falsa. La interelación que se da entre estos dos tipos de
error aparece más clara si representamos gráficamente la distribución muestral
de Ho verdadera (conocida), junto con una de las distribuciones que representa
H1 verdadera (decimos una de las distribuciones por que hay infinitas
distribuciones que harían rechazar Ho; representaremos una sola de ella; además
debemos recordar que la distribución muestral de H1 es desconocida):
Ho verdadera Ho falsa
D E C I S I O N
Acepto Ho
Rechazo Ho
Decisión
correcta ( 1 − α)
Decisión
correcta
( 1 − β)
error tipo I
error tipo II
(β)
(α)
Ho verdadera Ho falsa
α/ 2 β α/ 2
DECISION
Aceptar Ho Rechazar Ho
Observemos que en este ejemplo H1 está planteada en términos bilaterales; el
razonamiento sería similar si hubiera sido planteada unilateralmente, sólo que
entonces toda la región de rechazo se hubiese situado bien a la derecha, bien a la
izquierda de Ho.
A 1 - β se le llama también potencia de una prueba estadística. En toda toma de
decisiones lo que interesa es minimizar α y β. Sin embargo podemos observar
como uno y otro error son interdependientes en el sentido que si disminuimos
uno de ellos aumentamos el otro (ejemplo Visauta y Batallé, pp. 54). El
programa SPSS nos permite calcular α (a través de la probablidad - sig - asociada
al valor del estadístico de contraste) y 1-β (pidiéndoselo en opciones ).
Dado que α suele tomar valores constantes iguales o inferiores a .05 lo que
interesa es pues aumentar la potencia de la prueba (1-β). Las dos formas tiene el
investigador de reducir β es o bien aumentar el tamaño de las muestras con las
que trabaja, o bien aumentar el llamado tamaño del efecto que en una escala de
0 a 1 describe el grado en que la manipulación experimental que hago es o no
efectiva, puesto que aumentando el tamaño del efecto conseguimos reducir el
grado de solapamiento de las distribuciones de Ho verdadera y Ho falsa sea
menor (ver figura anterior). El programa SPSS también permite calcular el
tamaño del efecto (pidiéndoselo en opciones ) a través del cálculo del estadístico
eta cuadrado parcial (η
2
p
en una escala de 0 a 1).
Por último no hay que confundir la significación estadística con el tamaño del
efecto. Muchas veces se piensa incorrectamente que una sig o p muy pequeña es
indicativa de que la manipulación de la VI sobre la VD ha sido muy efectiva, es
decir, de un tamaño del efecto muy alto. Y eso no siempre es así pues p depende
del tamaño muestral: una p=0.03 podrá tender relevancia psicológica ante un
n=30 p.e., pero la misma p ante un n=3000 no tiene ninguna relevancia. Por ello
la relevancia de un contraste hay que verificarla observando el tamaño del
efecto.