Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Estadístico: Distribuciones Muestrales de Estadísticos - Prof. 16245, Apuntes de Psicología Educacional

Los conceptos básicos de las distribuciones muestrales de estadísticos, como el proceso de muestreo, la importancia de conocerlas y cómo estimar el intervalo de confianza. Además, se presentan ejemplos de distribuciones normal, binomial y chi-cuadrado, y se discuten los errores tipo i y ii.

Tipo: Apuntes

2014/2015

Subido el 20/10/2015

tianirac56
tianirac56 🇪🇸

3.7

(29)

19 documentos

1 / 74

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Apuntes de
Estadística II
Prof. Alfonso Pitarque
Dpto. Metodología (despacho M107)
Facultad de Psicología
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a

Vista previa parcial del texto

¡Descarga Análisis Estadístico: Distribuciones Muestrales de Estadísticos - Prof. 16245 y más Apuntes en PDF de Psicología Educacional solo en Docsity!

Apuntes de

Estadística II

Prof. Alfonso Pitarque

Dpto. Metodología (despacho M107)

Facultad de Psicología

TEMA 8. CONCEPTOS BÁSICOS DE INFERENCIA ESTADISTICA.

1. CONCEPTOS INTRODUCTORIOS.

Una población es un conjunto de individuos que comparten determinada

característica. Una muestra es un subconjunto de dicha población. Las variables

que definen de forma numérica cualquier característica de una población

reciben el nombre de parámetros (p.e. media, mediana, desviación típica,

proporción, correlación,...), y suelen representarse en los manuales de

estadística a través de letras griegas (p.e. μ suele representar la media, σ la

desviación típica, σ

2 la varianza, π la proporción, y ρ la correlación,...). Por su

parte las variables que definen de forma numérica cualquier característica de

una muestra reciben el nombre de estadísticos (p.e. media, mediana, desviación

típica, proporción,...) y suelen representar con letras latinas (p.e. suele

representar la media muestral, s la desviación típica, s

2 la varianza, P la

proporción, y r la correlación,...).

Para conducir cualquier investigación lo ideal sería poder medir a todos los

sujetos que componen una población. De este modo tendríamos certeza absoluta

de que nuestras conclusiones serían generalizables a dicha población. Pero por

motivos obvios de economía de recursos y tiempo ello nunca suele ser posible

(imaginemos p.e. que tuviéramos que medir a toda la población española). Sin

embargo podemos trabajar con una muestra representativa de dicha población e

intentar luego generalizar las conclusiones obtenidas en ella a toda la población.

En el proceso de inferencia estadística intentamos, previo conocimiento de

determinado estadístico, llegar a inferir o conocer determinado parámetro

poblacional, a priori desconocido. Inferir coincide pues con el significado

común de inducir (pasar del conocimiento de lo particular a lo general) como

contrapuesto al de deducción (o proceso por el cual pasamos del conocimiento

de lo general a lo particular). La característica primordial para que una

inferencia sea válida es que la muestra sea representativa, es decir, que sea

suficientemente grande y que haya sido obtenida por un tipo de muestreo

adecuado (ver ver punto 2 de este tema).

La estadística inferencial cubre dos grandes áreas de contenido: la estimación de

parámetros y el contraste de hipótesis. En el primer caso (tema 9 ) nos valemos

del conocimiento de determinado estadístico para llegar a conocer determinado

parámetro (p.e. piénsese en los sondeos de opinión, encuestas, etc.). En el

contraste de hipótesis (temas 10 a 13) nos valemos de la estimación de

determinados parámetros para comprobar si determinadas relaciones entre

X

nacionalidades, tipo de colegios, edades, niveles educativos, etc.). Se extrae

entonces una muestra aleatoria de sujetos de todos y cada uno de los estratos.

Destaca aquí el llamado muestreo estratificado proporcional que consiste en

conseguir que el tamaño de las muestras extraidas de cada estrato sea

proporcional al número de sujetos que componen cada estrato a nivel

poblacional.

  • por conglomerados: al igual que en muestreo estratificado se utiliza cuando la

población se agrupa por estratos de características similares solo que aquí se

aleatoriza qué estratos de entre todos los existentes van a ser incluidos en

nuestra muestra (desechando el resto de estratos), y una vez seleccionados al

azar dichos estratos elegimos al azar sujetos de los mismos. Es decir, la

diferencia entre el muestro estratificado y por conglomerados estriba en que en

el primero muestreamos todos los estratos (proporcionalmente o no), mientras

que en el segundo sólo muestreamos aquellos estratos que han siddo

seleccionados al azar de todos los estratos posibles.

  • polietápicos: combinan dos o más de los anteriores muestreos aleatorios, lo

que es muy frecuente en poblaciones muy grandes.

El segundo factor del que depende la representatividad de mi muestra es del

tamaño muestral (n), que debe de ser suficientemente grande (p.e. todo elmundo

puede entender que una muestra n=5 es difícil que sea representativa).

En Psicología Experimental (y cuasi-experimental) se habla de muestras

grandes a partir de 30-35 participantes.

En Psicología correlacional y de encuestas el tamaño muestral suele ser más

grande: casi todos los manuales de Estadística ofrecen tablas (ver p.e. la de

abajo) que nos dan el tamaño muestral requerido (n) en base a:

  • N poblacional, bien sea conocido o infinito (poblaciones muy grandes)
  • El nivel de riesgo α, o de confianza ( 1 - α) con el que trabajemos (generalmente α=.

en Psicología)

  • El error de muestreo que estemos dispuestos a cometer (p.e. de ± 2%, o de ± 5%).

Por ejemplo para realizar una encuesta dirigida a toda la población española, para un nivel de

riesgo α=.05, y un error de muestreo del ± 2%, necesitaríamos una muestra de un tamaño

mínimo de 2500 personas ( ver León y Montero, 2002, pp. 111).

Tabla 1.

Figura 1.

0,00,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,

0,

0,

0,

0,

0,

0,

M E D I A S

F r e c. r e l.

Para conocer las distribuciones muestrales de los distintos estadísticos no es

necesario recurrir a procedimientos empíricos (como el llevado a cabo arriba)

sino que se han desarrollado distintos teoremas matemáticos que demuestran las

distribuciones de probabilidad en que aquellas se basan. Así el Teorema

Central del Límite (De Moivre) fundamenta matemáticamente la distribución

muestral de la media, sin duda la distribución muestral más importante. Según

tal teorema si de una población grande (con media μ y varianza σ

2 ), distribuida

normalmente o no, extraemos muestras al azar de tamaño grande (n>30) y

calculamos en cada una de ellas su media entonces (1) la distribución muestral

de las medias muestrales sigue un modelo normal; (2) la media de tal

distribución de medias coincide con μ y (3) la desviación típica tal

distribución (también llamada error típico o estándar de la media) coincide

con.

El Teorema Central del Límite se expresa en forma abreviada así:

Del punto (3) se deduce que la variabilidad de la distribución muestral de

medias será siempre menor que la de la población, excepto cuando n=1, debido

a que la variabilidad de una población siempre es mayor que la observada en

una muestra aleatoria de ella.

La importancia del conocimiento de las distribuciones muestrales de los

principales estadísticos estriba en que gracias a ellas podemos asociar

probabilidades a valores concretos de cada estadístico y así poder luego bien

estimar los límites del intervalo de confianza en torno a los cuales si sitúa el

parámetro a estimar (tema 9) o bien contrastar hipótesis relativas a dicho

estadístico (temas 10 al 13).

(X X

= μ)

σ/ n

(s

X

= σ/ n )

X = N (μ,

σ

n

)

4 .4. PROPORCION.

La distribución de muestras del estadístico proporción (P), extraídas de

poblaciones dicotómicas (donde la proporción de casos asociados a uno de los

dos estados es π) y muestreo con reposición, sigue el modelo binomial con

media π y error típico.

Con muestras grandes, o cuando el producto nπ ≥ 5, podemos utilizar la

aproximación a la curva normal tipificando P:

(Ejs. 1.6. y 1.7, Pardo y San Martín, pp 76-77; San Martín et al, pp 153).

π ( 1 − π )

n

z =

P − π

π(1 − π)

n

es N (0, 1)

TEMA 9. ESTIMACION DE PARAMETROS.

1. CONCEPTO DE ESTIMADOR

Cuando un estadístico es utilizado para estimar un parámetro desconocido se

le llama estimador ( ). Si dicha estimación es hecha de forma puntual, es decir,

el valor de se toma como estimación concreta de hablamos de una

estimación puntual. En el caso más frecuente de que la estimación de se lleve

a cabo dando unos límites en torno a los cuales presumiblemente de halle

hablaremos de una estimación por intérvalos (ej. San Martín et al, pp. 180).

2. PROPIEDADES DE UN ESTIMADOR PUNTUAL

Los estimadores puntuales deben de cumplir una serie de propiedades

matemáticas (insesgamiento, consistencia, eficiencia y suficiencia). Sin

embargo, y dado que la estimación puntual se utiliza poco, nos basta con saber

que los mejores estimadores puntuales de μ, σ y π son, respectivamente, ,

y P.

3. ESTIMACION POR INTERVALOS

Se trata de estimar los límites en torno a los cuales se encontrará el parámetro

(desconocido) a partir del conocimiento de la distribución muestral del

estadístico , asumiendo de antemano una determinada probabilidad de errar

(α) en nuestra estimación. El concepto de nivel de riesgo (α) hace referencia a

la probabilidad (asumida por nosotros a priori; generalmente en Psicología

α=.05) de equivocarnos en la estimación de , mientras que el concepto

complementario de nivel de confianza (1-α) refleja la probabilidad de acertar en

nuestra estimación. El intérvalo configurado por los límites superior e inferior

de nuestra estimación se le conoce como intérvalo de confianza.

θ

θ

^

θ

^

θ

θ

θ

X

s n − 1

θ

θ

^

θ

4. PRINCIPALES INTERVALOS CONFIDENCIALES.

4.1. Intervalo confidencial para la media:

4.1.1. Conocida σ

2 :

4.1. 2. Desconocida σ

2 :

(Ejs. 2.1. Pardo y San Martín, pp 105; Cuadras et al, pp. 488; San Martín et al,

pp. 192)

En el SPSS: Analizar > Explorar + Estadísticos

4.2. Intervalo confidencial para la proporción:

4.2.1. Con muestras grandes:

4.2.2. Con muestras pequeñas:

(Ejs. 2.3. Pardo y San Martín, pp 111; Cuadras et al, pps. 495 y 498; San Martín

et al, pp. 196).

p X − z 1 −α/ 2

σ

n

$

%

&

'

≤ μ ≤ X + z 1 −α/ 2

σ

n

$

%

&

'

)

,

= ( 1 − α)

p X − t ( n − 1 ; 1 − α/ 2)

s n − 1

n

$

%

&

≤ μ ≤ X + t (n −1; 1 −α / 2)

s n − 1

n

$

%

&

(

)

,

= ( 1 − α)

p P − z 1 −α / 2

P(1 − P)

n

$

%

& ≤^ π^ ≤^ P^ +^ z 1 − α/ 2

P(1 − P)

n

$

%

&

)

,

.

= (1 − α)

p

n

n + z 1 − α/ 2

2

$

%

&

P +

z 1 −α / 2

2

2 n

− z 1 −α / 2

P( 1 − P)

n

z 1 −α / 2

2

4 n

2

'

$

%

(

&

≤ π ≤

n

n + z 1 − α/ 2

2

$

%

&

P +

z 1 − α/ 2

2

2 n

  • z 1 − α/ 2

P(1 − P)

n

z 1 −α / 2

2

4 n

2

'

$

%

(

&

  • , , , , , -

. / / / / / 0

= (1 − α)

4.3. Intervalo confidencial para la varianza:

4.3.1. Con muestras pequeñas (n 100)

4.3.2. Con muestras grandes (n>100):

(Ejs. 2.2. Pardo y San Martín, pp 108; Cuadras et al, pp. 504; San Martín et al,

pp. 204).

p

(n − 1)s

2

χ ( n − 1 ; α/ 2)

2

$

%

&

'

(

)

≥ σ

2

(n − 1)s

2

χ (n −1;1−α / 2)

2

$

%

&

'

(

)

,

.

/

0

1

= (1 − α)

p s

2 − z 1 −α / 2

s

2

2

n

$

%

&

≤ σ

2

≤ s

2

  • z 1 − α/ 2

s

2

2

n

$

%

&

)

,

.

= (1 − α)

A su vez H 0

puede ser de dos tipos:

(a) bilateral o de dos colas , cuando Ho se rechace tanto en el caso de que

como en el caso de que. En este caso H 0

se plantearía así:

(b) unilateral o de una cola , cuando Ho se rechace sólo en el caso de que por

ejemplo , hablándose de una H 0

unilateral derecha ; cuando Ho se rechace

en el caso de que entonces hablaremos de una H 0

unilateral izquierda.

La distribución muestral de H o

es siempre conocida, lo que nos permitirá asociar una

probabilidad al estadístico que hayamos calculado (t, F, etc.), y en base a ella tomar

una decisión estadística no ambigüa: p.e. en el programa SPSS si dicha probabilidad

(Sig) es > de .05 entonces aceptaré siempre H o

(lo que en el ejemplo anterior

supondría admitir que ambos medicamentos A y B producen resultados iguales),

mientras que si dicha probabilidad (Sig) es ≤ de .05 entonces rechazaré siempre H o

(lo que en el ejemplo anterior supondría admitir que ambos medicamentos A y B

producen resultados distintos).

  • La hipótesis alternativa o de la desigualdad (H 1

) es generalmente la

hipótesis que el investigador está interesado en confirmar, denotando existe

evidencia suficiente para pensar que H o

es falsa. Se llama de la

desigualdad porque en su formulación nunca debe de aparecer un signo =.

Dado que su distribición muestral es desconocida no se utiliza para tomar

decisiones estadísticas.

  1. Elección del nivel de riesgo (α). Ya quedó dicho que en Psicología se trabaja

usualmente con niveles de riesgo de .05.

  1. Elección del diseño de investigación: La palabra diseño hace referencia al

modo en que el investigador decide asignar los sujetos a las condiciones o

tratamientos experimentales. Existen multitud de diseños de investigación y se

explicarán en profundidad en el módulo de “Diseños de Investigación en

Psicología” de 4º curso. En nuestro ejemplo ya dijimos que optamos por

asignar los sujetos al azar a las dos condiciones tratamentales.

  1. Medición de la VD: En asignaturas como Psicometría se explican cómo debe

llevarse a cabo una buena medición psicológica, características de la misma

(fiabilidad, validez,...), etc.

μ A

> μ B

μ A

< μ B

H o

: μ A

= μ B

o tambien μ A

− μ B

= 0

μ A

> μ B

μ A

< μ B

  1. Selección de la prueba estadística a aplicar (o estadístico de contraste ) y

análisis de datos: Una vez llevada a cabo la medición se hace necesario

seleccionar la prueba estadística a aplicar en función del tipo de VI elegida, y de

la naturaleza de la VD (cuantitativa, semicuantitativa o cualitativa).

En la tabla inferior se presentan las principales pruebas estadísiticas de contraste

de hipótesis que veremos en este módulo.

En nuestro ejemplo el estadístico

podría ser adecuado. Para su cálculo introduciremos los datos individuales en el

programa SPSS, seleccionaremos la opción Analizar > comparar medias > t

para muestras independientes y le pediremos que nos calcule dicho valor p y la

probabilidad (sig) asociada al mismo.

  1. Toma de decisiones: Las reglas de decisión se expresan siempre en términos

de probabilidad. Como ya hemos dicho antes en el SPSS rechazaremos Ho si la

probabilidad asociada a mi estadístico (sig) es menor o igual que α, mientras

que aceptaremos Ho en caso contrario. En el caso de contrastes unilaterales se

deberán cumplir dos condiciones: a) que las medias muestrales vayan en la

dirección prevista y b) que al dividir sig /2 el resultado siga siendo menor o igual

a .05.

t =

(X 1

− X 2

) − (μ 1

− μ 2

)

n 1

s 1

2

  • n 2

s 2

2

n 1

  • n 2

− 2

"

$

%

&

'

1

n 1

1

n 2

"

$

%

&

'

es t n 1 + n 2 − 2

2. TIPOS DE ERROR Y FACTORES QUE LOS AFECTAN

Cuando tomamos una decisión estadística podemos cometer dos tipos de

errores. La teoría de contraste de hipótesis de Pearson y Newman plantea los

dos tipos de error que podemos cometer al aceptar o rechazar Ho. De un lado

tenemos α (error tipo I) que refleja la probabilidad de rechazar Ho cuando en

realidad es verdadera; ya quedó dicho que en Psicología y por convención α se

suele mantener en .05. De otro lado nos encontramos con el error β (o error tipo

II) que refleja la probabilidad de aceptar en nuestra decisión Ho como verdadera

cuando en realidad es falsa. La interelación que se da entre estos dos tipos de

error aparece más clara si representamos gráficamente la distribución muestral

de Ho verdadera (conocida), junto con una de las distribuciones que representa

H1 verdadera (decimos una de las distribuciones por que hay infinitas

distribuciones que harían rechazar Ho; representaremos una sola de ella; además

debemos recordar que la distribución muestral de H1 es desconocida):

Ho verdadera Ho falsa

D E C I S I O N

Acepto Ho

Rechazo Ho

Decisión

correcta ( 1 − α)

Decisión

correcta

( 1 − β)

error tipo I

error tipo II

(β)

(α)

Ho verdadera Ho falsa

α/ 2 β α/ 2

DECISION

Aceptar Ho Rechazar Ho

Observemos que en este ejemplo H1 está planteada en términos bilaterales; el

razonamiento sería similar si hubiera sido planteada unilateralmente, sólo que

entonces toda la región de rechazo se hubiese situado bien a la derecha, bien a la

izquierda de Ho.

A 1 - β se le llama también potencia de una prueba estadística. En toda toma de

decisiones lo que interesa es minimizar α y β. Sin embargo podemos observar

como uno y otro error son interdependientes en el sentido que si disminuimos

uno de ellos aumentamos el otro (ejemplo Visauta y Batallé, pp. 54). El

programa SPSS nos permite calcular α (a través de la probablidad - sig - asociada

al valor del estadístico de contraste) y 1-β (pidiéndoselo en opciones ).

Dado que α suele tomar valores constantes iguales o inferiores a .05 lo que

interesa es pues aumentar la potencia de la prueba (1-β). Las dos formas tiene el

investigador de reducir β es o bien aumentar el tamaño de las muestras con las

que trabaja, o bien aumentar el llamado tamaño del efecto que en una escala de

0 a 1 describe el grado en que la manipulación experimental que hago es o no

efectiva, puesto que aumentando el tamaño del efecto conseguimos reducir el

grado de solapamiento de las distribuciones de Ho verdadera y Ho falsa sea

menor (ver figura anterior). El programa SPSS también permite calcular el

tamaño del efecto (pidiéndoselo en opciones ) a través del cálculo del estadístico

eta cuadrado parcial

2

p

en una escala de 0 a 1).

Por último no hay que confundir la significación estadística con el tamaño del

efecto. Muchas veces se piensa incorrectamente que una sig o p muy pequeña es

indicativa de que la manipulación de la VI sobre la VD ha sido muy efectiva, es

decir, de un tamaño del efecto muy alto. Y eso no siempre es así pues p depende

del tamaño muestral: una p=0.03 podrá tender relevancia psicológica ante un

n=30 p.e., pero la misma p ante un n=3000 no tiene ninguna relevancia. Por ello

la relevancia de un contraste hay que verificarla observando el tamaño del

efecto.