













Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El concepto clave de la distribución muestral de un estadístico en el contexto del temario de cede. Se aborda la distribución muestral de la media, la construcción de intervalos de confianza y el proceso de contraste de hipótesis. Se incluyen ejemplos y conceptos relacionados como la distribución binomial y la normal tipificada.
Tipo: Ejercicios
1 / 21
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!














Este material supone una ampliación de los conceptos básicos de la asignatura, que quedan recogidos
en el manual de CEDE y en las diapositivas; por ese motivo resulta fundamental dominar el resto del temario
antes de trabajar los contenidos que se explican a continuación. El material está elaborado principalmente a
partir del libro que se propone en la bibliografía complementaria y puede servir de guía para tal lectura.
*Recomendación: para seguir las explicaciones con mayor facilidad es recomendable la impresión a color.
Como punto relevante y diferencial del temario de CEDE, se introduce el concepto de distribución
muestral de un estadístico, punto clave para una buena comprensión sobre las propiedades de los estimadores
y sobre todo el proceso de contraste de hipótesis para la inferencia de parámetros en la población. Así, aparecen
y se matizan conceptos como el intervalo de confianza y error máximo de estimación, los estadísticos de
contraste y su probabilidad asociada, nivel crítico (p), etc. Sin embargo, para los que os falte tiempo para
embarcaros en semejante aventura, podéis centraros solo en los recuadros al final de cada apartado dónde se
recogen los principales conceptos a memorizar: “¿ QUÉ HAY QUE SABER? ”. Estos apartados también pueden
servir para centrarse en lo importante de haberos sumergido en la explicación más extensa.
Es importante dejar claro que el contenido de este material difícilmente se trabajará en clase de forma
extensa, debido a la limitación de tiempo para abarcar todo el temario y la complejidad del mismo. Sin embargo,
sí se harán alusiones cuando sea oportuno, además de clarificaciones para aquell@s que lo hayáis trabajado en
casa. Y, como siempre, si tenéis cualquier duda… ¡mandad un e-mail!
DISTRIBUCIÓN DE LA POBLACIÓN O DISTRIBUCIÓN POBLACIONAL: Distribución de los datos en la población
Imaginemos que medimos una variable en una pequeña población de adolescentes: “nº de chicles consumidos
semanalmente”. A continuación, tenemos un esquema sobre la puntuación de cada individuo en la población:
POBLACIÓN, N = 30 Si contamos con todos los datos de la población, podemos calcular la
media y la varianza (y desviación típica) poblacionales:
Media: μ = 50
Desviación típica: ϭ = 30
Sin embargo, sólo disponemos de todos los datos de la población en escasas ocasiones. En la mayoría de los
casos trabajaremos con una muestra e intentaremos inferir los parámetros poblacionales; así los parámetros
poblacionales serán el objetivo que perseguirá el investigador mediante la estadística inferencial (contraste de
hipótesis, etc.) En general, cuando hablamos de parámetros poblacionales lo hacemos a un nivel teórico, cómo
hipótesis o supuesto.
Muestra, n=5 Distribución de la muestra
Media: 𝐱
*En el libro aparece como Y
Desviación típica: S = 21
Parámetros poblacionales
Estadísticos
1 99
3
97
6
94
90 10
15
85
22
20
80
78
45 55
64
70
48
52
30
75
25
27 73
50
40
50
60
36
99
3
97
90
94
15
6
55
45
64
22
85
18
82
25
73
75
27
78
40
60
70
30
50
36
10
1
48
52
50
10
70
50
60
36
10
50
60
36
70
El área debajo de la curva nos informa de la probabilidad para
un cierto intervalo de puntuaciones. Los valores van a ser más
probables cuanto más se acerquen al promedio y menos
probables cuanto más se acerquen a los extremos.
Por ej., la probabilidad para encontrar una puntuación entre 50 y
60 es mucho mayor que para un intervalo entre 80 y 90
Por lo que se refiere al parámetro << media de la distribución muestral de la media >> o μ
(media de todas las
medias de todas las posibles muestras de igual tamaño), ésta coincidirá siempre con la media de la población o
μ (1er apartado). μ
= μ
**La media (o valor medio) de una variable aleatoria, en términos de probabilidad, también recibe el nombre
de “valor esperado” o “esperanza matemática”.
En relación al parámetro << desviación típica de la distribución muestral de la media >> o ϭ
también recibe el
nombre de error típico de la media. Se considera error puesto que se aleja de la media de la distribución muestral
del estadístico en cuestión, media que coincide con el valor del parámetro en la población (como hemos
comentado justo en el parágrafo anterior).
La distribución muestral de la media será normal si se cumple al menos una de las siguientes condiciones:
Para realizar inferencias estadísticas sobre la media aritmética, procederemos de forma diferente según si
conocemos o desconocemos la varianza poblacional:
n>100 se pueden utilizar los valores Z de las tablas de la curva normal.
Teorema Central del Límite:
(¿cómo será la distribución muestral de la media, sin importar la forma de la distribución poblacional?)
que ser n para que la distribución muestral de la media se distribuya normalmente.
En todas las posibles muestras del mismo tamaño extraídas de la población (como algo hipotético) no sólo se
puede calcular la media aritmética, sino que también se pueden calcular otros estadísticos cómo la varianza,
desviación típica, etc. Así, por ejemplo, con todas las puntuaciones de todas las varianzas se originaria una nueva
distribución: distribución muestral de la varianza, que contaría con su propia media, varianza y desviación típica.
En el libro de la UNED, además de la media, especifican otras dos distribuciones muestrales: la varianza y la
proporción.
¿Qué queremos mirar? PARAMÉTRICAS
1 V Media
T (varianza desconocida)
Z (varianza conocida)
El proceso de construcción de la distribución muestral de la varianza es complejo. La variable aleatoria
que nos permitirá realizar afirmaciones sobre la varianza poblacional se distribuye según Chi-cuadrado
(con n-1 grados de libertad).
La distribución muestral de la proporción sigue el modelo de probabilidad binomial. Como ya sabemos,
la distribución binomial se aproxima a la normal cuando aumenta el tamaño de la muestra, por lo que
se puede generar una nueva variable cuya distribución es la normal tipificada.
el valor de tal estadístico en la población.
*Por ej.: la media de la distribución muestral de la varianza coincide con el valor de la varianza en la población.
típico o error estándar.
*Hay fórmulas que permiten al investigador calcular el tamaño de la muestra en función del error máximo que
se está dispuesto a admitir y del nivel de confianza que se adoptará para el contraste de hipótesis.
la muestra distribución: normal tipificada.
Para empezar, y antes de entrar en materia sobre las distribuciones muestrales de los estadísticos y la
construcción de los intervalos de confianza (vs. estimación puntual), vamos a repasar algunos conceptos
importantes sobre la curva normal y las puntuaciones Z.
En una distribución normal conocemos la probabilidad de “sus valores” tipificados (puesto que conocemos su
forma). Se escribe “sus valores” entre comillas porque, de hecho, no podemos saber la probabilidad de un valor
concreto sino la probabilidad para un intervalo (entre dos valores cualquiera).
Si mido una variable X en una muestra tendré distintas puntuaciones directas, una para cada uno de los sujetos
de mi muestra; así podré calcular el estadístico media aritmética y varianza. Una vez hecho esto, puedo tipificar
las puntuaciones directas, es decir, pasarlas a puntuaciones típicas, Z o estándares:
(*puedo tipificar independientemente de la forma de la distribución de la variable)
Entonces, partiendo de que la variable X se distribuye según la normal, podré saber qué probabilidad tiene “cada
una de mis puntuaciones directas*
1
”, en cuanto las haya pasado a Z’s. Por ejemplo, la probabilidad de obtener
una Z dentro del intervalo entre Z= +1 y Z= +2 es de 13’59%.
(*
1
de forma correcta estrictamente, no sabré la probabilidad para un valor concreto sino la probabilidad para un intervalo)
De la misma forma, si la variable X se distribuyera según la T d’Student, igualmente podría conocer la
probabilidad para un cierto intervalo de puntuaciones. Sin embargo, la distribución T adopta distintas formas
según los grados de libertad (con un cálculo distinto para cada tipo de diseño y situación experimental)*
2
variando tales formas y sus probabilidades asociadas según el tamaño de la muestra (n). De hecho, sabemos que
cuando aumentan los grados de libertad (al aumentar el tamaño de la muestra, n) la distribución T se parece
cada vez más a una distribución normal.
2
En diseños con una sola muestra: g.l.=n-1; para dos muestras (y cumpliéndose homocedasticidad): g.l.= n 1
En este apartado se explica la distribución muestral del estadístico media (ya visto en el apartado inicial), junto
a la construcción de su intervalo de confianza, ambos aspectos clave para el contraste de hipótesis.
Sin embargo, antes de empezar, es importante clarificar que – hasta el presente apartado – hemos hablado de
diseños con una sola muestra (y no sobre medidas independientes o relacionadas): cómo estimar el valor de un
parámetro en la población a partir de un estadístico calculado en una muestra. Por ejemplo: a partir de la media
aritmética (𝐱̅) obtenida en mi muestra… ¿cómo infiero el parámetro media (μ)en la población?
x
i
i
s
x x
z
95’44%
2,28%
34’13%
13,59%
3 4’13%
’13%
1 3’59%
,59%
2,28%
Puntuaciones Z - 2 - 1 0 + 1 + 2
Por ello, resulta importante recalcar que - de momento - no vamos a analizar la inferencia sobre diferencias
entre grupos (esto se dará en el próximo apartado). Para ubicarnos en el cuadro de los últimos temas de la
asignatura:
Así, como ya hemos mencionado, partimos de una sola muestra en la que calculamos la media (estadístico media
en la muestra: 𝐱̅). Ésta media difícilmente se corresponderá con exactitud con la media de la población, por ello
es importante construir un intervalo de confianza. Se trata, por tanto, de determinar dos valores que definen
un intervalo, dentro del cual estimamos que se encontrará la media poblacional (μ) con una determinada
probabilidad, 1 - α o nivel de confianza. Dicho de otra forma, si tomáramos 100 veces una muestra al azar de la
misma población y calculáramos la media de esas 100 muestras, en 95*
3
de esas 100 muestras su media se
encontraría dentro de ese intervalo que hemos definido como intervalo de confianza. (*
3
siendo N.C. de 0,95)
¿Pero, cómo lo calculamos? Se explica a continuación todo el proceso.
Teniendo en cuenta las propiedades de la distribución normal si, por ejemplo, fijamos un nivel de confianza del
1 - α = 0,95 o, lo que es lo mismo, del 95% Sabemos que el intervalo quedará entre Z = - 1,96 y Z= +1,96.
Además, podemos imaginar lo mismo aplicado a la distribución muestral de la media , donde la puntuación
típica Z = 0 se corresponde con la media de la distribución muestral de la media (μ
𝐱̅
), que como ya se ha
comentado, se corresponde con la media poblacional (μ). Así, entre Z = - 1,96 y Z= +1,96 se encuentran el 95%
de las medias de cualquier muestra (eso sí, expresado en puntuaciones típicas o Z). O, lo que es lo mismo, en 95
de cada 100 muestras en que calculáramos la media, ésta se encontraría dentro del intervalo Z = ±1,96.
No obstante, también podemos dibujar la distribución muestral de la media con las puntuaciones directas,
representando la distribución de probabilidad de las diferentes medias obtenidas al extraer de la población
todas las posibles muestras del mismo tamaño (n). Recuperando el ejemplo del apartado inicial:
El intervalo de confianza se construye sumando y restando a la media de la muestra una cantidad que se define
como error máximo de estimación con un nivel de confianza del 95% en este caso, y que representa la máxima
diferencia que puede existir entre el estimador (𝐱̅) y el parámetro a estimar (μ).
¿Qué queremos mirar? NO PARAMÉTRICAS PARAMÉTRICAS
1 V Media
T (varianza desconocida)
Z (varianza conocida)
Error máximo
de estimación
μ
𝐱̅
= 50 ϭ
𝐱̅
μ
𝐱̅
𝐱̅
+1'96 ϭ
𝐱̅
95 %
μ
𝐱̅
= μ
0
Puntuaciones Z
**- 1,
95 % (Nivel de confianza)
No debemos caer en el error de interpretarlo en el sentido de que, siguiendo el ejemplo, el 95% de las
personas de la población comerán un promedio de chicles semanales comprendido entre 25,4 y 64,6.
Si obtenemos en la muestra una media que se encuentra en la zona sombreada, fuera de la zona central del
95%, el intervalo de confianza que construyamos sobre ella no podrá incluir entre sus valores la media de la
población. Siguiendo con la interpretación de ello, esto sucederá tan solo con una probabilidad del 5% o, lo que
es lo mismo, en un promedio de 5 de cada 100 muestras que extraigamos de la población. En el ejemplo:
Para la explicación de este apartado, vamos a tomar como referencia la relación entre 2 variables, siguiendo el
ejemplo de las diapositivas: variable Independiente consumo/no consumo de alcohol y variable Dependiente
medida del tiempo de reacción. Los valores de la variable Independiente nos servirán para dividir la población
en dos subgrupos y en cada uno de ellos mediremos el tiempo de reacción, calculando así la media aritmética
(y la varianza) para cada uno de los grupos.
+1'96 ϭ
𝐱̅
μ
𝐱̅
95 %
𝐱̅
𝐱̅
El intervalo de confianza …
Intervalo dentro del cual estimamos que se encontrará la media poblacional, μ, con una determinada
probabilidad, 1 - α o nivel de confianza. Dicho de otra forma, si tomáramos 100 veces una muestra al
azar de la misma población y calculáramos la media de esas 100 muestras, en 95*
3
de esas 100
muestras su media se encontraría dentro de ese intervalo que hemos definido como intervalo de
confianza. (*
3
siendo N.C. de 0,95)
Se construye sumando y restando a la media de la muestra una cantidad que se define como error
máximo de estimación con un nivel de confianza (95%, 99%, etc. dependiendo del caso)
El error máximo de estimación representa la máxima diferencia que puede existir entre el estimador
(𝐱̅) y el parámetro a estimar (μ).
Si obtenemos en la muestra una media que se encuentra fuera de la zona central o de aceptación, el
intervalo de confianza que construyamos sobre ella no podrá incluir entre sus valores la media de la
población.
Como se puede observar en la imagen, una vez hecho esto, se calcula la diferencia entre ambas medias y será,
justamente esta diferencia o comparación entre medias, la que someteremos a contraste.
Pero no nos adelantemos… la finalidad de este apartado es facilitar la comprensión sobre la distribución
muestral e intervalo de confianza, dejando para más adelante el procedimiento para el contraste de hipótesis.
Como ya bien sabemos, la distribución muestral de un estadístico es aquella que resulta del cálculo de tal
estadístico en todas las posibles muestras de igual tamaño que podríamos extraer de la población. Recordemos
que se trata de un concepto que manejamos a nivel teórico y cobra su sentido al hablarnos de probabilidad.
Recordando uno de los parágrafos del apartado inicial…
<<Imaginemos un escenario hipotético en el que pudiéramos extraer todas las muestras posibles de la
población… y que en cada una de ellas pudiéramos realizar una medida de la variable de interés. Bien, dejando
claro entonces que se trata de un razonamiento a nivel teórico (no real): Sacamos todas las posibles muestras
del mismo tamaño (p.ej: n=5) y en cada una de ellas calculamos la media aritmética de la variable de interés.>>
En el caso de medidas independientes, no difiere mucho de lo ya expresado: Imaginemos de nuevo un escenario
hipotético en el que dividiéramos la población en dos subgrupos; siguiendo el ejemplo planteado en las
diapositivas: un subgrupo poblacional que consume alcohol i otro subgrupo que no lo consume. Imaginemos
también que pudiéramos extraer todas las muestras posibles de cada uno de los dos subgrupos la población. Así
tendríamos todas las muestras posibles de la subpoblación 1 (OH) y todas las muestras posibles de la
subpoblación 2 (no OH). Entonces, en cada una de estas muestras de la subpoblación 1 calculamos la media y,
asimismo, realizamos también dicho proceso en la subpoblación 2. Llegados a este punto, sólo nos faltaría
calcular todas las posibles diferencias entre las posibles medias de una subpoblación y la otra, tal y como se
ejemplifica con las líneas punteadas. Así obtendríamos todas las posibles diferencias de medias aritméticas.
Todas estas posibles diferencias de medias aritméticas constituirían una nueva variable, con su distribución de
probabilidad: “la distribución muestral de las diferencias entre medias”. A su vez, de la misma manera que se ha
explicado anteriormente, podríamos calcular la media de todas estas posibles diferencias entre medias.
𝑥ҧ 3
𝑥ҧ 5
𝑥ҧ 1
𝑥ҧ 4
𝑥ҧ 2
Etc.
𝑥ҧ 3
𝑥ҧ 5
𝑥ҧ 1
𝑥ҧ 4
𝑥ҧ 2
Etc.
Subpoblación 1
Subpoblación 2
Hasta aquí, hemos visto como formular intervalos de confianza y distribuciones muestrales de distintos
estadísticos; ahora vamos a entrar en el contraste de hipótesis y comprender la famosa curva el contraste de
hipótesis, que tanto aparece en el libro de CEDE y en las diapositivas, con sus zonas de aceptación y de rechazo,
delimitadas por los puntos críticos en el caso de un contraste bilateral (o delimitadas por un solo punto crítico
en el caso de un contraste unilateral), etc.
Para tal propósito, resulta esencial iniciar la explicación con el concepto de medida de discrepancia o estadístico
de contraste. El estadístico de contraste representa una medida de la discrepancia (o diferencia) entre la
información proporcionada por los datos empíricos recogidos en la muestra y la proposición teórica planteada
en la hipótesis nula. Se trata, en general, una medida estandarizada dentro de alguna distribución de
probabilidad, a semejanza de las vistas en el apartado anterior, y no depende de las unidades en que esté medida
la variable. Su formulación habitual es:
𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 =
(𝑉𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎) − (𝑉𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑝𝑙𝑎𝑛𝑡𝑒𝑎𝑑𝑜 𝑒𝑛 𝐻𝑜)
𝐷𝑒𝑠𝑣. 𝑡í𝑝𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒𝑙 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑜 𝑒𝑟𝑟𝑜𝑟 𝑡í𝑝𝑖𝑐𝑜
Simplificándolo para una mejor comprensión, vamos a fijarnos únicamente en el numerador: ¿Lo que he
obtenido en la muestra es muy diferente a lo que plantea la Hipótesis nula? De hecho, ¿esa diferencia es
suficientemente grande como para descartar la Hipótesis nula y aceptar la H alternativa? ¿o, por el contrario, es
una diferencia pequeña que puede ser debida al azar, por lo que no rechazo H o
El valor de la discrepancia se establece también en términos de probabilidad, conocida como nivel crítico (p) o
grado de significación, que es la probabilidad asociada a la medida de discrepancia o estadístico de contraste.
*Error en diapositivas del año pasado: Valor crítico no es sinónimo de nivel crítico, valor crítico=punto crítico
Dicho esto, y antes de entrar en definiciones más precisas, vamos a parar y pensar en un plano teórico :
Si consideramos cierta H o
, ¿cómo debería ser ésta discrepancia? ¿cómo debería ser ésta diferencia entre lo
obtenido en la muestra y lo planteado en la Ho? ¡Muy bien! Evidentemente: pequeña. Y formulado en términos
de probabilidad podemos decir que va a ser muy probable que, siendo cierta H o
, la diferencia (entre lo obtenido
en la muestra y lo planteado en H o
) sea muy pequeña; mientras que va a ser poco probable que tal diferencia
sea grande. Siendo H o
cierta, va a ser muy probable que el valor del estadístico de contraste sea más bien
pequeño y, a su vez, va a ser poco probable que dicho valor (el del estadístico de contraste) sea grande.
Aclarado este punto, podemos imaginar, a nivel teórico , una curva de probabilidad que contemple los distintos
posibles valores para el estadístico de contraste, con su probabilidad asociada: La distribución muestral del
estadístico de contraste, considerando cierta H o
; sus valores son todos los posibles estadísticos de contraste.
El valor de mayor probabilidad para el
estadístico de contraste es 0 o, lo que es
lo mismo, una nula diferencia entre lo
obtenido en la muestra y lo postulado
según H o
en la población.
Aun así, puede ocurrir que en la muestra se observe cierta discrepancia con lo esperado a nivel poblacional
según H o
y que igualmente H o
sea cierta; diremos entonces que la diferencia es debida al azar. A medida que los
valores del estadístico de contraste se alejen de este valor central (0), su probabilidad para quedar explicados
desde la H o
será cada vez menor.
95 %
Cuando hablamos de alejarse del valor central (0) nos referimos a un valor del estadístico de contraste tanto por
encima como por debajo de 0. Por este motivo, la medida de discrepancia se contempla en valores absolutos
(sin números negativos). Cuando hablamos de si aumenta (o disminuye) el valor del estadístico de contraste nos
estamos refiriendo a que aumenta la medida de discrepancia entre el estadístico obtenido en la muestra y lo
que se plantea en H o
Pero… ¿Cómo sabemos que la diferencia es grande o pequeña? ¿Qué diferencia considero fruto del azar y qué
otra como prueba de que H o
es falsa? ¿A partir de qué valor del estadístico de contraste considero que lo
encontrado en la muestra es, o no es, compatible con H o
Llegados a este punto se hace necesario diferenciar entre “dos posibles valores del estadístico de contraste”,
cada uno de ellos con su probabilidad asociada.
asociada: nivel crítico o p o grado de significación.
críticos en caso de contraste bilateral (o un solo punto crítico en el caso de un contraste unilateral), con
su probabilidad asociada: α. Como ya debéis saber, los puntos críticos son aquellos que delimitan las
zonas críticas o de rechazo y, en consecuencia, la zona de aceptación con su probabilidad NC o 1-α.
Pero… ¿qué quiere decir el equivalente “teórico”? Como ya se ha relatado, la distribución muestral del
estadístico de contraste – considerando cierta H o
contraste con sus probabilidades asociadas, probabilidades marcadas por el hecho que partimos de que H o
es
verdadera. Como también hemos comentado, cuando el valor del estadístico de contraste se aleja de 0 debemos
discernir si es por razones de azar o si, por el contrario, se explica porque H o
es falsa. Llegados a este punto de
la explicación, resulta fácil comprender que son los puntos o valores críticos los que nos marcaran los límites
para tomar tal decisión.
Justamente, la toma de decisión respecto al contraste de hipótesis se puede realizar comparando…
A nivel teórico… Obtenido en la muestra…
Discrepancia Punto crítico Estadístico de contraste
Probabilidad asociada Nivel de significación o α Nivel crítico o p
Distribución muestral del estadístico
de contraste, siendo cierta H o
95 %
Punto crítico Punto crítico
α/ α/
Estadístico de contraste
(con su probabilidad associada)
¿dónde caerá?
¿qué valor hemos obtenido al calcularlo a partir de la muestra?
A partir de la muestra calculo el estadístico de contraste, en este caso: t d’student con la diferencia
obtenida: d (OH-C)
= 8 mseg t empírica
= 3.14 miro en las tablas qué valor p le corresponde p=0.
A partir de la distribución muestral del estadístico (suponiendo cierta hipótesis nula) & grados de
libertad (g.l.: 30-2=28) y α prefijada (0,05) miro en las tablas de t con 28 g.l. y para un NS del 0,05
valor o punto crítico: 1,7 o “ t teórica
= 1’7”; solo un punto crítico, dado que el contraste es unilateral.
Otras definiciones que podríamos encontrar de p , en consonancia con lo explicado hasta el momento,
serían:
suponemos que la hipótesis nula es cierta.
Si p es grande, la probabilidad de que nuestros resultados queden explicados por H o
también lo
es No rechazamos H o
Si por el contrario p es pequeña, la probabilidad de que nuestros resultados queden explicados
por H o
es pequeña Nuestros resultados quedan mejor explicados por H 1
, obtengamos unos datos iguales o más extremos a los
observados en la muestra.
(valor del estadístico calculado), suponiendo cierta H o
Una última puntualización. Cuando p es más pequeña que alfa… pueden haber ocurrido dos cosas: o bien la H o
es cierta y se ha producido una situación muy poco probable (pero no imposible), o bien la H o
es falsa. De hecho,
parece más lógico (o probable) inclinarse por la segunda opción, que descarta al azar como explicación del
resultado obtenido; ante tal evidencia el investigador opta por rechazar Ho asumiendo que esta afirmación tiene
un cierto riesgo o probabilidad de error, que se ha establecido en el 5% (siendo N.S. 0,05). Resulta importante
tener en cuenta que el punto a partir del cual consideramos que la H o
es falsa se establece de forma arbitraria,
según el N.C. y N.S. prefijados, pudiendo ser más o menos exigentes a la hora de rechazar H o
Resulta importante no hacer suposiciones erróneas entorno al concepto del valor p:
probabilidad de que los datos hayan sido producidos enteramente al azar.
de un resultado.
Distribución muestral de la t d’student,
siendo cierta H o
Nivel de confianza: 95%
t teórica
t empírica
Punto crítico
t teórica
& α: 0,05 > p=0.
Como apunte final, quedaría aclarar cómo sería el estadístico de contraste cuando trabajamos con más de una
variable. Para simplificar la comprensión nos remitiremos de nuevo a la relación entre dos variables, tal y como
aparece en el ejemplo de las diapositivas. *No hace falta comprender el denominador.
𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑒𝑔ú𝑛 𝐻𝑜, = 0
1
2
1
2
2
2
2
Medida de discrepancia o estadístico de contraste, discrepancia observada, p.ej: “t empírica”
Nivel crítico, valor p, grado de significación, error tipo I real
Punto crítico o valor crítico, p.ej: “t teórica”
Alfa (α), error tipo I o Nivel de Significación
Nivel de confianza o coeficiente confidencial
Intervalo de confianza o confidencial
Región de no rechazo o región de aceptación o región no crítica
Región de rechazo o región crítica
La medida de discrepancia o estadístico de contraste representa una medida de la discrepancia (o
diferencia) entre la información proporcionada por los datos empíricos recogidos en la muestra y la
proposición teórica planteada en la hipótesis nula. Se trata, en general, una medida estandarizada dentro
de alguna distribución de probabilidad, a semejanza de las vistas en el apartado anterior, y no depende
de las unidades en que esté medida la variable. Su formulación habitual es:
El nivel crítico (p) es la probabilidad asociada a la medida de discrepancia o estadístico de contraste.
Considerando cierta H o
, se trata de la probabilidad de obtener <<una diferencia entre el estadístico
obtenido en la muestra y el parámetro formulado en la H o
igual o mayor que <
>; dicho
de otro modo: considerando H o
cierta, la probabilidad de que el estadístico de contraste teórico sea igual
o mayor que el estadístico de contraste observado (calculado a partir de la muestra).
Cuando p es más pequeña que alfa… pueden haber ocurrido dos cosas: o bien la H o
es cierta y se ha
producido una situación muy poco probable (pero no imposible), o bien la H o
es falsa. Ante tal panorama,
nos inclinaremos por la segunda opción, descartando al azar como explicación del resultado obtenido.
Dado que en este apartado, <<Contraste de hipótesis>> , se incluyen parágrafos enteros que es necesario
conocer bien, y con ánimos de no extendernos excesivamente en este cuadro, se marca con el dibujo de
una bombilla aquello imprescindible de cara al examen.
En todas las técnicas estadísticas suponemos que las observaciones dentro de una muestra son
observaciones independientes o, lo que es lo mismo, que no existe relación entre ellas. Así, el valor de una
determinada puntuación no nos informa en absoluto del valor de otras puntuaciones dentro del mismo grupo.
Los ejemplos ofrecidos en el libro resultan útiles para captar lo expresado: Si un psicobiólogo quiere formar dos
grupos de ratas y todas las que coge primero van para el primer grupo y las últimas para el segundo grupo…
¿Qué puede pasar? Las medidas/observaciones que pueda tomar no serán independientes, pues el grupo 1
estará posiblemente formado por ratas que son más torpes; en cierta manera podríamos predecir el tiempo que
van a tardar en recorrer el laberinto en función del orden en que el experimentador las ha cogido. En este caso,
las puntuaciones dentro de cada grupo están relacionadas. Por otro lado, me voy de vacaciones un mes a Brasil
en la mejor época del año, pero al llegar el tiempo empeora progresivamente. Calculo la temperatura media de
esos días y acabo por concluir que la temperatura en Brasil es muy fría, con unos resultados significativos. Pero
si he tenido la mala suerte de que mi viaje ha coincidido con que la peor borrasca del siglo empezaba al aterrizar
mi avión en Brasil… Quizás observe que la temperatura ha descendido día tras día, de forma que, conociendo la
temperatura de un día cualquiera de mis vacaciones, puedo predecir que la del día siguiente será más baja. Sin
embargo, la conclusión a la que he llegado es errónea, pues los datos que he tomado no son independientes.
Así, tal y como se puede deducir después de los ejemplos, para garantizar la independencia de los datos dentro
de un grupo, la mejor opción es seleccionar los elementos de la muestra de forma aleatoria. Sin embargo,
también existen algunos contrastes de hipótesis para comprobar la independencia de las observaciones.
Si trabajamos con dos muestras (o más de dos) estas pueden ser independientes o relacionadas según
si existe, o no, relación entre las medidas/observaciones tomadas en un grupo con las tomadas en el otro. En el
caso de que sean dos o más muestras independientes , nos estaremos refiriendo a que no existe ninguna
relación entre los sujetos de un grupo u otro. Por el contrario, si se trata de muestras relacionadas , sí habrá
algún tipo de relación. El caso más frecuente es el de medidas repetidas: en un solo grupo con los mismos
sujetos, tomamos más de una medida en cada sujeto; varias medidas para un solo grupo de sujetos. Sin
embargo, la definición puede resultar un poco más amplia: tenemos muestras relacionadas cuando cada
observación en una muestra tiene su pareja en la otra. Podría tratarse, por ejemplo, de dos grupos formados a
partir de una muestra de hermanos gemelos, haciendo que – de cada par de gemelos – un hermano fuera a un
grupo y el otro al otro grupo. Los modelos de bloques, por ejemplo, también constituyen dos o más muestras
donde las medidas están relacionadas.
determinada puntuación no nos informa en absoluto del valor de otras dentro del mismo grupo.
frecuente es el de medidas repetidas (un solo grupo de sujetos en el que tomamos varias medidas)
pero pueden darse en otras circunstancias. (ver parágrafo)
La potencia de contraste se puede calcular en todo tipo de contraste de hipótesis, sea de la naturaleza
que sea y para todo tipo de investigación.
A diferencia de los contrastes de hipótesis, en el que ambas hipótesis (H o
y H 1
) han de ser exhaustivas y
mutuamente excluyentes, cuando queremos calcular la potencia de contraste debemos plantear una H o
y una
1
en las que sólo figure el signo “igual” (=). Sí, aunque parezca curioso, vamos a asignar un solo valor a H 1
. Dicho
de otro modo, necesitamos que tanto H o
como H 1
sean hipótesis simples.
Entonces, a partir del error tipo I (o alfa) obtenemos el valor o punto crítico del estadístico de contraste, que
determina las regiones de aceptación y rechazo; todo ello en la distribución muestral del estadístico de contraste
suponiendo cierta H o
, la famosa curva para el contraste de hipótesis. Llegados a este punto, para determinar el
error tipo II o beta, debemos saber dónde se encuentra este valor (o punto crítico del estadístico de contraste)
pero en la distribución muestral de H 1
, que podemos calcular a partir del valor único que le hemos asignado a la
1
. Una vez sabemos qué lugar ocupa dicho valor en la distribución de H 1
ya podremos calcular la probabilidad
para el error tipo II o beta y, por complementariedad, el valor para la potencia de contraste.
*Para una comprensión más extensa y detallada os remitimos al ejemplo de la página 75-77 del libro de la UNED.
En el caso de que la H 1
para la potencia de contraste sea una hipótesis compuesta (plantee más de un valor en
la población), la potencia de contraste variará en función de dos factores: la distancia entre el valor de la H o
y H 1
y el tamaño muestral. Así, para un mismo valor de alfa se podrán confeccionar curvas de potencia, que nos
permitirán saber cuánto vale la potencia según n y el valor de H 1
naturaleza que sea y para todo tipo de investigación.
debemos plantear dos hipótesis simples : una H o
y una H 1
en las que sólo figure el signo “igual” (=).
, para la potencia de contraste, sea una hipótesis compuesta , la potencia de
contraste variará en función de dos factores: la distancia entre el valor de la H o
y H 1
y el tamaño
muestral.