Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Distribución Muestral de Estadísticos: Concepto Clave para el Contraste de Hipótesis - Pro, Ejercicios de Estadística

El concepto clave de la distribución muestral de un estadístico en el contexto del temario de cede. Se aborda la distribución muestral de la media, la construcción de intervalos de confianza y el proceso de contraste de hipótesis. Se incluyen ejemplos y conceptos relacionados como la distribución binomial y la normal tipificada.

Tipo: Ejercicios

2017/2018

Subido el 28/05/2018

joe1212
joe1212 🇪🇸

3.7

(3)

7 documentos

1 / 21

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
Este material supone una ampliación de los conceptos básicos de la asignatura, que quedan recogidos
en el manual de CEDE y en las diapositivas; por ese motivo resulta fundamental dominar el resto del temario
antes de trabajar los contenidos que se explican a continuación. El material está elaborado principalmente a
partir del libro que se propone en la bibliografía complementaria y puede servir de guía para tal lectura.
*Recomendación: para seguir las explicaciones con mayor facilidad es recomendable la impresión a color.
Como punto relevante y diferencial del temario de CEDE, se introduce el concepto de distribución
muestral de un estadístico, punto clave para una buena comprensión sobre las propiedades de los estimadores
y sobre todo el proceso de contraste de hipótesis para la inferencia de parámetros en la población. Así, aparecen
y se matizan conceptos como el intervalo de confianza y error máximo de estimación, los estadísticos de
contraste y su probabilidad asociada, nivel crítico (p), etc. Sin embargo, para los que os falte tiempo para
embarcaros en semejante aventura, podéis centraros solo en los recuadros al final de cada apartado dónde se
recogen los principales conceptos a memorizar: ¿QUÉ HAY QUE SABER?”. Estos apartados también pueden
servir para centrarse en lo importante de haberos sumergido en la explicación más extensa.
Es importante dejar claro que el contenido de este material difícilmente se trabajará en clase de forma
extensa, debido a la limitación de tiempo para abarcar todo el temario y la complejidad del mismo. Sin embargo,
sí se harán alusiones cuando sea oportuno, además de clarificaciones para aquell@s que lo hayáis trabajado en
casa. Y, como siempre, si tenéis cualquier duda ¡mandad un e-mail!
Fundamentos básicos de la estadística inferencial; ampliación
Material elaborado por Persever
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Vista previa parcial del texto

¡Descarga Distribución Muestral de Estadísticos: Concepto Clave para el Contraste de Hipótesis - Pro y más Ejercicios en PDF de Estadística solo en Docsity!

Este material supone una ampliación de los conceptos básicos de la asignatura, que quedan recogidos

en el manual de CEDE y en las diapositivas; por ese motivo resulta fundamental dominar el resto del temario

antes de trabajar los contenidos que se explican a continuación. El material está elaborado principalmente a

partir del libro que se propone en la bibliografía complementaria y puede servir de guía para tal lectura.

*Recomendación: para seguir las explicaciones con mayor facilidad es recomendable la impresión a color.

Como punto relevante y diferencial del temario de CEDE, se introduce el concepto de distribución

muestral de un estadístico, punto clave para una buena comprensión sobre las propiedades de los estimadores

y sobre todo el proceso de contraste de hipótesis para la inferencia de parámetros en la población. Así, aparecen

y se matizan conceptos como el intervalo de confianza y error máximo de estimación, los estadísticos de

contraste y su probabilidad asociada, nivel crítico (p), etc. Sin embargo, para los que os falte tiempo para

embarcaros en semejante aventura, podéis centraros solo en los recuadros al final de cada apartado dónde se

recogen los principales conceptos a memorizar: “¿ QUÉ HAY QUE SABER? ”. Estos apartados también pueden

servir para centrarse en lo importante de haberos sumergido en la explicación más extensa.

Es importante dejar claro que el contenido de este material difícilmente se trabajará en clase de forma

extensa, debido a la limitación de tiempo para abarcar todo el temario y la complejidad del mismo. Sin embargo,

sí se harán alusiones cuando sea oportuno, además de clarificaciones para aquell@s que lo hayáis trabajado en

casa. Y, como siempre, si tenéis cualquier duda… ¡mandad un e-mail!

Fundamentos básicos de la estadística inferencial; ampliación

Material elaborado por Persever

Distribuciones: poblacional, de la muestra y muestral… diferenciando conceptos

DISTRIBUCIÓN DE LA POBLACIÓN O DISTRIBUCIÓN POBLACIONAL: Distribución de los datos en la población

Imaginemos que medimos una variable en una pequeña población de adolescentes: “nº de chicles consumidos

semanalmente”. A continuación, tenemos un esquema sobre la puntuación de cada individuo en la población:

POBLACIÓN, N = 30 Si contamos con todos los datos de la población, podemos calcular la

media y la varianza (y desviación típica) poblacionales:

Media: μ = 50

Desviación típica: ϭ = 30

Sin embargo, sólo disponemos de todos los datos de la población en escasas ocasiones. En la mayoría de los

casos trabajaremos con una muestra e intentaremos inferir los parámetros poblacionales; así los parámetros

poblacionales serán el objetivo que perseguirá el investigador mediante la estadística inferencial (contraste de

hipótesis, etc.) En general, cuando hablamos de parámetros poblacionales lo hacemos a un nivel teórico, cómo

hipótesis o supuesto.

DISTRIBUCIÓN DE LA MUESTRA:

Muestra, n=5 Distribución de la muestra

Media: 𝐱

*En el libro aparece como Y

Desviación típica: S = 21

Parámetros poblacionales

Estadísticos

  • 1 ϭ μ + 1 ϭ

1 99

3

97

6

94

90 10

15

85

22

20

80

78

45 55

64

70

48

52

30

75

25

27 73

50

40

50

60

36

99

3

97

90

94

15

6

55

45

64

22

85

18

82

25

73

75

27

78

40

60

70

30

50

36

10

1

48

52

50

10

70

50

60

36

10

50

60

36

70

DISTRIBUCIÓN POBLACIONAL:

El área debajo de la curva nos informa de la probabilidad para

un cierto intervalo de puntuaciones. Los valores van a ser más

probables cuanto más se acerquen al promedio y menos

probables cuanto más se acerquen a los extremos.

Por ej., la probabilidad para encontrar una puntuación entre 50 y

60 es mucho mayor que para un intervalo entre 80 y 90

Por lo que se refiere al parámetro << media de la distribución muestral de la media >> o μ

(media de todas las

medias de todas las posibles muestras de igual tamaño), ésta coincidirá siempre con la media de la población o

μ (1er apartado).  μ

= μ

**La media (o valor medio) de una variable aleatoria, en términos de probabilidad, también recibe el nombre

de “valor esperado” o “esperanza matemática”.

En relación al parámetro << desviación típica de la distribución muestral de la media >> o ϭ

también recibe el

nombre de error típico de la media. Se considera error puesto que se aleja de la media de la distribución muestral

del estadístico en cuestión, media que coincide con el valor del parámetro en la población (como hemos

comentado justo en el parágrafo anterior).

FORMA DE LA DISTRIBUCIÓN MUESTRAL DE LA MEDIA ARITMÉTICA:

La distribución muestral de la media será normal si se cumple al menos una de las siguientes condiciones:

  • La variable que estamos estudiando en la población (nº chicles semanales) se distribuye normalmente.
  • La muestra es grande: n ≥ 30 (en la mayoría de los casos que puedan darse en ciencias sociales).

Para realizar inferencias estadísticas sobre la media aritmética, procederemos de forma diferente según si

conocemos o desconocemos la varianza poblacional:

  • Si conocemos la varianza poblacional  distribución Normal  Puntuaciones Z
  • Si desconocemos varianza poblacional  distribución T d’Student con n-1 grados de libertad; aunque si

n>100 se pueden utilizar los valores Z de las tablas de la curva normal.

Teorema Central del Límite:

(¿cómo será la distribución muestral de la media, sin importar la forma de la distribución poblacional?)

  • La distribución muestral de la media se aproximará más a la normal a mayor tamaño de la muestra (n).
  • Cuánto más diferente de la normal sea la distribución de la variable en la población  mayor tendrá

que ser n para que la distribución muestral de la media se distribuya normalmente.

OTRAS DISTRIBUCIONES MUESTRALES:

En todas las posibles muestras del mismo tamaño extraídas de la población (como algo hipotético) no sólo se

puede calcular la media aritmética, sino que también se pueden calcular otros estadísticos cómo la varianza,

desviación típica, etc. Así, por ejemplo, con todas las puntuaciones de todas las varianzas se originaria una nueva

distribución: distribución muestral de la varianza, que contaría con su propia media, varianza y desviación típica.

En el libro de la UNED, además de la media, especifican otras dos distribuciones muestrales: la varianza y la

proporción.

¿Qué queremos mirar? PARAMÉTRICAS

1 V Media

T (varianza desconocida)

Z (varianza conocida)

 El proceso de construcción de la distribución muestral de la varianza es complejo. La variable aleatoria

que nos permitirá realizar afirmaciones sobre la varianza poblacional se distribuye según Chi-cuadrado

(con n-1 grados de libertad).

 La distribución muestral de la proporción sigue el modelo de probabilidad binomial. Como ya sabemos,

la distribución binomial se aproxima a la normal cuando aumenta el tamaño de la muestra, por lo que

se puede generar una nueva variable cuya distribución es la normal tipificada.

  • La media de la distribución muestral de un estadístico (valor esperado del estadístico) coincide con

el valor de tal estadístico en la población.

*Por ej.: la media de la distribución muestral de la varianza coincide con el valor de la varianza en la población.

  • La media de la distribución muestral de la media coincide con la media de la población o μ.
  • La desviación típica de la distribución muestral de un estadístico recibe también el nombre de error

típico o error estándar.

  • Cuanto mayor es el tamaño de la muestra, menor es el error típico del estadístico.

*Hay fórmulas que permiten al investigador calcular el tamaño de la muestra en función del error máximo que

se está dispuesto a admitir y del nivel de confianza que se adoptará para el contraste de hipótesis.

  • La distribución muestral de la varianza se distribuye según Chi-cuadrado.
  • La distribución muestral de la proporción se distribuye según la binomial  al aumentar tamaño de

la muestra  distribución: normal tipificada.

¿ QUÉ HAY QUE SABER?

Distribuciones muestrales de los estadísticos e intervalos de confianza

Para empezar, y antes de entrar en materia sobre las distribuciones muestrales de los estadísticos y la

construcción de los intervalos de confianza (vs. estimación puntual), vamos a repasar algunos conceptos

importantes sobre la curva normal y las puntuaciones Z.

En una distribución normal conocemos la probabilidad de “sus valores” tipificados (puesto que conocemos su

forma). Se escribe “sus valores” entre comillas porque, de hecho, no podemos saber la probabilidad de un valor

concreto sino la probabilidad para un intervalo (entre dos valores cualquiera).

Si mido una variable X en una muestra tendré distintas puntuaciones directas, una para cada uno de los sujetos

de mi muestra; así podré calcular el estadístico media aritmética y varianza. Una vez hecho esto, puedo tipificar

las puntuaciones directas, es decir, pasarlas a puntuaciones típicas, Z o estándares:

(*puedo tipificar independientemente de la forma de la distribución de la variable)

Entonces, partiendo de que la variable X se distribuye según la normal, podré saber qué probabilidad tiene “cada

una de mis puntuaciones directas*

1

”, en cuanto las haya pasado a Z’s. Por ejemplo, la probabilidad de obtener

una Z dentro del intervalo entre Z= +1 y Z= +2 es de 13’59%.

(*

1

de forma correcta estrictamente, no sabré la probabilidad para un valor concreto sino la probabilidad para un intervalo)

De la misma forma, si la variable X se distribuyera según la T d’Student, igualmente podría conocer la

probabilidad para un cierto intervalo de puntuaciones. Sin embargo, la distribución T adopta distintas formas

según los grados de libertad (con un cálculo distinto para cada tipo de diseño y situación experimental)*

2

variando tales formas y sus probabilidades asociadas según el tamaño de la muestra (n). De hecho, sabemos que

cuando aumentan los grados de libertad (al aumentar el tamaño de la muestra, n) la distribución T se parece

cada vez más a una distribución normal.

2

En diseños con una sola muestra: g.l.=n-1; para dos muestras (y cumpliéndose homocedasticidad): g.l.= n 1

  • 1 + n 2 - 1; etc.

DISTRIBUCIÓN MUESTRAL E INTERVALO DE CONFIANZA PARA LA MEDIA

En este apartado se explica la distribución muestral del estadístico media (ya visto en el apartado inicial), junto

a la construcción de su intervalo de confianza, ambos aspectos clave para el contraste de hipótesis.

Sin embargo, antes de empezar, es importante clarificar que – hasta el presente apartado – hemos hablado de

diseños con una sola muestra (y no sobre medidas independientes o relacionadas): cómo estimar el valor de un

parámetro en la población a partir de un estadístico calculado en una muestra. Por ejemplo: a partir de la media

aritmética (𝐱̅) obtenida en mi muestra… ¿cómo infiero el parámetro media (μ)en la población?

x

i

i

s

x x

z

95’44%

2,28%

34’13%

13,59%

3 4’13%

’13%

1 3’59%

,59%

2,28%

Puntuaciones Z - 2 - 1 0 + 1 + 2

Por ello, resulta importante recalcar que - de momento - no vamos a analizar la inferencia sobre diferencias

entre grupos (esto se dará en el próximo apartado). Para ubicarnos en el cuadro de los últimos temas de la

asignatura:

Así, como ya hemos mencionado, partimos de una sola muestra en la que calculamos la media (estadístico media

en la muestra: 𝐱̅). Ésta media difícilmente se corresponderá con exactitud con la media de la población, por ello

es importante construir un intervalo de confianza. Se trata, por tanto, de determinar dos valores que definen

un intervalo, dentro del cual estimamos que se encontrará la media poblacional (μ) con una determinada

probabilidad, 1 - α o nivel de confianza. Dicho de otra forma, si tomáramos 100 veces una muestra al azar de la

misma población y calculáramos la media de esas 100 muestras, en 95*

3

de esas 100 muestras su media se

encontraría dentro de ese intervalo que hemos definido como intervalo de confianza. (*

3

siendo N.C. de 0,95)

¿Pero, cómo lo calculamos? Se explica a continuación todo el proceso.

Teniendo en cuenta las propiedades de la distribución normal si, por ejemplo, fijamos un nivel de confianza del

1 - α = 0,95 o, lo que es lo mismo, del 95%  Sabemos que el intervalo quedará entre Z = - 1,96 y Z= +1,96.

Además, podemos imaginar lo mismo aplicado a la distribución muestral de la media , donde la puntuación

típica Z = 0 se corresponde con la media de la distribución muestral de la media (μ

𝐱̅

), que como ya se ha

comentado, se corresponde con la media poblacional (μ). Así, entre Z = - 1,96 y Z= +1,96 se encuentran el 95%

de las medias de cualquier muestra (eso sí, expresado en puntuaciones típicas o Z). O, lo que es lo mismo, en 95

de cada 100 muestras en que calculáramos la media, ésta se encontraría dentro del intervalo Z = ±1,96.

No obstante, también podemos dibujar la distribución muestral de la media con las puntuaciones directas,

representando la distribución de probabilidad de las diferentes medias obtenidas al extraer de la población

todas las posibles muestras del mismo tamaño (n). Recuperando el ejemplo del apartado inicial:

El intervalo de confianza se construye sumando y restando a la media de la muestra una cantidad que se define

como error máximo de estimación con un nivel de confianza del 95% en este caso, y que representa la máxima

diferencia que puede existir entre el estimador (𝐱̅) y el parámetro a estimar (μ).

¿Qué queremos mirar? NO PARAMÉTRICAS PARAMÉTRICAS

1 V Media

T (varianza desconocida)

Z (varianza conocida)

Error máximo

de estimación

μ

𝐱̅

= 50 ϭ

𝐱̅

μ

𝐱̅

  • 1'96 ϭ

𝐱̅

+1'96 ϭ

𝐱̅

95 %

μ

𝐱̅

= μ

0

Puntuaciones Z

**- 1,

  • 1,**

95 % (Nivel de confianza)

No debemos caer en el error de interpretarlo en el sentido de que, siguiendo el ejemplo, el 95% de las

personas de la población comerán un promedio de chicles semanales comprendido entre 25,4 y 64,6.

Si obtenemos en la muestra una media que se encuentra en la zona sombreada, fuera de la zona central del

95%, el intervalo de confianza que construyamos sobre ella no podrá incluir entre sus valores la media de la

población. Siguiendo con la interpretación de ello, esto sucederá tan solo con una probabilidad del 5% o, lo que

es lo mismo, en un promedio de 5 de cada 100 muestras que extraigamos de la población. En el ejemplo:

DISTRIBUCIÓN MUESTRAL E INTERVALO DE CONFIANZA PARA MEDIDAS INDEPENDIENTES

Para la explicación de este apartado, vamos a tomar como referencia la relación entre 2 variables, siguiendo el

ejemplo de las diapositivas: variable Independiente  consumo/no consumo de alcohol y variable Dependiente

 medida del tiempo de reacción. Los valores de la variable Independiente nos servirán para dividir la población

en dos subgrupos y en cada uno de ellos mediremos el tiempo de reacción, calculando así la media aritmética

(y la varianza) para cada uno de los grupos.

+1'96 ϭ

𝐱̅

μ

𝐱̅

95 %

  • 1'96 ϭ

𝐱̅

𝐱̅

El intervalo de confianza

 Intervalo dentro del cual estimamos que se encontrará la media poblacional, μ, con una determinada

probabilidad, 1 - α o nivel de confianza. Dicho de otra forma, si tomáramos 100 veces una muestra al

azar de la misma población y calculáramos la media de esas 100 muestras, en 95*

3

de esas 100

muestras su media se encontraría dentro de ese intervalo que hemos definido como intervalo de

confianza. (*

3

siendo N.C. de 0,95)

 Se construye sumando y restando a la media de la muestra una cantidad que se define como error

máximo de estimación con un nivel de confianza (95%, 99%, etc. dependiendo del caso)

 El error máximo de estimación representa la máxima diferencia que puede existir entre el estimador

(𝐱̅) y el parámetro a estimar (μ).

 Si obtenemos en la muestra una media que se encuentra fuera de la zona central o de aceptación, el

intervalo de confianza que construyamos sobre ella no podrá incluir entre sus valores la media de la

población.

¿ QUÉ HAY QUE SABER?

Como se puede observar en la imagen, una vez hecho esto, se calcula la diferencia entre ambas medias y será,

justamente esta diferencia o comparación entre medias, la que someteremos a contraste.

Pero no nos adelantemos… la finalidad de este apartado es facilitar la comprensión sobre la distribución

muestral e intervalo de confianza, dejando para más adelante el procedimiento para el contraste de hipótesis.

Como ya bien sabemos, la distribución muestral de un estadístico es aquella que resulta del cálculo de tal

estadístico en todas las posibles muestras de igual tamaño que podríamos extraer de la población. Recordemos

que se trata de un concepto que manejamos a nivel teórico y cobra su sentido al hablarnos de probabilidad.

Recordando uno de los parágrafos del apartado inicial…

<<Imaginemos un escenario hipotético en el que pudiéramos extraer todas las muestras posibles de la

población… y que en cada una de ellas pudiéramos realizar una medida de la variable de interés. Bien, dejando

claro entonces que se trata de un razonamiento a nivel teórico (no real): Sacamos todas las posibles muestras

del mismo tamaño (p.ej: n=5) y en cada una de ellas calculamos la media aritmética de la variable de interés.>>

En el caso de medidas independientes, no difiere mucho de lo ya expresado: Imaginemos de nuevo un escenario

hipotético en el que dividiéramos la población en dos subgrupos; siguiendo el ejemplo planteado en las

diapositivas: un subgrupo poblacional que consume alcohol i otro subgrupo que no lo consume. Imaginemos

también que pudiéramos extraer todas las muestras posibles de cada uno de los dos subgrupos la población. Así

tendríamos todas las muestras posibles de la subpoblación 1 (OH) y todas las muestras posibles de la

subpoblación 2 (no OH). Entonces, en cada una de estas muestras de la subpoblación 1 calculamos la media y,

asimismo, realizamos también dicho proceso en la subpoblación 2. Llegados a este punto, sólo nos faltaría

calcular todas las posibles diferencias entre las posibles medias de una subpoblación y la otra, tal y como se

ejemplifica con las líneas punteadas. Así obtendríamos todas las posibles diferencias de medias aritméticas.

Todas estas posibles diferencias de medias aritméticas constituirían una nueva variable, con su distribución de

probabilidad: “la distribución muestral de las diferencias entre medias”. A su vez, de la misma manera que se ha

explicado anteriormente, podríamos calcular la media de todas estas posibles diferencias entre medias.

𝑥ҧ 3

𝑥ҧ 5

𝑥ҧ 1

𝑥ҧ 4

𝑥ҧ 2

Etc.

𝑥ҧ 3

𝑥ҧ 5

𝑥ҧ 1

𝑥ҧ 4

𝑥ҧ 2

Etc.

Subpoblación 1

Subpoblación 2

Contraste de hipótesis

Hasta aquí, hemos visto como formular intervalos de confianza y distribuciones muestrales de distintos

estadísticos; ahora vamos a entrar en el contraste de hipótesis y comprender la famosa curva el contraste de

hipótesis, que tanto aparece en el libro de CEDE y en las diapositivas, con sus zonas de aceptación y de rechazo,

delimitadas por los puntos críticos en el caso de un contraste bilateral (o delimitadas por un solo punto crítico

en el caso de un contraste unilateral), etc.

Para tal propósito, resulta esencial iniciar la explicación con el concepto de medida de discrepancia o estadístico

de contraste. El estadístico de contraste representa una medida de la discrepancia (o diferencia) entre la

información proporcionada por los datos empíricos recogidos en la muestra y la proposición teórica planteada

en la hipótesis nula. Se trata, en general, una medida estandarizada dentro de alguna distribución de

probabilidad, a semejanza de las vistas en el apartado anterior, y no depende de las unidades en que esté medida

la variable. Su formulación habitual es:

𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 =

(𝑉𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎) − (𝑉𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑝𝑙𝑎𝑛𝑡𝑒𝑎𝑑𝑜 𝑒𝑛 𝐻𝑜)

𝐷𝑒𝑠𝑣. 𝑡í𝑝𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒𝑙 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑜 𝑒𝑟𝑟𝑜𝑟 𝑡í𝑝𝑖𝑐𝑜

Simplificándolo para una mejor comprensión, vamos a fijarnos únicamente en el numerador: ¿Lo que he

obtenido en la muestra es muy diferente a lo que plantea la Hipótesis nula? De hecho, ¿esa diferencia es

suficientemente grande como para descartar la Hipótesis nula y aceptar la H alternativa? ¿o, por el contrario, es

una diferencia pequeña que puede ser debida al azar, por lo que no rechazo H o

El valor de la discrepancia se establece también en términos de probabilidad, conocida como nivel crítico (p) o

grado de significación, que es la probabilidad asociada a la medida de discrepancia o estadístico de contraste.

*Error en diapositivas del año pasado: Valor crítico no es sinónimo de nivel crítico, valor crítico=punto crítico

Dicho esto, y antes de entrar en definiciones más precisas, vamos a parar y pensar en un plano teórico :

Si consideramos cierta H o

, ¿cómo debería ser ésta discrepancia? ¿cómo debería ser ésta diferencia entre lo

obtenido en la muestra y lo planteado en la Ho? ¡Muy bien! Evidentemente: pequeña. Y formulado en términos

de probabilidad podemos decir que va a ser muy probable que, siendo cierta H o

, la diferencia (entre lo obtenido

en la muestra y lo planteado en H o

) sea muy pequeña; mientras que va a ser poco probable que tal diferencia

sea grande.  Siendo H o

cierta, va a ser muy probable que el valor del estadístico de contraste sea más bien

pequeño y, a su vez, va a ser poco probable que dicho valor (el del estadístico de contraste) sea grande.

Aclarado este punto, podemos imaginar, a nivel teórico , una curva de probabilidad que contemple los distintos

posibles valores para el estadístico de contraste, con su probabilidad asociada: La distribución muestral del

estadístico de contraste, considerando cierta H o

; sus valores son todos los posibles estadísticos de contraste.

El valor de mayor probabilidad para el

estadístico de contraste es 0 o, lo que es

lo mismo, una nula diferencia entre lo

obtenido en la muestra y lo postulado

según H o

en la población.

Aun así, puede ocurrir que en la muestra se observe cierta discrepancia con lo esperado a nivel poblacional

según H o

y que igualmente H o

sea cierta; diremos entonces que la diferencia es debida al azar. A medida que los

valores del estadístico de contraste se alejen de este valor central (0), su probabilidad para quedar explicados

desde la H o

será cada vez menor.

95 %

Cuando hablamos de alejarse del valor central (0) nos referimos a un valor del estadístico de contraste tanto por

encima como por debajo de 0. Por este motivo, la medida de discrepancia se contempla en valores absolutos

(sin números negativos). Cuando hablamos de si aumenta (o disminuye) el valor del estadístico de contraste nos

estamos refiriendo a que aumenta la medida de discrepancia entre el estadístico obtenido en la muestra y lo

que se plantea en H o

Pero… ¿Cómo sabemos que la diferencia es grande o pequeña? ¿Qué diferencia considero fruto del azar y qué

otra como prueba de que H o

es falsa? ¿A partir de qué valor del estadístico de contraste considero que lo

encontrado en la muestra es, o no es, compatible con H o

Llegados a este punto se hace necesario diferenciar entre “dos posibles valores del estadístico de contraste”,

cada uno de ellos con su probabilidad asociada.

  • Por un lado, tenemos el estadístico de contraste obtenido a partir de la muestra, con su probabilidad

asociada: nivel crítico o p o grado de significación.

  • Y, por otro lado, el concepto equivalente al estadístico de contraste “teórico”: los puntos o valores

críticos en caso de contraste bilateral (o un solo punto crítico en el caso de un contraste unilateral), con

su probabilidad asociada: α. Como ya debéis saber, los puntos críticos son aquellos que delimitan las

zonas críticas o de rechazo y, en consecuencia, la zona de aceptación con su probabilidad NC o 1-α.

Pero… ¿qué quiere decir el equivalente “teórico”? Como ya se ha relatado, la distribución muestral del

estadístico de contraste – considerando cierta H o

  • contempla todos los posibles valores estadísticos de

contraste con sus probabilidades asociadas, probabilidades marcadas por el hecho que partimos de que H o

es

verdadera. Como también hemos comentado, cuando el valor del estadístico de contraste se aleja de 0 debemos

discernir si es por razones de azar o si, por el contrario, se explica porque H o

es falsa. Llegados a este punto de

la explicación, resulta fácil comprender que son los puntos o valores críticos los que nos marcaran los límites

para tomar tal decisión.

Justamente, la toma de decisión respecto al contraste de hipótesis se puede realizar comparando…

A nivel teórico… Obtenido en la muestra…

Discrepancia Punto crítico Estadístico de contraste

Probabilidad asociada Nivel de significación o α Nivel crítico o p

Distribución muestral del estadístico

de contraste, siendo cierta H o

95 %

Punto crítico Punto crítico

α/ α/

Estadístico de contraste

(con su probabilidad associada)

¿dónde caerá?

¿qué valor hemos obtenido al calcularlo a partir de la muestra?

 A partir de la muestra  calculo el estadístico de contraste, en este caso: t d’student con la diferencia

obtenida: d (OH-C)

= 8 mseg  t empírica

= 3.14  miro en las tablas qué valor p le corresponde  p=0.

 A partir de la distribución muestral del estadístico (suponiendo cierta hipótesis nula) & grados de

libertad (g.l.: 30-2=28) y α prefijada (0,05)  miro en las tablas de t con 28 g.l. y para un NS del 0,05 

valor o punto crítico: 1,7 o “ t teórica

= 1’7”; solo un punto crítico, dado que el contraste es unilateral.

Otras definiciones que podríamos encontrar de p , en consonancia con lo explicado hasta el momento,

serían:

  • El valor p nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido si

suponemos que la hipótesis nula es cierta.

  • La probabilidad de que nuestros resultados queden explicados por H o

 Si p es grande, la probabilidad de que nuestros resultados queden explicados por H o

también lo

es  No rechazamos H o

 Si por el contrario p es pequeña, la probabilidad de que nuestros resultados queden explicados

por H o

es pequeña  Nuestros resultados quedan mejor explicados por H 1

  • La probabilidad de que, siendo cierta H o

, obtengamos unos datos iguales o más extremos a los

observados en la muestra.

  • La probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido

(valor del estadístico calculado), suponiendo cierta H o

Una última puntualización. Cuando p es más pequeña que alfa… pueden haber ocurrido dos cosas: o bien la H o

es cierta y se ha producido una situación muy poco probable (pero no imposible), o bien la H o

es falsa. De hecho,

parece más lógico (o probable) inclinarse por la segunda opción, que descarta al azar como explicación del

resultado obtenido; ante tal evidencia el investigador opta por rechazar Ho asumiendo que esta afirmación tiene

un cierto riesgo o probabilidad de error, que se ha establecido en el 5% (siendo N.S. 0,05). Resulta importante

tener en cuenta que el punto a partir del cual consideramos que la H o

es falsa se establece de forma arbitraria,

según el N.C. y N.S. prefijados, pudiendo ser más o menos exigentes a la hora de rechazar H o

Resulta importante no hacer suposiciones erróneas entorno al concepto del valor p:

  • Los valores p no miden la probabilidad de que la hipótesis nula sea cierta, ni tampoco la

probabilidad de que los datos hayan sido producidos enteramente al azar.

  • Ni el valor p ni la significación estadística miden el tamaño de un efecto o la importancia

de un resultado.

Distribución muestral de la t d’student,

siendo cierta H o

Nivel de confianza: 95%

t teórica

t empírica

Punto crítico

t teórica

ZONA DE ACEPTACIÓN

ZONA DE

RECHAZO

& α: 0,05 > p=0.

Como apunte final, quedaría aclarar cómo sería el estadístico de contraste cuando trabajamos con más de una

variable. Para simplificar la comprensión nos remitiremos de nuevo a la relación entre dos variables, tal y como

aparece en el ejemplo de las diapositivas. *No hace falta comprender el denominador.

𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑒𝑔ú𝑛 𝐻𝑜, = 0

1

2

1

2

2

2

2

SINÓNIMOS A MEMORIZAR:

 Medida de discrepancia o estadístico de contraste, discrepancia observada, p.ej: “t empírica”

 Nivel crítico, valor p, grado de significación, error tipo I real

 Punto crítico o valor crítico, p.ej: “t teórica”

 Alfa (α), error tipo I o Nivel de Significación

 Nivel de confianza o coeficiente confidencial

 Intervalo de confianza o confidencial

 Región de no rechazo o región de aceptación o región no crítica

 Región de rechazo o región crítica

La medida de discrepancia o estadístico de contraste representa una medida de la discrepancia (o

diferencia) entre la información proporcionada por los datos empíricos recogidos en la muestra y la

proposición teórica planteada en la hipótesis nula. Se trata, en general, una medida estandarizada dentro

de alguna distribución de probabilidad, a semejanza de las vistas en el apartado anterior, y no depende

de las unidades en que esté medida la variable. Su formulación habitual es:

El nivel crítico (p) es la probabilidad asociada a la medida de discrepancia o estadístico de contraste.

Considerando cierta H o

, se trata de la probabilidad de obtener <<una diferencia entre el estadístico

obtenido en la muestra y el parámetro formulado en la H o

igual o mayor que <>; dicho

de otro modo: considerando H o

cierta, la probabilidad de que el estadístico de contraste teórico sea igual

o mayor que el estadístico de contraste observado (calculado a partir de la muestra).

Cuando p es más pequeña que alfa… pueden haber ocurrido dos cosas: o bien la H o

es cierta y se ha

producido una situación muy poco probable (pero no imposible), o bien la H o

es falsa. Ante tal panorama,

nos inclinaremos por la segunda opción, descartando al azar como explicación del resultado obtenido.

Dado que en este apartado, <<Contraste de hipótesis>> , se incluyen parágrafos enteros que es necesario

conocer bien, y con ánimos de no extendernos excesivamente en este cuadro, se marca con el dibujo de

una bombilla aquello imprescindible de cara al examen.

¿ QUÉ HAY QUE SABER?

Algunos matices sobre “independiendencia” y “relación”

En todas las técnicas estadísticas suponemos que las observaciones dentro de una muestra son

observaciones independientes o, lo que es lo mismo, que no existe relación entre ellas. Así, el valor de una

determinada puntuación no nos informa en absoluto del valor de otras puntuaciones dentro del mismo grupo.

Los ejemplos ofrecidos en el libro resultan útiles para captar lo expresado: Si un psicobiólogo quiere formar dos

grupos de ratas y todas las que coge primero van para el primer grupo y las últimas para el segundo grupo…

¿Qué puede pasar? Las medidas/observaciones que pueda tomar no serán independientes, pues el grupo 1

estará posiblemente formado por ratas que son más torpes; en cierta manera podríamos predecir el tiempo que

van a tardar en recorrer el laberinto en función del orden en que el experimentador las ha cogido. En este caso,

las puntuaciones dentro de cada grupo están relacionadas. Por otro lado, me voy de vacaciones un mes a Brasil

en la mejor época del año, pero al llegar el tiempo empeora progresivamente. Calculo la temperatura media de

esos días y acabo por concluir que la temperatura en Brasil es muy fría, con unos resultados significativos. Pero

si he tenido la mala suerte de que mi viaje ha coincidido con que la peor borrasca del siglo empezaba al aterrizar

mi avión en Brasil… Quizás observe que la temperatura ha descendido día tras día, de forma que, conociendo la

temperatura de un día cualquiera de mis vacaciones, puedo predecir que la del día siguiente será más baja. Sin

embargo, la conclusión a la que he llegado es errónea, pues los datos que he tomado no son independientes.

Así, tal y como se puede deducir después de los ejemplos, para garantizar la independencia de los datos dentro

de un grupo, la mejor opción es seleccionar los elementos de la muestra de forma aleatoria. Sin embargo,

también existen algunos contrastes de hipótesis para comprobar la independencia de las observaciones.

Si trabajamos con dos muestras (o más de dos) estas pueden ser independientes o relacionadas según

si existe, o no, relación entre las medidas/observaciones tomadas en un grupo con las tomadas en el otro. En el

caso de que sean dos o más muestras independientes , nos estaremos refiriendo a que no existe ninguna

relación entre los sujetos de un grupo u otro. Por el contrario, si se trata de muestras relacionadas , sí habrá

algún tipo de relación. El caso más frecuente es el de medidas repetidas: en un solo grupo con los mismos

sujetos, tomamos más de una medida en cada sujeto; varias medidas para un solo grupo de sujetos. Sin

embargo, la definición puede resultar un poco más amplia: tenemos muestras relacionadas cuando cada

observación en una muestra tiene su pareja en la otra. Podría tratarse, por ejemplo, de dos grupos formados a

partir de una muestra de hermanos gemelos, haciendo que – de cada par de gemelos – un hermano fuera a un

grupo y el otro al otro grupo. Los modelos de bloques, por ejemplo, también constituyen dos o más muestras

donde las medidas están relacionadas.

  • Observaciones independientes en una muestra: no existe relación entre ellas, el valor de una

determinada puntuación no nos informa en absoluto del valor de otras dentro del mismo grupo.

  • Muestras independientes : no existe ninguna relación entre los sujetos de un grupo u otro.
  • Muestras relacionadas: cada observación en una muestra tiene su pareja en la otra. El caso más

frecuente es el de medidas repetidas (un solo grupo de sujetos en el que tomamos varias medidas)

pero pueden darse en otras circunstancias. (ver parágrafo)

¿ QUÉ HAY QUE SABER?

La potencia de contraste

La potencia de contraste se puede calcular en todo tipo de contraste de hipótesis, sea de la naturaleza

que sea y para todo tipo de investigación.

A diferencia de los contrastes de hipótesis, en el que ambas hipótesis (H o

y H 1

) han de ser exhaustivas y

mutuamente excluyentes, cuando queremos calcular la potencia de contraste debemos plantear una H o

y una

H

1

en las que sólo figure el signo “igual” (=). Sí, aunque parezca curioso, vamos a asignar un solo valor a H 1

. Dicho

de otro modo, necesitamos que tanto H o

como H 1

sean hipótesis simples.

Entonces, a partir del error tipo I (o alfa) obtenemos el valor o punto crítico del estadístico de contraste, que

determina las regiones de aceptación y rechazo; todo ello en la distribución muestral del estadístico de contraste

suponiendo cierta H o

, la famosa curva para el contraste de hipótesis. Llegados a este punto, para determinar el

error tipo II o beta, debemos saber dónde se encuentra este valor (o punto crítico del estadístico de contraste)

pero en la distribución muestral de H 1

, que podemos calcular a partir del valor único que le hemos asignado a la

H

1

. Una vez sabemos qué lugar ocupa dicho valor en la distribución de H 1

ya podremos calcular la probabilidad

para el error tipo II o beta y, por complementariedad, el valor para la potencia de contraste.

*Para una comprensión más extensa y detallada os remitimos al ejemplo de la página 75-77 del libro de la UNED.

En el caso de que la H 1

para la potencia de contraste sea una hipótesis compuesta (plantee más de un valor en

la población), la potencia de contraste variará en función de dos factores: la distancia entre el valor de la H o

y H 1

y el tamaño muestral. Así, para un mismo valor de alfa se podrán confeccionar curvas de potencia, que nos

permitirán saber cuánto vale la potencia según n y el valor de H 1

  • La potencia de contraste se puede calcular en todo tipo de contraste de hipótesis, sea de la

naturaleza que sea y para todo tipo de investigación.

  • Para calcular la potencia de contraste, a diferencia de lo que ocurre en el contraste de hipótesis,

debemos plantear dos hipótesis simples : una H o

y una H 1

en las que sólo figure el signo “igual” (=).

  • En el caso de que la H 1

, para la potencia de contraste, sea una hipótesis compuesta , la potencia de

contraste variará en función de dos factores: la distancia entre el valor de la H o

y H 1

y el tamaño

muestral.

¿ QUÉ HAY QUE SABER?