Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Comparación de Medias: Colesterol en Diabéticos y No Diabéticos - Prof. Segura Fragoso, Apuntes de Estadística

Un análisis estadístico sobre las diferencias de niveles de colesterol entre diabéticos y no diabéticos. El texto explica la hipótesis nula y alternativa, el cálculo del estadístico de contraste t y su comparación con las tablas de probabilidad para determinar si las medias son significativamente diferentes. Además, se analiza un segundo caso sobre la comparación de medias de ganancia de peso entre dos grupos de ratas con diferentes dietas.

Tipo: Apuntes

2012/2013

Subido el 29/11/2013

riensita
riensita 🇪🇸

4.4

(96)

80 documentos

1 / 18

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Comparación de dos medias.
1
APUNTES
DE
BIOESTADÍSTICA APLICADA
EN
CIENCIAS DE LA SALUD
Capítulo 9
Contraste de Hipótesis. Comparación de dos medias.
El test t de Student para muestras independientes.
Antonio Segura Fragoso
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Vista previa parcial del texto

¡Descarga Comparación de Medias: Colesterol en Diabéticos y No Diabéticos - Prof. Segura Fragoso y más Apuntes en PDF de Estadística solo en Docsity!

APUNTES

DE

BIOESTADÍSTICA APLICADA

EN

CIENCIAS DE LA SALUD

Capítulo 9

Contraste de Hipótesis. Comparación de dos medias.

El test t de Student para muestras independientes.

Antonio Segura Fragoso

RELACIÓN ENTRE UNA VARIABLE CUALITATIVA Y OTRA

CUANTITATIVA. COMPARACIÓN DE DOS MEDIAS OBSERVADAS.

El test t de Student

En Ciencias de la salud es bastante frecuente comparar las medias de una variable cuantitativa observadas en dos subgrupos independientes de una variable cualitativa. Por ejemplo, comparar el nivel medio de colesterol en los diabéticos y no diabéticos. La prueba estadística se denomina homogeneidad de dos medias. Trataremos a continuación el caso de muestras independientes, tanto sean muestras grandes (n>30) como muestras pequeñas.

Ejemplo: Utilizaremos de nuevo datos del estudio TALARISK. Estamos interesados en saber si las personas diabéticas tienen niveles de colesterol similares a los no diabéticos o si, por el contrario, hay diferencias entre estos grupos de sujetos.

En primer lugar exploraremos los datos para tener una idea de cómo son. Para ello confeccionamos una tabla en la que se muestren las medias de colesterol en diabéticos y no diabéticos. Una de las variables (DIABETES) es cualitativa (categórica) dicotómica (tiene dos clases SI/NO) y la otra variable COLESTEROL es continua.

Estos son los datos observados en la muestra (Tabla 9.1):

Tabla 9.

Niveles medios de colesterol en diabéticos y no diabéticos

Medias de colesterol en Diabéticos (M1) y no diabéticos (M2)

Estas medias son bastante diferentes. La diferencia es de 19,5 mg/dl. Es mucho más alta la media de colesterol en No diabéticos.

Pero…….. ésta diferencia observada ¿es real o podría ser explicada por el azar del muestreo?

Nº de sujetos en cada grupo

Una vez planteada la pregunta y observados los datos, seguiremos los pasos habituales para realizar el contraste de hipótesis:

1 2

n

Varianzacomún

n

Varianzacomún

M M

t

Siendo: M1 y M2 las medias de colesterol en NO diabéticos y diabéticos. Varianza común es la es la media ponderada de las dos varianzas de los diabéticos y no diabéticos (a continuación explicaremos la forma de cálculo).

A la vista de la fórmula, vemos cómo el numerador expresa las diferencias o discrepancias entre las dos medias.

3.- Definir el nivel de significación (α).

Tomaremos el nivel habitual, α = 0,05.

4.- Calcular el valor del estadístico de contraste

1 2

1 2

n

Varianzacomún

n

Varianzacomún

M M t

Antes debemos calcular la varianza común , para poder después incluirlo en el denominador de la fórmula del estadístico t. La Varianza común es la media ponderada de las varianzas de ambos grupos y, por tanto, su fórmula será:

1 2

1 1 2 2

n n

n V n V

Varianzacomún

Siendo: n 1 y n 2 el tamaño muestral de cada de los grupos (no diabéticos y diabéticos) V 1 y V 2 las varianzas de cada uno de los grupos

Entonces, la varianza común será:

× + ×

Varianzacomún =

Y por tanto,

1 2

n

Varianzacomún

n

Varianzacomún

M M

t

Es decir, t=3,

Este valor de t es una forma de cuantificar la diferencia entre las medias (no olvidemos que bajo H0, la diferencia debería ser =0 y por tanto t = 0). El siguiente paso será buscar qué valor de p corresponde a este valor de t.

5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.

La distribución de probabilidad de t ya es conocida en este curso. Recordamos que se publicó por primera vez en 1908 en un artículo de W. S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa cuyo dueño desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo en secreto bajo el nombre de “Student”. En consecuencia, la distribución t se llama distribución t de Student, o simplemente distribución t.

Para ello se busca en las tablas la “p” correspondiente a su valor. Veamos en primer lugar cómo es la distribución de probabilidad del estadístico t , en la Figura 9.1. Como vimos en el capítulo de las distribuciones de probabilidad, se trata de una curva simétrica, de forma muy parecida a la Normal pero más achatada, asintótica por ambos lados (la curva nunca llega a tocar el eje). Su recorrido abarca desde menos infinito a más infinito. Representa la probabilidad de los diferentes valores de t cuando H0 es cierta, es decir, M1=M2.

Probabilidad

2,5%^ 2,5%

95 %

Variabilidad aleatoria

Distribución t de Student

Zona de aceptación de H

Zona de rechazo de H

Zona de

t rechazo de H

Toda el área bajo la curva es igual a 1 (o 100%). Sobre ella, se puede determinar la zona de variabilidad aleatoria o aceptación de H0 y la zona de rechazo de H0. El punto crítico que separa ambas zonas, es el valor de t correspondiente al nivel de significación α =0,05. Este valor lo tendremos que mirar en las tablas de probabilidad de t.

Como en el caso de chi-cuadrado, la distribución de probabilidad de t no es una única curva (como era la

Las tablas de probabilidad de t, ya conocidas, son similares a las de chi-cuadrado, con algunas pequeñas diferencias. Veamos en la tabla siguiente:

Dentro: Valores de t

Fila de arriba: Valores de p

Ejemplo: Con 20 g.d.l. Para p = 0, t = 1,

t

Columna izquierda: Grados de Libertad

p

Tabla de la distribuciTabla de la distribucióón t den t de StudentStudent

Como vimos, la tabla tiene en el interior valores de t. En la fila superior de encabezamiento, valores de probabilidad α por debajo del valor de t de que se trate. Y en la columna exterior, a la izquierda, diferentes grados de libertad, desde 1 a infinito, denominados como “n”. Por tanto en esta tabla están todas las curvas de t posibles. El primer paso es elegir la fila con los grados de libertad apropiados a nuestro problema. En el ejemplo que estamos manejando, 250 gdl. No encontramos una fila con 250 g.d.l. sino que pasa de 120 a infinito. Como nuestros g.d.l. son superiores a 120, usaremos la fila de infinito. Los valores de probabilidad de esta fila con infinitos grados de libertad son idénticos a los que se obtendrían en la curva normal. Por tanto, usaremos la prueba t de Student tanto si las muestras son grandes como si son pequeñas. Con muestras grandes se puede contrastar la hipótesis sobre la igualdad de dos medias usando la curva normal y calculando el estadístico z. Pero en este curso usaremos solo el estadístico t de Student, ya que sirve para todas las situaciones, sea cual sea el tamaño de la muestra.

El segundo paso es determinar cuál sería el valor de t que corresponde al nivel de significación que marca el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. El nivel de significación elegido es α =0,05. Recordemos que como esta tabla es unilateral izquierda, debemos buscar el valor de t

que corresponde a 1- α /2 = 0,975 que es t = 1,96. Este es el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. Como nuestro valor t es = 3,1 que es mayor que 1,96, caerá en la zona de rechazo. Ya sabemos que la decisión será rechazar H0. Y sabemos que p es menor de 0,05. Pero vamos a intentar afinar un poco más el valor de p de este contraste de hipótesis.

Para ello busquemos en las tablas cuál es el valor p, que corresponde al estadístico t que habíamos calculado que era 3,1. Situándonos en la fila de infinitos gdl, no encontramos este valor 3,1, pero lo podríamos situar por encima de 2,576. A 2,576 le corresponde un 1- α /2 = 0,995. Entonces:

; α= 0 , 005 × 2 = 0 , 01

Es lo más que podemos afinar, aunque el nuestro es menor que éste por tanto p<0,01.

Por tanto, como conclusión , volviendo a la tabla de resultados (Tabla 8.5) rechazaríamos H0 y adoptaríamos la hipótesis alternativa H1. H1 quiere decir que aceptamos que la diferencia observada en las medias de colesterol entre los no diabéticos y los diabéticos es demasiado grande para ser explicada por el azar del muestreo y aceptamos que puede ser real y que existe en la población de la que procede la muestra estudiada. Dicho en otros términos, la probabilidad de encontrar una diferencia tan grande como la observada (o aún máyor) si H0 fuera cierta es tan pequeña, que no nos creemos H0 y la rechazamos, adoptando entonces H1. La probabilidad de que nos equivoquemos al tomar esta decisión es p < 0,01.

Aunque ya lo vimos en el capítulo anterior, recordemos la interpretación correcta de p.

Interpretación de los valores de p

El valor p es la probabilidad de que simplemente por variación aleatoria (error de muestreo) se produzca la diferencia o desigualdad que hemos encontrado en una muestra (o una diferencia aún más grande), si no existiese en absoluto desigualdad en la población de la que procede la muestra (Martínez-González, 2006). En cierto modo, el valor de p es una medición de nuestro grado de sorpresa ante un resultado. Cuanto más pequeño es el valor p, mayor la sorpresa por el resultado (Ware, 1992). Los valores p no miden si la diferencia es muy grande o muy pequeña, ni mucho menos si es importante o no desde el punto de vista práctico. Un error que se comete a menudo es considerar que el valor p (o alfa) es la probabilidad de que H0 sea cierta. No es correcto. Es simplemente la probabilidad de haber observado en una muestra una diferencia tan grande como la que hemos visto (o más grande aún), si H0 fuera verdad.

Decisiones tras conocer el valor p

P < 0,05 P ≥ 0,

Se rechaza H0 No se puede rechazar H

No parece que el azar lo explique todo No se puede descartar que el azar lo explique todo

El “efecto” es mayor que el error aleatorio El “efecto” es similar al error aleatorio

Grupo A Dieta alta en proteínas Gramos de peso ganados

Grupo B Dieta baja en proteínas Gramos de peso ganados

114 146 104 119 124 121 107 93 113 119 87 123 133 118 121 123

nA = 16

mA = 116, VA = 201,

nB = 13

mB = 106, VB = 250, nA y nB son los tamaños de las muestras, mA y mB son las medias, y VA y VB son las varianzas.

Nótese que el tamaño de las muestras es diferente. Supondremos que las puntuaciones en ambos grupos se aproximan a la normal, y que las varianzas son homogéneas.

Sigamos los pasos habituales para realizar el contraste de hipótesis:

1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1. 2.- Definir el estadístico de contraste. 3.- Definir el nivel de significación (α). Habitualmente α = 0,05. 4.- Calcular el valor del estadístico de contraste. 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0. Para ello se busca en las tablas la “p” correspondiente a su valor. Si p< α (<0,05), se rechaza Ho, y se acepta alternativamente H 1 como verdadera. Esta decisión tiene asociado un riesgo de error α que consiste en considerar verdadera H 1 cuando en la realidad sea falsa y la verdadera es Ho que no debía haber sido rechazada. Si p ≥ α (≥0,05) se acepta H0 (es decir se considera verdadera) y se corre un riesgo β (error de tipo II) de cometer un error y que en realidad H0 sea falsa.

1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1

Hipótesis nula: La hipótesis nula H0 se podría formular de todas estas formas que son equivalentes:

  • Las ganancias de peso no difieren entre los dos grupos de ratas
  • La ganancia de peso es independiente de la dieta
  • La ganancia de peso no se relaciona con la dieta.
  • No hay asociación entre ganancia de peso y dieta.

En términos estadísticos se formularía así:

H0: M1 = M2; también, M1-M2=0.

Siendo M1 la media de ganancia de peso en el grupo con dieta alta en proteínas, y M2 la media de de ganancia de peso en el grupo con dieta baja en proteínas

Hipótesis alternativa: La Hipótesis alternativa H1 en este caso la formularemos como la contraria de H0. Es decir:

  • Las ganancias de peso son diferentes entre los dos grupos de ratas
  • La ganancia de peso no es independiente de la dieta
  • La ganancia de peso se relaciona con la dieta.
  • Existe hay asociación entre ganancia de peso y dieta.

Y en términos estadísticos H1 quedaría así formulada:

H1: M1 ≠ M

2.- Se define el estadístico de contraste:

Como se trata de contrastar la independencia entre dos medias, se utilizará el estadístico t de Student cuya fórmula es la siguiente:

1 2

1 2

n

Varianzacomún

n

Varianzacomún

M M t

3.- Definir el nivel de significación (α).

Tomaremos el nivel habitual, α = 0,05.

4.- Calcular el valor del estadístico de contraste

Antes debemos calcular la varianza común, para poder después incluirlo en el denominador de la fórmula del estadístico t. La Varianza común es la media ponderada de las varianzas de ambos grupos y, por tanto, su fórmula será:

β = 0,

La probabilidad de error al tomar esta decisión es β = 53,3%. Es decir, existe un 53% de probabilidades de que aceptemos H0 pero en realidad sea falsa. El cálculo de este riesgo β es relativamente complejo y ha sido calculado por medio de un programa estadístico. En definitiva, este estudio es poco concluyente, debido al escaso tamaño de la muestra y a que la diferencia observada entre los grupos es pequeña. Si aceptamos H0, el riesgo de error es 53%. Si rechazamos H0, el riesgo de error es 7,1%. Ambos superan los niveles razonables de riesgo de error. En términos estadísticos este estudio está falto de “potencia estadística”. Sería conveniente repetir el experimento con un número mayor de ratas en cada grupo.

Otro ejemplo

En la unidad de cuidados paliativos se ha llevado a cabo un programa para controlar el dolor en los pacientes con cáncer avanzado. Para ello se ha aplicado a un grupo de pacientes seleccionados al azar un nuevo programa durante 3 semanas y se ha comparado con otro grupo de pacientes que han recibido su programa habitual. La medida de la efectividad de la intervención se ha hecho con una escala de Likert para puntuar el dolor de 1 (mínimo) a 10 (máximo). Se han obtenido los siguientes resultados. ¿Ha sido eficaz la intervención?.

Puntuación Dolor Intervención Programa habitual

Media 5,6 6, Desviación estándar 0,8 0, Tamaño de muestra 20 22

1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1

H0: M1 = M2; también, M1-M2=0.

H1: M1 ≠ M

2.- Se define el estadístico de contraste:

Como se trata de contrastar la independencia entre dos medias, se utilizará el estadístico t de Student cuya fórmula es la siguiente:

1 2

1 2

n

Varianzacomún

n

Varianzacomún

M M t

3.- Definir el nivel de significación (α).

Tomaremos el nivel habitual, α = 0,05.

4.- Calcular el valor del estadístico de contraste

Cálculo de la Varianza común:

1 2

1 122 = × + × = =

n n

n V n V

Varianzacomún

Siendo: n 1 y n 2 el tamaño muestral de cada de los grupos (no diabéticos y diabéticos) V 1 y V 2 las varianzas de cada uno de los grupos

Y por tanto,

1 2

n

Varianzacomún

n

Varianzacomún

M M

t

t = - 3,

Nótese que t es negativo ya que la media M1 es menor que la M2. Esto no tiene ninguna trascendencia, bastaría invertir la comparación y en vez de comparar M1 con M2, comparar M2 con M1. Entonces el numerador sería M2-M1 y sería positivo. Es decir, lo que importa es el valor absoluto de t que es el que se buscará en las tablas.

5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.

Buscando en las tablas con 40 gdl, para t = 3,032 p<0,01.

Conclusión: rechazo de H0 con riesgo p < 0,

Ejercicio 4. Se han registrado las presiones arteriales sistólicas en dos grupos de pacientes hipertensos. Uno de los grupos hace ejercicio físico regularmente y el otro grupo no lo hace. Se han observado los siguientes datos:

PRESIÓN SISTÓLICA No hacen ejercicio Hacen ejercicio

Media 148 141 Desviación estándar 15 14 Tamaño de muestra 45 56

Determinar si el ejercicio físico se relaciona con los niveles de presión arterial sistólica.

Solución: t = 2,419 ; usando la tabla con 120 gdl p <0,020 y > 0,010 ; p exacta = 0,

Ejercicio 5. Se ha repetido el mismo estudio anterior en una muestra más reducida de pacientes hipertensos observándose los siguientes datos:

PRESIÓN SISTÓLICA No hacen ejercicio Hacen ejercicio

Media 148 141 Desviación estándar 15 14 Tamaño de muestra 15 13

Determinar si el ejercicio físico se relaciona con los niveles de presión arterial sistólica.

Solución: t = 1,270 ; usando la tabla con 26 gdl p > 0,20 y < 0,30 ; p exacta = 0,

Ejercicio 6. Un grupo de amas de casa ha seguido un programa dietético durante 6 semanas para reducir el Índice de Masa Corporal (IMC). Se compara con otro grupo de amas de casa que no ha seguido el programa y ha hecho su alimentación habitual. ¿Ha sido eficaz el programa dietético?.

IMC Programa dietético Alimentación habitual

Media 26,5 29, Desviación estándar 3 3, Tamaño de muestra 17 22

t = - 2,735 ; usando la tabla con 40 gdl p < 0,01; p exacta = 0,

Ejercicio 7. Un grupo de enfermería de un Centro de Salud ha realizado una intervención educativa con niños diabéticos para tratar de mejorar su control glucémico. El objetivo es reducir su nivel de hemoglobina glucosilada en un periodo de 6 meses. Se han comparado los resultados con otro grupo de niños diabéticos que han seguido sus controles habituales, encontrándose los siguientes resultados. ¿Ha sido eficaz el programa educativo?.

Hemoglobina Gl. Programa educativo Control habitual

Media 6,7 7, Desviación estándar 0,8 0, Tamaño de muestra 23 32

t = - 2,461 ; usando la tabla con 60 gdl p < 0,02 y > 0,01 ; p exacta = 0,

Ejercicio 8 .- Para evaluar la eficacia de un programa de rehabilitación en el hogar en los déficits del equilibrio en pacientes adultos con daño cerebral adquirido, se ha llevado a cabo un ECA (ensayo controlado, aleatorizado) (1). A ambos grupos se les aplicaron los programas habituales de fisioterapia. Al grupo experimental se le añadió además un programa individualizado en el domicilio. Se obtuvieron los siguientes resultados en la mejora en la puntuación de equilibrio:

Mejora en las puntuaciones en la escala de equilibrio después de la intervención Grupo experimental Grupo control Nº de pacientes 8 8 Media 17,87 5, Desviación estándar 6,05 3,

a)Formular H0 en este estudio. b)¿Podría decirse que la intervención llevada a cabo en el grupo experimental ha sido eficaz en la mejora del equilibrio?.

Solución: t = 4,99 ; usando la tabla con 14 gdl, el valor crítico de t que separaría la zona de aceptación de la zona de rechazo sería t = 2,145. Este valor de t crítico es el que corresponde al nivel de significación 1- α /2 = 0,975; α =0,05. El valor de t obtenido 4,99 es mucho mayor, incluso mayor que 2,977 que es el valor de t que corresponde a 1- α /2 = 0,995, α =0,01 cayendo claramente en la zona de rechazo de H0. Entonces,

; α< 0 , 005 × 2 < 0 , 01

El valor p exacto calculado con ordenador es p = 0,