Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadística cap8, Apuntes de Estadística

Asignatura: Estadística para Ciencias de la Salud, Profesor: Antonio Segura Fragoso, Carrera: Enfermería, Universidad: UCLM

Tipo: Apuntes

2012/2013

Subido el 29/11/2013

riensita
riensita 🇪🇸

4.4

(96)

80 documentos

1 / 20

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Chi cuadrado
. 1
APUNTES
DE
BIOESTADÍSTICA APLICADA
EN
CIENCIAS DE LA SALUD
Capítulo 8
Contraste de Hipótesis. Relación o asociación
entre dos variables cualitativas. El test chi-
cuadrado.
Antonio Segura Fragoso
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Vista previa parcial del texto

¡Descarga estadística cap8 y más Apuntes en PDF de Estadística solo en Docsity!

APUNTES

DE

BIOESTADÍSTICA APLICADA

EN

CIENCIAS DE LA SALUD

Capítulo 8

Contraste de Hipótesis. Relación o asociación

entre dos variables cualitativas. El test chi-

cuadrado.

Antonio Segura Fragoso

CAPÍTULO 8

RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS. EL

TEST CHI-CUADRADO.

El test Chi-Cuadrado

Las variables cualitativas son muy usadas en Ciencias de la Salud y por ello el test chi-cuadrado es

una prueba muy utilizada para examinar la relación entre variables cualitativas, incluida la comparación de dos porcentajes observados.

Con el test chi-cuadrado se pueden resolver tres tipos de problemas:

  1. Homogeneidad de dos o más muestras.
  2. Bondad de ajuste de una distribución observada a una distribución teórica.
  3. Independencia entre variables cualitativas.

Inicialmente en este curso trataremos solo de la independencia entre variables cualitativas.

Ejemplo: Para explicar sus fundamentos utilizaremos datos del estudio TALARISK. Estamos interesados en saber si la realización habitual de ejercicio físico se relaciona con el hábito de fumar o si, por el contrario, ambos hábitos son independientes y el hábito de fumar es igual en las personas que hacen ejercicio y en las que no.

En primer lugar exploraremos los datos para tener una idea de cómo son. Para ello confeccionamos una tabla de contingencia o tabla cruzada que nos muestre la distribución de frecuencias absolutas y relativas de las dos variables que resumen la información que nos interesa. Las dos variables son cualitativas (categóricas) y además ambas son dicotómicas (tienen solo dos categorías SI/NO. Es el caso más sencillo para comparar dos porcentajes.

Estos son los datos observados en la muestra en la Tabla siguiente

Tabla 8.

Sigamos los pasos de este esquema.

1º paso: Se plantea la hipótesis nula H0 y la hipótesis alternativa H

Hipótesis nula: La hipótesis nula H0 se podría formular de todas estas formas que son equivalentes:

  • Fumar es independiente de realizar ejercicio físico.
  • Fumar no se relaciona con hacer ejercicio físico.
  • No hay asociación entre fumar y hacer ejercicio físico.
  • Los sujetos que hacen ejercicio fuman igual que los que no lo hacen.
  • No hay diferencias en la frecuencia del hábito de fumar entre los sujetos que hacen ejercicio y los que no lo hacen.

En términos estadísticos se formularía así:

H0: P1 = P2.

Siendo P1 el % de fumadores entre los sujetos que hacen ejercicio Y P2 el % de fumadores entre los sujetos que no hacen ejercicio

Hipótesis alternativa: La Hipótesis alternativa H1 en este caso la formularemos como la contraria de H0. Es decir: -Fumar no es independiente de realizar ejercicio físico. -Existe relación o asociación entre fumar y hacer ejercicio físico. -Sí hay diferencias en la frecuencia del hábito de fumar entre los sujetos que hacen ejercicio y los que no lo hacen. ……. Etc.

Y en términos estadísticos H1 quedaría así formulada:

H1: P1 ≠ P

2º paso. Se define el estadístico de contraste:

Recordamos que el estadístico de contraste debe ser una variable aleatoria cuya distribución de probabilidad sea conocida y que nos sirva para cuantificar la discrepancia entre los datos observados en la muestra y los datos esperados si H0 fuera cierta. En este caso se utilizará el estadístico chi cuadrado cuya fórmula es la siguiente:

i

i i

E

2 ( O^ E )^2

Siendo:

χ es la letra griega chi que se pronuncia “ji” o “chi”.

∑ es el símbolo sumatorio que quiere decir que tendremos que sumar todas las diferentes casillas de la tabla de contingencia.

O i cada uno de los valores observados en cada una de las casillas centrales de la tabla.

E i cada uno de los valores esperados en cada una de las casillas centrales de la tabla.

A la vista del numerador de la fórmula, vemos que este estadístico mide las diferencias o discrepancias entre los observados y los esperados.

Veamos qué significa “observados” y “esperados”.

Las frecuencias observadas son el número absoluto de sujetos de la tabla de contingencia obtenida con los datos del estudio, no tiene mayor problema (Tabla siguiente):

Frecuencias absolutas observadas

Las frecuencias observadas son el número de sujetos que hemos observado en cada una de las casillas centrales de la tabla, que están en el recuadro rojo.

Vemos que hay:

24 que NO hacen ejercicio y NO fuman 11 que NO hacen ejercicio y fuman 183 que hacen ejercicio y NO fuman 18 hacen ejercicio y fuman

Pero ¿qué son las frecuencias esperadas? Son las frecuencias que habría en el caso de que H0 fuera cierta, es decir, que la proporción de fumadores fuera igual en los que hacen ejercicio y los que no, P1=P2 (Tabla siguiente).

Frecuencias observadas y esperadas bajo H

Nótese que aunque los valores observados y esperados de las 4 casillas centrales son diferentes, los valores de las casillas periféricas totales, no cambian, son los mismos.

= (^) ∑

2 (^ )^2 (^2428 ,^4 )^2222

i

i i

E

O E

( 4 , 4 )^2222

Chi-cuadrado = 4, Este es el grado de discrepancia entre los datos observados y los esperados bajo H0. Si las diferencias entre observados y esperados fueran más grandes que las del ejemplo, el chi- cuadrado sería un número mayor, y viceversa.

Ahora bien….. esta discrepancia de chi-cuadrado = 4,18 ¿supera la variabilidad aleatoria asumible en cuyo caso rechazaríamos H0?. O bien ¿es menor que la variabilidad aleatoria y entonces aceptaríamos H0?.

Para averiguar esto pasemos al siguiente paso.

5º paso: Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o en la zona de rechazo de H

Veamos en primer lugar cómo es la distribución de probabilidad del estadístico chi-cuadrado , en la Figura siguiente. Como vemos, se trata de una curva asimétrica, asintótica por la derecha (la curva nunca llega a tocar el eje, hasta infinito). Su recorrido abarca desde cero hasta infinito. Representa la probabilidad de los diferentes valores de chi-cuadrado cuando H0 es cierta, es decir, P1=P2.

Probabilidad

Curva chi-cuadrado

0 1 2 3 4 valor de χ^2

Es asimétrica, asintótica por la derecha. Representa la probabilidad de todos los posibles valores de chi-cuadrado que se podrían observar en las posibles muestras extraídas de una población en la que H0 es cierta, es decir P1=P2. Su recorrido abarca desde cero hasta infinito.

Variabilidad aleatoria

Zona aceptación H

Variabilidad no explicada por el azar Zona de rechazo H 5%

Toda el área bajo la curva es igual a 1 (o 100%). Sobre ella, se puede determinar la zona de variabilidad aleatoria o aceptación de H0 y la zona de rechazo de H0. El punto crítico que separa ambas zonas, es el valor de chi-cuadrado correspondiente al nivel de significación α =0,05. Este valor lo tendremos que mirar en las tablas de probabilidad de chi-cuadrado. La zona de aceptación de H0 (variabilidad aleatoria) contiene el 95% de los valores de Chi- cuadrado que se podrían obtener en muestras aleatorias de personas que hacen ejercicio y otras que no lo hacen, sacadas de una población en la que se cumple H0, es decir, que el % de fumadores es igual en ambos grupos. Serían valores entre 0 y 4 en el ejemplo. El azar puede hacer que aparezcan pequeñas diferencias aunque éstas no existan en la población de donde salen las muestras. La zona de rechazo de H0, que supera la variabilidad aleatoria, contiene el 5% restante de los valores más altos de chi cuadrado (valores superiores a 4). Como chi-cuadrado mide el grado de discrepancia con H0, la zona de rechazo indica que lo observado es poco probable que concuerde con H0. Por eso la rechazamos.

Por tanto, la curva chi-cuadrado representa las probabilidades de obtener estas diferentes discrepancias. Como vemos en la Figura 8.2, cuando H0 es cierta en la población, lo más probable por azar sería obtener muestras con chi-cuadrados entre 1 y 3 (en esta zona es donde la curva es más alta y por tanto la probabilidad de esos valores de chi-cuadrado es mayor).

Pero ¿Cómo saber si el chi-cuadrado = 4,18 que hemos calculado está dentro de la zona de aceptación o de rechazo?. Usaremos las tablas de la distribución chi-cuadrado. Al igual que el caso de la distribución t, chi-cuadrado depende de los grados de libertad y por tanto no es una única curva sino que es una familia de curvas de formas ligeramente diferentes.

La familia de curvas de chi-cuadrado

Figura 8.

3 gdl Valor crítico 7,

1 gdl Valor crítico 3,

2 gdl Valor crítico 5,

4 gdl Valor crítico 9,

5 gdl Valor crítico 11,

10 gdl

20 gdl 30 gdl^ 100 gdl

Forma de chi-cuadrado según los grados de libertad

http://dostat.stat.sc.edu/prototype/calculators/index.php3^ Se aproxima a la normal^ Prácticamente normal

Vemos cómo las curvas con pocos g.d.l. son muy asimétricas y a medida que se acercan a los 10 g.d.l. se van haciendo más simétricas hasta terminar por ser prácticamente normal a partir de 30 g.d.l. Para el tipo de problema que estamos tratando (relación o independencia entre dos variables cualitativas) las que más usaremos son las curvas de pocos g.d.l. (1,2,3…), ya que habitualmente las variables con las que trabajamos tienen pocas categorías (filas y columnas en la tabla de contingencia), de lo contrario sería muy complicado trabajar con ellas. En todas las curvas se ha señalado el nivel de significación α =0,05 que separa la zona de aceptación (blanca) de la zona de rechazo (azul) de H0. En las primeras curvas, además, se ha puesto el valor crítico de chi-cuadrado correspondiente a α =0,05.

En el ejemplo que estamos resolviendo, los g.d.l. son

g.d.l. = (2-1) x (2-1= = 1 g.d.l.

Pues bien, ya estamos en condiciones de retomar el punto 5

5º paso. Se busca en las tablas de probabilidad del estadístico si éste supera o no el nivel de significación (la variabilidad aleatoria asumible)

Las tablas de probabilidad de chi-cuadrado son similares a las que conocemos de la distribución Normal, con algunas pequeñas diferencias. Veamos la tabla siguiente. Como vemos, la tabla tiene en el interior valores de chi-cuadrado. En la fila superior de encabezamiento, valores de probabilidad α a la derecha del valor de chi-cuadrado de que se trate. Y en la columna exterior, a la izquierda, diferentes grados de libertad, desde 1 a 30. Por tanto en esta tabla están todas las curvas de chi-cuadrado desde 1 a 30 gdl.

Valor de χ^2

o p = probabilidad a la derecha α (^) del valor de

χ^2

Grados de libertad

El primer paso es elegir la fila con los grados de libertad apropiados a nuestro problema. En el ejemplo que estamos manejando, 1 gdl. El segundo paso es buscar en las tablas cuál es el valor de α , o valor p, que corresponde al estadístico chi-cuadrado que habíamos calculado que era 4,21. Situándonos en la fila de 1 gdl, no encontramos este valor, pero lo podríamos situar entre 3,842 y 5,024. A 3,84 le corresponde un α de 0,05 que es precisamente el nivel de significación y es el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. El α correspondiente al chi-cuadrado de 4,21 es menor de 0,05, es decir, cae ya claramente dentro de la zona de rechazo de H0. No podemos dar el valor exacto del α (valor p) de 4,21, solo sabemos que está entre 0,05 y 0,025. Pero con esto es suficiente, podemos tomar la decisión de rechazar H0 con un riesgo alfa menor de 0,05 (y mayor de 0,025). Por tanto, como conclusión , volviendo a la tabla de resultados (Tabla siguiente) rechazaríamos H y adoptaríamos la hipótesis alternativa H1. H1 quiere decir que aceptamos que la diferencia observada en la frecuencia de fumadores entre los que hacen ejercicio y los que no lo hacen es demasiado grande para ser explicada por el azar del muestreo (variabilidad aleatoria) y aceptamos que es real y que existe en la población de la que procede la muestra estudiada. Dicho en otros términos, la probabilidad de encontrar una diferencia tan grande como la observada (o aún máyor) si H0 fuera cierta es tan pequeña, que no nos creemos H0 y la rechazamos, adoptando entonces H1. La probabilidad de que nos equivoquemos al tomar esta decisión es p < 0,05 y p > 0,025.

Estos límites son completamente arbitrarios. Entre p = 0,05 y 0,10 hay que hablar de que “se aproxima a la significación estadística”, que hay “una tendencia hacia el efecto” y dar el valor de p para que el lector decida (Martínez-González, 2006).

Resumen de la resolución del ejemplo:

Pregunta: ¿Se relaciona la realización habitual de ejercicio físico con el hábito de fumar o, por el contrario, ambos hábitos son independientes y el hábito de fumar es igual en las personas que hacen ejercicio y en las que no?

Paso 1.- Hipótesis: H0: P1 = P2. H1: P1 ≠ P

Paso 2.- Estadístico de contraste: Chi-cuadrado.

Paso 3.- Nivel de significación (α). α = 0,05.

Paso 4.- Construir la tabla, calcular los esperados y calcular el valor del estadístico de contraste con los datos observados en la muestra.

χ^2 = 4 , 18

Paso 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.

Con 1 g.d.l., para χ 2 = 4 , 18 , corresponde un valor p < 0,05, que cae dentro de la zona de rechazo

de H0 y la diferencia observada entre P1 y P2 se considera estadísticamente significativa. Conclusión: Se rechaza H0, adoptando H1. Es poco probable que las diferencias observadas sean explicadas por el azar y se acepta que en realidad existen en la población de la que procede la muestra. Riesgo de error al tomar esta decisión: p < 0,05.

Otro ejemplo

Pregunta: ¿Puede decirse que existe relación entre tener diabetes y también hipertensión o ambas patologías son independientes?.

Paso 1.- Hipótesis: H0: P(hipertensión en diabéticos) = P(hipertensión en no diabéticos). H1: P(hipertensión en diabéticos) # P(hipertensión en no diabéticos).

Paso 2.- Estadístico de contraste: Chi-cuadrado.

Paso 3.- Nivel de significación (α). α = 0,05.

Paso 4.- Construir la tabla, calcular los esperados y calcular el valor del estadístico de contraste con los datos observados en la muestra.

Por ejemplo, esperados NO/NO = Total fila x Total columna / Total general = 144 x 223 / 255 = 125,9.

Ninguna de las frecuencias esperadas es <5, por lo que se puede usar el chi-cuadrado, no es necesario realizar la corrección de Yates ni utilizar la p exacta de Fisher..

Calculando, χ 2 = 5 , 36.

Paso 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.

Con 1 g.d.l., para χ 2 = 5 , 36 , corresponde un valor p < 0,025, que cae dentro de la zona de rechazo

de H0 y la diferencia observada entre P1 y P2 se considera estadísticamente significativa. Conclusión: Se rechaza H0, adoptando H1. Es poco probable que las diferencias en los porcentajes de hipertensión en diabéticos y no diabéticos sean explicadas por el azar y se acepta que en realidad existen en la población de la que procede la muestra. Riesgo de error al tomar esta decisión: p < 0,025.

Qué hacer cuando no nos dan la tabla hecha

i

i i

c E

O E^2

2

Siendo: 2

χ c es chi-cuadrado corregido

∑ es el símbolo sumatorio que quiere decir que tendremos que sumar todas las diferentes casillas de la tabla de contingencia.

O i cada uno de los valores observados en cada una de las casillas centrales de la tabla.

E i cada uno de los valores esperados en cada una de las casillas centrales de la tabla.

Oi − E i es la diferencia Observado-Esperado en valor absoluto, es decir sin tener en cuenta el

signo en caso de que sea negativa. Por ejemplo,

3 − 7 = 4 , mientras que 3 − 7 =− 4

Ejemplo:

Ejemplo Chi-cuadrado con corrección de Yates

SI NO Nº 64 22 86 Esperados 62,8 23,2 86, % obesidad 74,4% 25,6% 100,0% Nº 9 5 14 Esperados 10,2 (^) 3,8 14, % obesidad 64,3% 35,7% 100,0% Total Nº 73 27 100

Obesidad Total

Antecedentes de Diabetes

NO

SI

Pregunta: ¿existe relación entre tener antecedentes de diabetes y la frecuencia de obesidad? o ¿son independientes?

  1. H0: P1=P2; H1: P1≠P
  2. Estadístico: chi-cuadrado
  3. Nivel de significación: = 0,
  4. Calculemos chi-cuadrado. Primero calcularemos los esperados bajo H0:

P1: % obesidad en NO diabetes

P2: % obesidad en SI diabetes

E 1 (^) = totalfilatotal^ × totalgeneralcolumna =^86100 ×^73 = 62 , (^823) , 2 100

86 27 2 = E =^ × 10 , 2 100

14 73 3 = E =^ × 3 , 8 100

14 27 4 = E =^ ×

Una de las frecuencias esperadas es menor de 5. Deberemos usar la corrección de Yates.

Ejemplo Chi-cuadrado con corrección de Yates

SI NO Nº 64 22 86 Esperados 62,8 23,2 86, % obesidad 74,4% 25,6% 100,0% Nº 9 5 14 Esperados 10,2 (^) 3,8 14, % obesidad 64,3% 35,7% 100,0% Total Nº 73 27 100

Obesidad Total

Antecedentes de Diabetes

NO

SI

  1. H0: P1=P2; H1: P1≠P
  2. Estadístico: chi-cuadrado
  3. Nivel de significación: = 0,
  4. Calculemos chi-cuadrado. Primero calcularemos los esperados bajo H0. Calculemos ahora el valor de chi-cuadrado corregido:

P1: % obesidad en NO diabetes

P2: % obesidad en SI diabetes

=

− −

− −

− −

− −

− − = (^) ∑ (^3) , 8

( 53 , 8 21 ) 10 , 2

( 910 , 2 21 ) 23 , 2

( 22 23 , 2 21 ) 62 , 8

2 (^21 )^2 (^6462 ,^812 )^2222 i

i i c (^) E

O E χ (^) 0,

  1. Busquemos en las tablas la probabilidad. Para chi-cuadrado = 0,21 p está entre 0,2 y 0,9. En todo caso, es > 0,05. Decisión: aceptación de H0. Las diferencias observadas son explicables por el azar del muestreo.

Solución:

Ejercicio físico

SI NO Total SI controlan Hipertensión 30 70 100 NO controlan Hipertensión 17 83 100 Total 47 153 200

Chi-cuadrado = 4, p = 0, % control en grupo Ejercicio: 63,8% % control en grupo no Ejercicio: 45,7%

Ejercicio 5 .-Un problema de gran actualidad es si el suplemento de Vitamina D a las madres durante el último tercio del embarazo, puede prevenir la aparición de infecciones respiratorias en los niños en los primeros años de vida. Se ha llevado a cabo un ECA (Ensayo controlado Aleatorizado)(1). Un grupo de 54 madres tomaron Vit D diariamente y otro grupo de 50 madres no la tomaron. En el primer grupo, 14 niños tuvieron infección respiratoria de vías bajas (IRB) en los 3 primeros años de vida, y en el segundo grupo la tuvieron 11 niños. Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. Calcular el porcentaje de niños que tuvieron IRB en cada grupo. ¿Puede decirse que el aporte de Vitamina D ha sido eficaz?. Interpretar clínica y estadísticamente los resultados.

Solución: Madres Tomaron Vitamina D SI NO Total Niños SI Infección 14 11 25 Niños NO Infección 40 39 79 Total 54 50 104

Chi-cuadrado = 0, p = 0, % IRB en grupo que tomó Vitamina D: 25,93% % IRB en grupo que no tomó Vitamina D: 22%

(1).-Goldring ST, Griffiths CJ, Martineau AR, Robinson S, Yu C, Poulton S, et al. Prenatal vitamin d supplementation and child respiratory health: a randomised controlled trial. PLoS One 2013;8(6):e66627.

Ejercicio 6 .-En las personas mayores con demencia precoz es importante retrasar al máximo la evolución para evitar el deterioro cognitivo, emocional y social. Se ha realizado un ECA para comprobar la efectividad de una terapia domiciliaria frente al tratamiento habitual para conseguir que estos pacientes realicen actividad física regular. En el grupo de terapia domiciliaria, el 73,56% de 174 pacientes consiguieron realizar ejercicio físico habitualmente, frente a solo el 57,02% de 114 pacientes en el grupo control.

Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. ¿Puede decirse que la intervención con terapia domiciliaria ha sido eficaz?. Interpretar clínica y estadísticamente los resultados.

Solución:

Terapia domiciliaria SI NO Total SI Ejercicio regular 128 65 193 NO Ejercicio regular 46 49 95 Total 174 114 288

Chi-cuadrado = 8, p = 0,

Ejercicio 7 .- En un estudio realizado en una muestra de 127 diabéticos, se desea averiguar si un programa educativo grupal (SI/NO) se asocia con un mejor control de la glucemia (SI/NO). Se observan los siguientes datos: 8 diabéticos NO recibieron el programa educativo y NO han controlado su glucemia, hay 110 diabéticos que SI han controlado su glucemia, y hay 88 diabéticos que SI recibieron el programa educativo. a) Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. Calcular el porcentaje de sujetos que controlaron su hipertensión en cada grupo. Interpretar clínica y estadísticamente los resultados.

Solución:

Programa educativo SI NO Total SI control glucemia 80 30 110 NO control glucemia 8 8 16 Total 88 38 126

Una de las frecuencias esperadas es menor de 5, por lo que hay que usar la corrección de Yates. Chi-cuadrado corregido = 2, p = 0,

b) Qué resultado y qué conclusiones se habrían obtenido en caso de no realizar la corrección de Yates? Chi-cuadrado (sin corrección) = 3, p = 0,