












Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística para Ciencias de la Salud, Profesor: Antonio Segura Fragoso, Carrera: Enfermería, Universidad: UCLM
Tipo: Apuntes
1 / 20
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!













RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS. EL
TEST CHI-CUADRADO.
El test Chi-Cuadrado
Las variables cualitativas son muy usadas en Ciencias de la Salud y por ello el test chi-cuadrado es
una prueba muy utilizada para examinar la relación entre variables cualitativas, incluida la comparación de dos porcentajes observados.
Con el test chi-cuadrado se pueden resolver tres tipos de problemas:
Inicialmente en este curso trataremos solo de la independencia entre variables cualitativas.
Ejemplo: Para explicar sus fundamentos utilizaremos datos del estudio TALARISK. Estamos interesados en saber si la realización habitual de ejercicio físico se relaciona con el hábito de fumar o si, por el contrario, ambos hábitos son independientes y el hábito de fumar es igual en las personas que hacen ejercicio y en las que no.
En primer lugar exploraremos los datos para tener una idea de cómo son. Para ello confeccionamos una tabla de contingencia o tabla cruzada que nos muestre la distribución de frecuencias absolutas y relativas de las dos variables que resumen la información que nos interesa. Las dos variables son cualitativas (categóricas) y además ambas son dicotómicas (tienen solo dos categorías SI/NO. Es el caso más sencillo para comparar dos porcentajes.
Estos son los datos observados en la muestra en la Tabla siguiente
Tabla 8.
Sigamos los pasos de este esquema.
1º paso: Se plantea la hipótesis nula H0 y la hipótesis alternativa H
Hipótesis nula: La hipótesis nula H0 se podría formular de todas estas formas que son equivalentes:
En términos estadísticos se formularía así:
H0: P1 = P2.
Siendo P1 el % de fumadores entre los sujetos que hacen ejercicio Y P2 el % de fumadores entre los sujetos que no hacen ejercicio
Hipótesis alternativa: La Hipótesis alternativa H1 en este caso la formularemos como la contraria de H0. Es decir: -Fumar no es independiente de realizar ejercicio físico. -Existe relación o asociación entre fumar y hacer ejercicio físico. -Sí hay diferencias en la frecuencia del hábito de fumar entre los sujetos que hacen ejercicio y los que no lo hacen. ……. Etc.
Y en términos estadísticos H1 quedaría así formulada:
H1: P1 ≠ P
2º paso. Se define el estadístico de contraste:
Recordamos que el estadístico de contraste debe ser una variable aleatoria cuya distribución de probabilidad sea conocida y que nos sirva para cuantificar la discrepancia entre los datos observados en la muestra y los datos esperados si H0 fuera cierta. En este caso se utilizará el estadístico chi cuadrado cuya fórmula es la siguiente:
∑
i
i i
Siendo:
∑ es el símbolo sumatorio que quiere decir que tendremos que sumar todas las diferentes casillas de la tabla de contingencia.
A la vista del numerador de la fórmula, vemos que este estadístico mide las diferencias o discrepancias entre los observados y los esperados.
Veamos qué significa “observados” y “esperados”.
Las frecuencias observadas son el número absoluto de sujetos de la tabla de contingencia obtenida con los datos del estudio, no tiene mayor problema (Tabla siguiente):
Frecuencias absolutas observadas
Las frecuencias observadas son el número de sujetos que hemos observado en cada una de las casillas centrales de la tabla, que están en el recuadro rojo.
Vemos que hay:
24 que NO hacen ejercicio y NO fuman 11 que NO hacen ejercicio y fuman 183 que hacen ejercicio y NO fuman 18 hacen ejercicio y fuman
Pero ¿qué son las frecuencias esperadas? Son las frecuencias que habría en el caso de que H0 fuera cierta, es decir, que la proporción de fumadores fuera igual en los que hacen ejercicio y los que no, P1=P2 (Tabla siguiente).
Nótese que aunque los valores observados y esperados de las 4 casillas centrales son diferentes, los valores de las casillas periféricas totales, no cambian, son los mismos.
= (^) ∑
i
i i
Chi-cuadrado = 4, Este es el grado de discrepancia entre los datos observados y los esperados bajo H0. Si las diferencias entre observados y esperados fueran más grandes que las del ejemplo, el chi- cuadrado sería un número mayor, y viceversa.
Ahora bien….. esta discrepancia de chi-cuadrado = 4,18 ¿supera la variabilidad aleatoria asumible en cuyo caso rechazaríamos H0?. O bien ¿es menor que la variabilidad aleatoria y entonces aceptaríamos H0?.
Para averiguar esto pasemos al siguiente paso.
5º paso: Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o en la zona de rechazo de H
Veamos en primer lugar cómo es la distribución de probabilidad del estadístico chi-cuadrado , en la Figura siguiente. Como vemos, se trata de una curva asimétrica, asintótica por la derecha (la curva nunca llega a tocar el eje, hasta infinito). Su recorrido abarca desde cero hasta infinito. Representa la probabilidad de los diferentes valores de chi-cuadrado cuando H0 es cierta, es decir, P1=P2.
Probabilidad
Curva chi-cuadrado
0 1 2 3 4 valor de χ^2
Es asimétrica, asintótica por la derecha. Representa la probabilidad de todos los posibles valores de chi-cuadrado que se podrían observar en las posibles muestras extraídas de una población en la que H0 es cierta, es decir P1=P2. Su recorrido abarca desde cero hasta infinito.
Variabilidad aleatoria ∞
Zona aceptación H
Variabilidad no explicada por el azar Zona de rechazo H 5%
Toda el área bajo la curva es igual a 1 (o 100%). Sobre ella, se puede determinar la zona de variabilidad aleatoria o aceptación de H0 y la zona de rechazo de H0. El punto crítico que separa ambas zonas, es el valor de chi-cuadrado correspondiente al nivel de significación α =0,05. Este valor lo tendremos que mirar en las tablas de probabilidad de chi-cuadrado. La zona de aceptación de H0 (variabilidad aleatoria) contiene el 95% de los valores de Chi- cuadrado que se podrían obtener en muestras aleatorias de personas que hacen ejercicio y otras que no lo hacen, sacadas de una población en la que se cumple H0, es decir, que el % de fumadores es igual en ambos grupos. Serían valores entre 0 y 4 en el ejemplo. El azar puede hacer que aparezcan pequeñas diferencias aunque éstas no existan en la población de donde salen las muestras. La zona de rechazo de H0, que supera la variabilidad aleatoria, contiene el 5% restante de los valores más altos de chi cuadrado (valores superiores a 4). Como chi-cuadrado mide el grado de discrepancia con H0, la zona de rechazo indica que lo observado es poco probable que concuerde con H0. Por eso la rechazamos.
Por tanto, la curva chi-cuadrado representa las probabilidades de obtener estas diferentes discrepancias. Como vemos en la Figura 8.2, cuando H0 es cierta en la población, lo más probable por azar sería obtener muestras con chi-cuadrados entre 1 y 3 (en esta zona es donde la curva es más alta y por tanto la probabilidad de esos valores de chi-cuadrado es mayor).
Pero ¿Cómo saber si el chi-cuadrado = 4,18 que hemos calculado está dentro de la zona de aceptación o de rechazo?. Usaremos las tablas de la distribución chi-cuadrado. Al igual que el caso de la distribución t, chi-cuadrado depende de los grados de libertad y por tanto no es una única curva sino que es una familia de curvas de formas ligeramente diferentes.
La familia de curvas de chi-cuadrado
Figura 8.
3 gdl Valor crítico 7,
1 gdl Valor crítico 3,
2 gdl Valor crítico 5,
4 gdl Valor crítico 9,
5 gdl Valor crítico 11,
10 gdl
20 gdl 30 gdl^ 100 gdl
http://dostat.stat.sc.edu/prototype/calculators/index.php3^ Se aproxima a la normal^ Prácticamente normal
Vemos cómo las curvas con pocos g.d.l. son muy asimétricas y a medida que se acercan a los 10 g.d.l. se van haciendo más simétricas hasta terminar por ser prácticamente normal a partir de 30 g.d.l. Para el tipo de problema que estamos tratando (relación o independencia entre dos variables cualitativas) las que más usaremos son las curvas de pocos g.d.l. (1,2,3…), ya que habitualmente las variables con las que trabajamos tienen pocas categorías (filas y columnas en la tabla de contingencia), de lo contrario sería muy complicado trabajar con ellas. En todas las curvas se ha señalado el nivel de significación α =0,05 que separa la zona de aceptación (blanca) de la zona de rechazo (azul) de H0. En las primeras curvas, además, se ha puesto el valor crítico de chi-cuadrado correspondiente a α =0,05.
En el ejemplo que estamos resolviendo, los g.d.l. son
g.d.l. = (2-1) x (2-1= = 1 g.d.l.
Pues bien, ya estamos en condiciones de retomar el punto 5
5º paso. Se busca en las tablas de probabilidad del estadístico si éste supera o no el nivel de significación (la variabilidad aleatoria asumible)
Las tablas de probabilidad de chi-cuadrado son similares a las que conocemos de la distribución Normal, con algunas pequeñas diferencias. Veamos la tabla siguiente. Como vemos, la tabla tiene en el interior valores de chi-cuadrado. En la fila superior de encabezamiento, valores de probabilidad α a la derecha del valor de chi-cuadrado de que se trate. Y en la columna exterior, a la izquierda, diferentes grados de libertad, desde 1 a 30. Por tanto en esta tabla están todas las curvas de chi-cuadrado desde 1 a 30 gdl.
o p = probabilidad a la derecha α (^) del valor de
Grados de libertad
El primer paso es elegir la fila con los grados de libertad apropiados a nuestro problema. En el ejemplo que estamos manejando, 1 gdl. El segundo paso es buscar en las tablas cuál es el valor de α , o valor p, que corresponde al estadístico chi-cuadrado que habíamos calculado que era 4,21. Situándonos en la fila de 1 gdl, no encontramos este valor, pero lo podríamos situar entre 3,842 y 5,024. A 3,84 le corresponde un α de 0,05 que es precisamente el nivel de significación y es el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. El α correspondiente al chi-cuadrado de 4,21 es menor de 0,05, es decir, cae ya claramente dentro de la zona de rechazo de H0. No podemos dar el valor exacto del α (valor p) de 4,21, solo sabemos que está entre 0,05 y 0,025. Pero con esto es suficiente, podemos tomar la decisión de rechazar H0 con un riesgo alfa menor de 0,05 (y mayor de 0,025). Por tanto, como conclusión , volviendo a la tabla de resultados (Tabla siguiente) rechazaríamos H y adoptaríamos la hipótesis alternativa H1. H1 quiere decir que aceptamos que la diferencia observada en la frecuencia de fumadores entre los que hacen ejercicio y los que no lo hacen es demasiado grande para ser explicada por el azar del muestreo (variabilidad aleatoria) y aceptamos que es real y que existe en la población de la que procede la muestra estudiada. Dicho en otros términos, la probabilidad de encontrar una diferencia tan grande como la observada (o aún máyor) si H0 fuera cierta es tan pequeña, que no nos creemos H0 y la rechazamos, adoptando entonces H1. La probabilidad de que nos equivoquemos al tomar esta decisión es p < 0,05 y p > 0,025.
Estos límites son completamente arbitrarios. Entre p = 0,05 y 0,10 hay que hablar de que “se aproxima a la significación estadística”, que hay “una tendencia hacia el efecto” y dar el valor de p para que el lector decida (Martínez-González, 2006).
Resumen de la resolución del ejemplo:
Pregunta: ¿Se relaciona la realización habitual de ejercicio físico con el hábito de fumar o, por el contrario, ambos hábitos son independientes y el hábito de fumar es igual en las personas que hacen ejercicio y en las que no?
Paso 1.- Hipótesis: H0: P1 = P2. H1: P1 ≠ P
Paso 2.- Estadístico de contraste: Chi-cuadrado.
Paso 3.- Nivel de significación (α). α = 0,05.
Paso 4.- Construir la tabla, calcular los esperados y calcular el valor del estadístico de contraste con los datos observados en la muestra.
Paso 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.
de H0 y la diferencia observada entre P1 y P2 se considera estadísticamente significativa. Conclusión: Se rechaza H0, adoptando H1. Es poco probable que las diferencias observadas sean explicadas por el azar y se acepta que en realidad existen en la población de la que procede la muestra. Riesgo de error al tomar esta decisión: p < 0,05.
Otro ejemplo
Pregunta: ¿Puede decirse que existe relación entre tener diabetes y también hipertensión o ambas patologías son independientes?.
Paso 1.- Hipótesis: H0: P(hipertensión en diabéticos) = P(hipertensión en no diabéticos). H1: P(hipertensión en diabéticos) # P(hipertensión en no diabéticos).
Paso 2.- Estadístico de contraste: Chi-cuadrado.
Paso 3.- Nivel de significación (α). α = 0,05.
Paso 4.- Construir la tabla, calcular los esperados y calcular el valor del estadístico de contraste con los datos observados en la muestra.
Por ejemplo, esperados NO/NO = Total fila x Total columna / Total general = 144 x 223 / 255 = 125,9.
Ninguna de las frecuencias esperadas es <5, por lo que se puede usar el chi-cuadrado, no es necesario realizar la corrección de Yates ni utilizar la p exacta de Fisher..
Paso 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.
de H0 y la diferencia observada entre P1 y P2 se considera estadísticamente significativa. Conclusión: Se rechaza H0, adoptando H1. Es poco probable que las diferencias en los porcentajes de hipertensión en diabéticos y no diabéticos sean explicadas por el azar y se acepta que en realidad existen en la población de la que procede la muestra. Riesgo de error al tomar esta decisión: p < 0,025.
Qué hacer cuando no nos dan la tabla hecha
∑
i
i i
2
Siendo: 2
∑ es el símbolo sumatorio que quiere decir que tendremos que sumar todas las diferentes casillas de la tabla de contingencia.
signo en caso de que sea negativa. Por ejemplo,
Ejemplo:
SI NO Nº 64 22 86 Esperados 62,8 23,2 86, % obesidad 74,4% 25,6% 100,0% Nº 9 5 14 Esperados 10,2 (^) 3,8 14, % obesidad 64,3% 35,7% 100,0% Total Nº 73 27 100
Obesidad Total
Antecedentes de Diabetes
NO
SI
Pregunta: ¿existe relación entre tener antecedentes de diabetes y la frecuencia de obesidad? o ¿son independientes?
P1: % obesidad en NO diabetes
P2: % obesidad en SI diabetes
E 1 (^) = totalfilatotal^ × totalgeneralcolumna =^86100 ×^73 = 62 , (^823) , 2 100
86 27 2 = E =^ × 10 , 2 100
14 73 3 = E =^ × 3 , 8 100
14 27 4 = E =^ ×
Una de las frecuencias esperadas es menor de 5. Deberemos usar la corrección de Yates.
SI NO Nº 64 22 86 Esperados 62,8 23,2 86, % obesidad 74,4% 25,6% 100,0% Nº 9 5 14 Esperados 10,2 (^) 3,8 14, % obesidad 64,3% 35,7% 100,0% Total Nº 73 27 100
Obesidad Total
Antecedentes de Diabetes
NO
SI
P1: % obesidad en NO diabetes
P2: % obesidad en SI diabetes
=
− −
− −
− −
− − = (^) ∑ (^3) , 8
( 53 , 8 21 ) 10 , 2
( 910 , 2 21 ) 23 , 2
( 22 23 , 2 21 ) 62 , 8
2 (^21 )^2 (^6462 ,^812 )^2222 i
i i c (^) E
O E χ (^) 0,
Solución:
Ejercicio físico
SI NO Total SI controlan Hipertensión 30 70 100 NO controlan Hipertensión 17 83 100 Total 47 153 200
Chi-cuadrado = 4, p = 0, % control en grupo Ejercicio: 63,8% % control en grupo no Ejercicio: 45,7%
Ejercicio 5 .-Un problema de gran actualidad es si el suplemento de Vitamina D a las madres durante el último tercio del embarazo, puede prevenir la aparición de infecciones respiratorias en los niños en los primeros años de vida. Se ha llevado a cabo un ECA (Ensayo controlado Aleatorizado)(1). Un grupo de 54 madres tomaron Vit D diariamente y otro grupo de 50 madres no la tomaron. En el primer grupo, 14 niños tuvieron infección respiratoria de vías bajas (IRB) en los 3 primeros años de vida, y en el segundo grupo la tuvieron 11 niños. Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. Calcular el porcentaje de niños que tuvieron IRB en cada grupo. ¿Puede decirse que el aporte de Vitamina D ha sido eficaz?. Interpretar clínica y estadísticamente los resultados.
Solución: Madres Tomaron Vitamina D SI NO Total Niños SI Infección 14 11 25 Niños NO Infección 40 39 79 Total 54 50 104
Chi-cuadrado = 0, p = 0, % IRB en grupo que tomó Vitamina D: 25,93% % IRB en grupo que no tomó Vitamina D: 22%
(1).-Goldring ST, Griffiths CJ, Martineau AR, Robinson S, Yu C, Poulton S, et al. Prenatal vitamin d supplementation and child respiratory health: a randomised controlled trial. PLoS One 2013;8(6):e66627.
Ejercicio 6 .-En las personas mayores con demencia precoz es importante retrasar al máximo la evolución para evitar el deterioro cognitivo, emocional y social. Se ha realizado un ECA para comprobar la efectividad de una terapia domiciliaria frente al tratamiento habitual para conseguir que estos pacientes realicen actividad física regular. En el grupo de terapia domiciliaria, el 73,56% de 174 pacientes consiguieron realizar ejercicio físico habitualmente, frente a solo el 57,02% de 114 pacientes en el grupo control.
Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. ¿Puede decirse que la intervención con terapia domiciliaria ha sido eficaz?. Interpretar clínica y estadísticamente los resultados.
Solución:
Terapia domiciliaria SI NO Total SI Ejercicio regular 128 65 193 NO Ejercicio regular 46 49 95 Total 174 114 288
Chi-cuadrado = 8, p = 0,
Ejercicio 7 .- En un estudio realizado en una muestra de 127 diabéticos, se desea averiguar si un programa educativo grupal (SI/NO) se asocia con un mejor control de la glucemia (SI/NO). Se observan los siguientes datos: 8 diabéticos NO recibieron el programa educativo y NO han controlado su glucemia, hay 110 diabéticos que SI han controlado su glucemia, y hay 88 diabéticos que SI recibieron el programa educativo. a) Construir la tabla de contingencia, calcular el valor de chi-cuadrado y la significación estadística. Calcular el porcentaje de sujetos que controlaron su hipertensión en cada grupo. Interpretar clínica y estadísticamente los resultados.
Solución:
Programa educativo SI NO Total SI control glucemia 80 30 110 NO control glucemia 8 8 16 Total 88 38 126
Una de las frecuencias esperadas es menor de 5, por lo que hay que usar la corrección de Yates. Chi-cuadrado corregido = 2, p = 0,
b) Qué resultado y qué conclusiones se habrían obtenido en caso de no realizar la corrección de Yates? Chi-cuadrado (sin corrección) = 3, p = 0,