















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
En este documento se presenta un análisis de la varianza de los niveles de triglicéridos en tres grupos de sujetos con distinto grado de obesidad. Se calculan las medias, desviaciones y sumas de cuadrados de cada grupo, así como la media ponderada total. Además, se explica el concepto de estadístico f y cómo mide la diferencia entre las medias de forma indirecta mediante la relación de las varianzas 'dentro' y 'entre' los grupos.
Tipo: Apuntes
1 / 23
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
















El análisis de la varianza
En el capítulo anterior estudiamos el contraste de hipótesis entre las medias de una variable cuantitativa observadas en dos subgrupos de una variable cualitativa (por ejemplo diabético S//NO). Pero con frecuencia, la variable cualitativa tiene más de dos grupos o clases o categorías. Por ejemplo, los sujetos los podríamos clasificar en tres grupos respecto a su grado de obesidad: a) normales, b) con sobrepeso o c) con obesidad. En este caso no se podría utilizar la t de Student y la prueba apropiada es al análisis de la varianza que se denomina habitualmente ANOVA (de sus siglas en inglés ANa lysis O f VA riance).
Para resolver este tipo de problema se pueden utilizar diversas pruebas. En este curso estudiaremos únicamente el caso más sencillo en el que la variable cuantitativa sigue una distribución normal, las varianzas de los grupos son homogéneas y los grupos son independientes. Este es el ANOVA de una vía. Hay que resaltar que el ANOVA puede utilizarse también para comparar solo dos medias y entonces sus resultados son idénticos a los de la prueba t de Student.
La prueba ANOVA, debida a Fisher, permite comparar indirectamente varias medias aritméticas (2 o más) obtenidas en diferentes muestras, mediante la comparación de sus dispersiones (varianzas). Es decir, aunque sirve para comparar medias, en realidad lo que se comparan son varianzas. Explicaremos esta prueba mediante un ejemplo.
Ejemplo: Estamos interesados en saber si el grado de obesidad se relaciona con los niveles de triglicéridos o, por el contrario, ambas variables son independientes.
Confeccionamos una tabla descriptiva en la que podamos observar los datos y las medias de triglicéridos según los diversos grados de obesidad. Una de las variables (Grado de obesidad) es cualitativa (categórica) con tres clases (peso normal, sobrepeso y obesidad) y la otra variable TRIGLICÉRIDOS es continua.
Veamos los datos observados en la muestra en la Tabla siguiente. Para cada nivel de obesidad se muestran los distintos valores de triglicéridos (xi), el número de sujetos del grupo, la media de triglicéridos, la desviación de cada xi con respecto a su media elevada al cuadrado, y la suma de estos cuadrados. También la media general del conjunto de los 21 sujetos, que es la media ponderada de las medias de cada grupo.
1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1. 2.- Definir el estadístico de contraste. 3.- Definir el nivel de significación (α). Habitualmente α = 0,05. 4.- Calcular el valor del estadístico de contraste. 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0. Para ello se busca en las tablas la “p” correspondiente a su valor. Si p< α (<0,05), se rechaza Ho, y se acepta alternativamente H 1 como verdadera. Esta decisión tiene asociado un riesgo de error α que consiste en considerar verdadera H 1 cuando en la realidad sea falsa y la verdadera es Ho que no debía haber sido rechazada. Si p ≥ α (≥0,05) se acepta H0 (es decir se considera verdadera) y se corre un riesgo β (error de tipo II) de cometer un error y que en realidad H0 sea falsa.
1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1
Hipótesis nula: La hipótesis nula H0 se podría formular de todas estas formas que son equivalentes:
En términos estadísticos se formularía así:
H0: M1 = M2 = M3;
Siendo M1 la media de triglicéridos en los sujetos con normopeso, M2 la media de triglicéridos en los sujetos con sobrepeso y M3 la media de triglicéridos en los sujetos con obesidad.
Hipótesis alternativa: La Hipótesis alternativa H1 en este caso la formularemos como la contraria de H0. Es decir:
Y en términos estadísticos H1 quedaría así formulada:
H1: M1 ≠ M2 y/o M2 ≠ M3 y/o M1 ≠ M3. Basta con que alguna de las medias sea diferente. (Pueden ser dos iguales, pero una diferente por ejemplo).
2.- Definir el estadístico de contraste:
En este caso se utilizará el estadístico F de Fisher y Snedecor cuya fórmula es la siguiente:
Siendo: k = número de grupos. n = tamaño de la muestra, número total de sujetos. El numerador tiene k-1 grados de libertad, es decir, número de grupos-1. El denominador tiene n-k grados de libertad, o sea, número total de sujetos menos número de grupos. Como vemos, el estadístico F no mide diferencias entre las medias de forma directa, sino que lo hace indirectamente midiendo la relación o cociente entre dos varianzas: varianza “entre grupos” y varianza “dentro de” los grupos.
Veamos estos conceptos.
Varianza “entre” y varianza “dentro”
El análisis de la varianza compara dos dispersiones (dos varianzas) (Figura siguiente): Una es la varianza “dentro de los grupos” que es debida al azar. Es la varianza aleatoria propia de la variable triglicéridos y refleja la variabilidad biológica de este lípido en el conjunto de los sujetos de los tres grupos. También se le llama varianza residual. Otra es la varianza “entre grupos” o varianza debida al “factor” (grado de obesidad en este caso), llamada también por eso varianza factorial. Cada grupo de sujetos tiene su propia media de triglicéridos: (el grupo de peso normal M1=107,6, el de sobrepeso M2=115,6 y el de obesidad M3=126,0). Y existe además una media general de todos los sujetos juntos M=115,5. Las tres medias de los grupos pueden estar más o menos alejadas de M. Y se puede calcular la varianza entre ellas y la media general. Si las tres medias son muy parecidas, esta varianza “entre” será pequeña. Pero si la diferencia entre ellas es grande, la varianza “entre” aumentará.
∑ = el símbolo sumatorio que significa que la expresión que le sigue,
su grupo, elevada al cuadrado. N= número total de sujetos de la muestra. k = número de grupos que se comparan N-k = grados de libertad de la varianza “dentro”.
b) Varianza “entre grupos”.
Es la varianza entre las medias de los k grupos y la media global.
Siendo: ni es el número de sujetos de cada uno de los grupos.
El estadístico F medirá la relación (cociente) entre la varianza “entre” y la varianza “dentro”. Es decir, cuántas veces es mayor la varianza “entre” que la varianza “dentro”.
3.- Definir el nivel de significación (α).
Tomaremos el nivel habitual, α = 0,05.
4.- Calcular el valor del estadístico de contraste Recordemos los datos en la siguiente y calculemos en primer lugar los numeradores de las varianzas, es decir, la suma de cuadrados “dentro” y “entre”:
Tabla 10.
2 entregrupo
∑
i s
sujetos
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
n1 n2 n
(M1 n1) (M2 n2) (M3 n3) Media ponderadaTotal =
Media de todos los sujetos juntos
Conocidas las sumas de cuadrados, es fácil calcular las varianzas:
Y entonces, el valor del estadístico F,
Este valor de F indica que la varianza “entre” es 4,55 veces más grande que la varianza “dentro”.
= ∑^ i
2
∑ (^) i s
que la distribución F tiene g.d.l. en el numerador, y en el denominador:
Esta pareja de g.d.l. influye sobre la forma de la curva de F. En la Figura siguiente se ven las diversas formas de la curva de F según los g.d.l.
Figura 10.
http://socr.ucla.edu/htmls/dist/Mixture_Distribution.html
g.d.l. 2 numerador 30 denominador
g.d.l. 6 numerador 30 denominador
g.d.l. 10 numerador 30 denominador
g.d.l. 2 numerador 252 denominador
g.d.l. 6 numerador 252 denominador
g.d.l. 10 numerador 252 denominador
Vemos cómo las curvas con pocos g.d.l. en el numerador son muy asimétricas y a medida que se acercan a los 10 g.d.l. se van haciendo más simétricas. Para el tipo de problema que estamos tratando (comparación de medias) las que más usaremos son las curvas de pocos g.d.l. en el numerador (1,2,3…), ya que habitualmente las variables con las que trabajamos tienen pocas categorías (grupos), es decir, habitualmente compararemos dos, tres, cuatro…. medias. Los g.d.l. del denominador influyen relativamente poco en la forma de la curva, y habitualmente trabajaremos con muestras de cierto tamaño, hasta varios cientos o incluso superando los mil sujetos.
Retomemos el paso 5
……..5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.
Las tablas de probabilidad de F son similares a las de chi-cuadrado, con algunas pequeñas diferencias. Veamos la tabla siguiente.
Distribución F de Snedecor Distribución F de Snedecor alfa = 5%alfa = 5%
A diferencia de las tablas de chi-cuadrado y de t que son únicas y tenían en los márgenes g.d.l. y valores de α , las tablas de F, como tienen g.d.l. “entre” y “dentro”, no tienen sitio para los valores de α , por lo que tiene que haber una tabla diferente para cada α. La tabla de arriba es de α =5%. Pero hay otras para 1%, para 10%, etc. Como vemos, la tabla tiene en el interior valores de F. En la fila superior de encabezamiento, g.d.l. “entre” desde 1 a 120, y en la columna exterior izquierda g.d.l. “dentro” desde 1 a infinito. Los valores de F son aquéllos que dejan a su derecha un área α =5%. El primer paso es elegir la fila y columna con los grados de libertad apropiados a nuestro problema. En el ejemplo que estamos manejando, tenemos 2 y 18 g,d,l. Encontramos la columna con 2 g.d.l. y la fila con 18 g.d.l.
El segundo paso es determinar cuál sería el valor de F que corresponde al nivel de significación que marca el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. El nivel de significación α =0,05 en la curva F con g.d.l 2 y 18 es F=3,55. Este es el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. Como nuestro valor F calculado (4,55 es mayor
p para que el lector decida (Martínez-González, 2006).
Condiciones de utilización del ANOVA
El análisis de la varianza exige que la variable cuantitativa esté distribuida normalmente en las poblaciones de origen. Es decir, los triglicéridos deberán seguir una distribución normal en los 3 grupos. En realidad lo importante es que la distribución de las desviaciones de los datos con respecto a sus medias (a esto se le llama “residuales”) siga una distribución normal. También es necesario que las varianzas sean homogéneas en los tres grupos, es decir, que la variabilidad sea del mismo orden de magnitud. Existen métodos y pruebas estadísticas para comprobar que se cumplen estos supuestos (análisis de la normalidad de los residuales y test de Levene). En este curso asumiremos que ambos supuestos se cumplen en los distintos ejemplos y ejercicios. No obstante se dice que la prueba de análisis de la varianza es “robusta”, es decir, es válida incluso cuando la condición de normalidad se cumple solo aproximadamente.
Otro ejemplo
Se realiza un estudio para averiguar si los cuidadores de pacientes crónicos de 3 centros de día difieren en las puntuaciones obtenidas en un test sobre satisfacción. Dicho de otra forma, si el factor centro de día (variable cualitativa) influye sobre el grado de satisfacción (variable cuantitativa). Para ello se eligen al azar nA = 8 cuidadores del centro A, nB = 7 cuidadores del
centro B y nC = 6 cuidadores del centro C. A todos ellos se les aplica un mismo cuestionario sobre
satisfacción. Se han observado los siguientes resultados:
xi (xi-media)^2 xi (xi-media)^2 xi (xi-media)^2 170 30,25 172 0,73 162 0, 182 42,25 184 124,16 156 40, 168 56,25 169 14,88 166 13, 175 0,25 167 34,31 171 75, 185 90,25 171 3,45 158 18, (^166) 90,25 183 102,88 161 1, 178 6,25 164 78, 180 20, Nº de cuidadores 8 7 6 Media de grupo 175,5 172,9 162, Media global Suma de cuadrados dentro de cada grupo 336,0 358,9 149,
Suma de cuadrados dentro de grupos total (^) 844,
Puntuaciones observadas en el cuestionario de satisfacción
170,
Centro A Centro B Centro C
La observación de estos resultados indica que el centro A ha obtenido mayor puntuación media (175,5 puntos) que el centro B (172,9 puntos) y ambos que el centro C (162,3 puntos).
Estas diferentes puntuaciones medias ¿pueden ser debidas al azar (a la selección de las muestras de cuidadores) o existe una influencia del factor “centro” en ellas ?. Dicho en términos estadísticos, ¿ son las diferencias entre el conjunto de las 3 medias estadísticamente significativas ?.
Sigamos los pasos habituales para el contraste de Hipótesis:
1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1. 2.- Definir el estadístico de contraste. 3.- Definir el nivel de significación (α). Habitualmente α = 0,05. 4.- Calcular el valor del estadístico de contraste. 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0. Para ello se busca en las tablas la “p” correspondiente a su valor. Si p< α (<0,05), se rechaza Ho, y se acepta alternativamente H 1 como verdadera. Esta decisión tiene asociado un riesgo de error α que consiste en considerar verdadera H 1 cuando en la realidad sea falsa y la verdadera es Ho que no debía haber sido rechazada. Si p ≥ α (≥0,05) se acepta H0 (es decir se considera verdadera) y se corre un riesgo β (error de tipo II) de cometer un error y que en realidad H0 sea falsa.
c) Cálculo de las varianzas:
d) Calculemos el valor de F con los datos observados en el ejemplo:
5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0.
Utilizando la tabla de F correspondiente a α = 0,05 (5%), el valor de F (2;18) que marca el punto crítico que separa las zonas de aceptación y rechazo de H0, es F = 3,55.
El valor de F calculado 6,78 cae claramente en la zona de rechazo de H0. Por tanto la decisión es rechazar H0 y aceptar alternativamente H1 como verdadera. Dicho en otras palabras, aceptamos
que las puntuaciones medias obtenidas por los centros son diferentes ya que el azar del muestreo no puede explicar que hayamos observado una diferencia tan grande entre ellas si H0 fuera cierta. Por tanto hay un efecto “centro” en los resultados obtenidos. Esta decisión tiene asociado un riesgo de error α que consiste en considerar verdadera H1 cuando
en la realidad sea falsa y la verdadera es H0 que no debía haber sido rechazada. El riesgo α asumido es <0,05.
46 , 9 21 3
844 , 2 N- k
Suma decuadradosdentrodelosgrupos ( mediadesu^ grupo)^2 dentro delosgrupos^ = − =
−
= ∑^ i
x N k
Var
k- 1
(mediadelgrupo-media global) k- 1
Suma decuadradosentre grupos
2 entre grupo = −
∑ i s
n Var
Ejercicio 1 .- En tres Centros de Salud se han elegido al azar tres grupos de personas y se han determinado sus cifras de presión arterial sistólica. ¿Difieren estos grupos respecto a su presión arterial?. Interpretar los resultados clínica y estadísticamente.
PRESIÓN ARTERIAL SISTÓLICA Grupo 1 Grupo 2 Grupo 3 108 108 115 122 134 121 102 104 123 124 134 135 109 114 145 134 121 115 97 129 137 124 115 125 112 126 149 110 115 109
Solución: Gdl entre grupos 2 Gdl dentro de grupos 27 Suma de cuadrados entre grupos: 1227, Suma de cuadrados dentro de grupos: 3460, F: 4, Valor crítico de F para alfa=0,05: 3, Conclusión: P <0, Valor exacto de P (ordenador) = 0,
Ejercicio 2 .- Se ha entrevistado a cuatro grupos de fumadores que desean dejar de fumar para calcular el número de cigarrillos/día que consumen, observándose los resultados de la siguiente tabla. ¿Difieren estos grupos en su hábito de fumar?. Interpretar los resultados clínica y estadísticamente.
Nº de cigarrillos al día Grupo 1 Grupo 2 Grupo 3 Grupo 4 10 12 14 9 13 17 15 21 12 13 12 19 15 13 14 22 13 13 12 16 11 12 12 10 11 16 16 16 11 13 16 16 10 16 17 17 15 14 22 12
Ejercicio 5.- También se ha estudiado el consumo calórico en un grupo de hombres y otro de mujeres, obteniéndose los resultados de la siguiente tabla. ¿Existe relación entre género y consumo calórico?. Resolver el problema mediante ANOVA y mediante la prueba t de Student. Comparar los resultados que se obtienen con ambas pruebas. Interpretar clínica y estadísticamente los resultados. Calorías día en la dieta
Gdl entre grupos 1 Gdl dentro de grupos 19 Suma de cuadrados entre grupos: 127.533, Suma de cuadrados dentro de grupos: 781.366, F: 3, Valor crítico de F para alfa=0,05: 4, Conclusión: P >0, Valor exacto de P (ordenador) = 0,
Solución t de Student: Gdl 19 t: 1, usando la tabla con 19 gdl p > 0,05 y < 0,1 ; p exacta = 0,
Ejercicio 6 .-En un estudio de satisfacción de mujeres que han dado a luz en el hospital, se entrevistó a tres grupos de mujeres que dieron a luz en tres hospitales distintos. Para ello se utilizó una escala de visual de Likert de 0 a 10. Se obtuvieron los siguientes resultados:
Grado de satisfacción Grupo 1 Grupo 2 Grupo 3 7 4 9 5 6 2 8 7 7 9 4 3 6 4 6 8 3 3 2 5 1 6 4 6 5
El resumen descriptivo de los datos es el siguiente:
GRUPO (^) Límite inferior Límite superior 1 10 6,40 2,2 4,8 8, 2 7 4,86 1,9 3,1 6, 3 8 4,00 1,9 2,5 5, Total 25 5,20 2,2 4,3 6,
N Media
Desviación estándar
IC 95% para la media
a)Formular la hipótesis nula de este estudio. b) Calcular los grados de libertad, el valor de F y la significación estadística. c)Interpretación: ¿Difieren estos grupos respecto a su satisfacción?. Interpretar los resultados clínica y estadísticamente.
Solución: a) H0: las medias de satisfacción son iguales en los tres grupos.