















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: análisis de datos II, Profesor: estadistica estadistica, Carrera: Historia, Universidad: USPCEU
Tipo: Apuntes
1 / 23
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
















El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una va- riable cuantitativa. Se trata, por tanto, de una generalización de la Prueba T para dos muestras independientes al caso de diseños con más de dos muestras. A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos independiente o factor y la representamos por VI. A la variable cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos la llamamos dependiente y la repre- sentamos por VD. Si queremos, por ejemplo, averiguar cuál de tres programas distintos de incentivos aumenta de forma más eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Después, podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremos una VI categórica (el tipo de programa de incentivos) cuyos niveles deseamos comparar entre sí, y una VD cuantitativa (la medida del rendimiento), en la cual queremos comparar los tres programas. El ANOVA de un factor permite obtener información sobre el resultado de esa comparación. Es decir, permite concluir si los sujetos sometidos a distintos programas difieren la medida de rendimiento utilizada.
La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la VD en cada nivel de la VI) son iguales. Si las medias poblacionales son igua- les, eso significa que los grupos no difieren en la VD y que, en consecuencia, la VI o factor es independiente de la VD. La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un estadístico, llamado F, que refleja el grado de parecido existente entre las medias que se es- tán comparando. El numerador del estadístico F es una estimación de la varianza poblacional basada en la variabilidad existente entre las medias de cada grupo:. El denominador del estadístico F es también una estimación de la varianza poblacional, pero basada en la varia- bilidad existente dentro de cada grupo: ( j se refiere a los distintos grupos o niveles del factor):
Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre ellas tan sólo diferencias atribuibles al azar. En ese caso, la estimación (basada en las diferencias entre las medias) reflejará el mismo grado de variación que la estimación (basa- da en las diferencias entre las puntuaciones individuales) y el cociente F tomará un valor próxi- mo a 1. Si las medias muestrales son distintas, la estimación reflejará mayor grado de varia- ción que la estimación y el cociente F tomará un valor mayor que 1. Cuanto más diferentes sean las medias, mayor será el valor de F. Si las poblaciones muestreadas son normales y sus varianzas son iguales, el estadístico F se distribuye según el modelo de probabilidad F de Fisher-Snedecor (los grados de libertad del numerador son el número de grupos menos 1; los del denominador, el número total de obser- vaciones menos el número de grupos). Si suponemos cierta la hipótesis de igualdad de medias, podemos conocer en todo momento la probabilidad de obtener un valor como el obtenido o mayor (ver Pardo y San Martín, 1998, págs. 248-250). El estadístico F se interpreta de forma similar a como hemos hecho en el capítulo anterior con el estadístico T. Si el nivel crítico asociado al estadístico F (es decir, si la probabilidad de obtener valores como el obtenido o mayores) es menor que 0,05, rechazaremos la hipótesis de
Salario actual
89438483925,943 2 44719241962,971 434,481 , 48478011510,397 471 102925714, 137916495436,340 473
Inter-grupos Intra-grupos Total
Sumas de cuadrados gl Medias cuadráticas F Sig.
Este ejemplo muestra cómo llevar a cabo un análisis de varianza de un factor con las especi- ficaciones que el programa tiene establecidas por defecto. Vamos a comprobar si los diferentes grupos definidos por la variable catlab (categoría laboral) difieren en la variable salario (sa- lario actual). Para ello:
salario a la lista Dependientes y la variable catlab al cuadro Factor.
Sólo con estas indicaciones, al pulsar el botón Aceptar el Visor ofrece la información que muestra la tabla 14.1.
Tabla 14.1. Tabla resumen del procedimiento ANOVA de un factor.
Según sabemos ya, el estadístico F es el cociente entre dos estimadores diferentes de la varian- za poblacional. Uno de estos estimadores se obtiene a partir de la variación existente entre las medias de los grupos (variación Inter-grupos ). El otro estimador se obtiene a partir de la varia- ción existente entre las puntuaciones dentro de cada grupo (variación Intra-grupos ). La tabla 14.1 recoge: una cuantificación de ambas fuentes de variación ( Sumas de cuadrados ), los gra- dos de libertad asociados a cada suma de cuadrados ( gl ) y el valor concreto adoptado por cada estimador de la varianza poblacional ( medias cuadráticas : se obtienen dividiendo las sumas de cuadrados entre sus correspondientes grados de libertad). El cociente entre estas dos medias cuadráticas nos proporciona el valor del estadístico F , el cual aparece acompañado de su correspondiente nivel crítico o nivel de significación obser- vado ( Sig. ), es decir, de la probabilidad de obtener valores como el obtenido o mayores bajo la hipótesis de igualdad de medias. Puesto que el valor del nivel crítico (0,000), es menor que 0,05, decidimos rechazar la hipótesis de igualdad de medias y concluimos que las poblaciones definidas por la variable catlab no poseen el mismo salario medio.
Las opciones del procedimiento ANOVA de un factor permiten seleccionar algunos estadísticos descriptivos básicos, obtener la prueba de Levene y decidir qué tratamiento se desea dar a los casos con valores perdidos. Para modificar estas opciones:
subcuadro de diálogo ANOVA de un factor: Opciones que muestra la figura 14.2.
Figura 14.2. Subcuadro de diálogo ANOVA de un factor: Opciones.
Estadísticos. Este recuadro incluye algunos estadísticos descriptivos y la prueba de Levene para contrastar la hipótesis de homogeneidad de varianzas:
total muestral: número de observaciones, media, desviación típica, error típico de la media, intervalo de confianza para la media y valores mínimo y máximo.
el cumplimiento de dos supuestos fundamentales: normalidad y homocedasticidad. Normalidad significa que la variable dependiente se distribuye normalmente en las J poblaciones muestreadas (tantas como grupos definidos por la variable indepen- diente o factor). No obstante, si los tamaños de los grupos son grandes, el estadístico F se comporta razonablemente bien incluso con distribuciones poblacionales sensible- mente alejadas de la normalidad. Homocedasticidad o igualdad de varianzas significa que las J poblaciones mues- treadas poseen la misma varianza. Con grupos de distinto tamaño, el incumplimiento de este supuesto debe ser cuidadosamente vigilado. La opción Homogeneidad de va-
Salario actual
363 27 84 474 $27,838.54 $30,938.89 $63,977.80 $34,419. $7,567.99 $2,114.62 $18,244.78 $17,075. $397.22 $406.96 $1,990.67 $784. $27,057.40 $30,102.37 $60,018.44 $32,878. $28,619.68 $31,775.40 $67,937.16 $35,960. $15,750 $24,300 $34,410 $15, $80,000 $35,250 $135,000 $135,
N Media Desviación típica Error típico Límite inferior Límite superior
Intervalo de confianza para la media al 95% Mínimo Máximo
Administrativo Seguridad Directivo Total
Categoría Laboral
Salarioactual 59,733 2 471 ,
Estadístico de Levene gl1 gl2 Sig.
Este ejemplo muestra cómo obtener los estadísticos descriptivos y la prueba de homogeneidad de varianzas del procedimiento ANOVA de un factor.
salario a la lista Dependientes y la variable catlab al cuadro Factor.
tor: Opciones (ver figura 14.2) y marcar las opciones Descriptivos y Homogeneidad de varianzas.
Aceptando estas elecciones, el Visor ofrece la información que recogen las tablas 14.2.a y 14.2.b.
Tabla 14.2.a Tabla de estadísticos descriptivos del procedimiento ANOVA de un factor.
Tabla 14.2.b. Prueba de Levene sobre homogeneidad de varianzas.
La tabla 14.2.a muestra, para cada grupo y para el total muestral, el número de casos, la media, la desviación típica, el error típico de la media, los límites del intervalo de confianza para la media al 95 % y los valores mínimo y máximo.
La tabla 14.2.b contiene el estadístico de Levene, el cual permite contrastar la hipótesis de que las varianzas poblacionales son iguales. Junto con el valor del estadístico de Levene (59,733) aparecen los grados de libertad de su distribución ( gl1 = 2, gl2 = 471) y el nivel crítico o probabilidad de obtener valores como el obtenido o mayores ( Significación = 0,000). Puesto que el nivel crítico (0,000) es menor que 0,05, debemos rechazar la hipótesis de igual- dad de varianzas y concluir que, en las poblaciones definidas por las tres categorías laborales, las varianzas de la variable salario no son iguales.
Asumiendo varianzas iguales. Podemos seleccionar uno o más de los siguientes procedimien- tos post hoc :
todo, inicialmente propuesto por Fisher (1935), no ejerce ningún control sobre la tasa de error. Es decir, cada comparación se lleva a cabo utilizando el nivel de significación establecido (generalmente 0,05), por lo que la tasa de error para el conjunto de compara-
paraciones llevadas a cabo. (suele encontrarse en la literatura estadística con su acrónimo inglés: LSD = Least Significant Difference ).
ferroni). Controla la tasa de error dividiendo el nivel de significación (α) entre el número de comparaciones ( k ) llevadas a cabo. Cada comparación se evalúa utilizando un nivel de significación α C = α/ k.
Student, pero controla la tasa de error evaluando cada comparación con un nivel de signifi-
(es decir, rechaza la hipótesis de igualdad de medias en más ocasiones que el método de Bonferroni).
de error para el conjunto total de comparaciones que es posible diseñar con J medias (una con otra, una con todas las demás, dos con dos, etc.). Utilizado para efectuar sólo compara- ciones por pares, es un procedimiento muy conservador: tiende a considerar significativas menos diferencias de las que debería.
la distribución F. Se trata de un método por pasos. Tras ordenar de forma ascendente las J medias por su tamaño, se efectúan todas las comparaciones posibles entre pares de me- dias teniendo en cuenta el número de escalones ( r ) que las separan: con J medias, la media más pequeña y la más grande están separadas r = J escalones; la media más pequeña y la
ción están separadas 2 escalones. El número de escalones existente entre las medias com-
paradas condiciona el nivel de significación de cada comparación, siendo éste mayor cuan- to más alejadas se encuentran las medias después de ser ordenadas. En el método R-E-G- W F , cada comparación se evalúa utilizando un estadístico F y un nivel de significación
Newman-Keuls (ver más abajo), pero no es apropiado cuando los grupos tienen tamaños distintos.
la distribución del rango estudentizado. Se trata de un método por pasos que utiliza el mis- mo estadístico que, por ejemplo, el método de Student-Newman-Keuls o el método de Tu- key, pero que controla el nivel de significación de cada comparación del mismo modo que el método R-E-G-W F. Es un método por pasos más potente que el de Duncan y el de Stu- dent-Newman-Keuls (ver más abajo), pero no apropiado cuando los grupos tienen tamaños distintos.
tribución del rango estudentizado. Al igual que los métodos R-E-G-W F y Q , éste también se basa en una ordenación de las medias por su tamaño. Pero a diferencia de ellos, aquí el nivel de significación para cada conjunto de medias separadas r pasos es siempre α. Cuan- tos más pasos existen entre dos medias, mayor es la diferencia mínima necesaria para con- siderar que esas medias difieren significativamente.
método de Student-Newman-Keuls con r = J = nº de medias. Por tanto, todas las compara- ciones son referidas a una misma diferencia mínima. Es uno de los métodos de mayor aceptación.
dio entre la diferencia honestamente significativa de Tukey y la diferencia mínima obteni- da con el método de Student-Newman-Keuls para el caso de r = 2.
basado en la distribución del rango estudentizado. Controla la tasa de error utilizando, para
tos más pasos existen entre dos medias, mayor es la diferencia mínima con la que vamos a considerar que esas medias difieren significativamente.
Variable dependiente: Salario actual
-$3,100.35 2023,760 ,276 -$7,843.44 $1,642. -$36,139.26* 1228,352 ,000 -$39,018.15 -$33,260. $3,100.35 2023,760 ,276 -$1,642.74 $7,843. -$33,038.91* 2244,409 ,000 -$38,299.13 -$27,778. $36,139.26* 1228,352 ,000 $33,260.37 $39,018. $33,038.91* 2244,409 ,000 $27,778.69 $38,299. -$3,100.35* 2023,760 ,000 -$4,454.82 -$1,745. -$36,139.26* 1228,352 ,000 -$40,977.02 -$31,301. $3,100.35* 2023,760 ,000 $1,745.88 $4,454. -$33,038.91* 2244,409 ,000 -$37,881.38 -$28,196. $36,139.26* 1228,352 ,000 $31,301.50 $40,977. $33,038.91* 2244,409 ,000 $28,196.44 $37,881.
(J) Categoría Laboral Seguridad Directivo Administrativo Directivo Administrativo Seguridad Seguridad Directivo Administrativo Directivo Administrativo Seguridad
(I) Categoría Laboral Administrativo
Seguridad
Directivo
Administrativo
Seguridad
Directivo
HSD de Tukey
Games-Howell
Diferencia de medias (I-J)
Error típico Sig.
Límite inferior
Límite superior
Intervalo de confianza al 95%
*.La diferencia entre las medias es significativa al nivel .05.
Este ejemplo muestra cómo obtener e interpretar las comparaciones pot hoc del procedimiento ANOVA de un factor. Puesto que todas las comparaciones post hoc se obtienen e interpretan de la misma forma, bastará con marcar cualquiera de las disponibles y estudiar los resultados que genera.
salario a la lista Dependientes y la variable catlab al cuadro Factor.
Comparaciones múltiples post hoc (ver figura 14.3).
mes-Howell del recuadro No asumiendo varianzas iguales.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las tablas 14.3.a y 14.3.b.
Tabla 14.3.a. Comparaciones múltiples ( Tukey y Games-Howell ) del procedimiento ANOVA de un factor.
363 $27,838. 27 $30,938. 84 $63,977. ,226 1,
Categoría Laboral Administrativo Seguridad Directivo Sig.
HSD de Tukeya
N 1 2
Subset for alpha =.
Salario actual
Como tamaño muestral se utiliza la media armónica de los tamaños de cada grupo = 58,
a.
La primera columna de la tabla 14.3.a nos indica que hemos seleccionado dos procedimientos post hoc : la diferencia honestamente significativa (HSD) de Tukey y el método de Games- Howell. A continuación aparecen todas las posibles combinaciones dos a dos entre los niveles o categorías de la variable factor ( categoría laboral ), las diferencias entre los salarios medios de cada dos grupos, el error típico de esas diferencias y el nivel crítico asociado a cada diferencia ( Significación ). Los grupos cuyas medias difieren significativamente al nivel de significación establecido (0,05 por defecto) están marcados con un asterisco. Podemos comprobar que el número de diferencias significativas detectadas no es el mismo con los dos métodos utilizados. Pero, puesto que no podemos asumir varianzas poblacionales iguales (ver el resultado de la prueba de Levene en la tabla 14.2), debemos prestar atención a la solución propuesta por el método de Games-Howell. Por tanto, podemos concluir que todos los promedios comparados difieren significativamente: los directivos poseen un salario medio mayor que el de los agentes de seguridad, y éstos mayor que el de los administrativos. Los límites del intervalo de confianza de las dos últimas columnas permiten estimar entre qué limites se encuentra la verdadera diferencia entre las medias de los grupos. Estos intervalos también permiten tomar decisiones sobre si dos promedios difieren o no significativamente (dependiendo de que el intervalo incluya o no el valor cero). Pero al utilizar estos intervalos para decidir sobre la hipótesis de igualdad de medias hay que tener en cuenta que el intervalo se obtiene individualmente para cada diferencia, sin establecer control sobre la tasa de error, por lo que las decisiones que podamos tomar basándonos en estos intervalos serán demasiado arriesgadas.
Tabla 14.3.b. Tabla de Subgrupos homogéneos del procedimiento ANOVA de un factor.
La tabla 14.3.b ofrece una clasificación de los grupos basada en el grado de parecido existente entre sus medias. Así, en el subgrupo 1, están incluidos dos grupos ( Administrativos y Agentes
Las comparaciones entre pares de grupos (comparaciones post hoc ) no son las únicas compara- ciones múltiples que podemos efectuar. La opción Contrates permite solicitar comparaciones de tendencia y definir cualquier otro tipo de comparación entre medias que se nos ocurra plan- tear. Para obtener este tipo de comparaciones:
tes... para acceder al subcuadro de diálogo ANOVA de un factor: Contrastes que muestra la figura 14.4.
Figura 14.4. Subcuadro de diálogo ANOVA de un factor: Contrastes.
F lleva al rechazo de la hipótesis de igualdad de medias, eso significa que no todas las medias son iguales y, por tanto, que la variable independiente (VI) y la dependiente (VD) están relacionadas. En ese caso, si la VI es cuantitativa , la opción Polinómico permite determinar cuál es el tipo de relación (lineal, cuadrática, cúbica, etc.) existente entre la VI y la VD. Cada polinomio o tendencia es un componente ortogonal (independiente) de la suma de cuadrados intergrupos. El número máximo de polinomios o tendencias que podemos obtener es el número de grados de libertad de la suma de cuadrados intergrupos. Si los niveles de la VI están igualmente espaciados y todos los grupos tienen el mismo tamaño, la salida del SPSS ofrece una solución no ponderada en la que cada polinomio o tendencia es, efectivamente, un componente independiente de la suma de cuadrados intergrupos. Si
los niveles de la VI no están igualmente espaciados y/o los grupos no tienen el mismo ta- maño, la salida ofrece, además de la no ponderada, una solución ponderada en la que, para conseguir componentes independientes, se tiene en cuenta el distanciamiento existente en- tre los niveles de la VI y/o el distinto tamaño de los grupos (ver Pardo y San Martín, 1998, págs. 298-303). El menú desplegable Orden permite fijar cuál es la tendencia de mayor orden que se desea estudiar.
Coeficientes. Este cuadro de texto permite definir contrastes personalizados mediante la asignación de coeficientes concretos a los distintos grupos que se desea comparar. Así, en un diseño con, por ejemplo, 4 grupos, para comparar los dos primeros con el último, podemos
parar, por ejemplo, el primer grupo con todos los demás tomados juntos, podemos asignar estos
que efectuamos un contraste de este tipo, estamos comparando dos cosas : una media con otra, una media con varias, varias medias con varias, etc. Es decir, en un contraste de este tipo siem- pre estamos comparando dos términos. Al asignar coeficientes, el tamaño de los mismos es irrelevante, pero es necesario vigilar que los coeficientes asignados a los grupos de uno de los términos comparados sean positivos y los coeficientes asignados a los grupos del otro término sean negativos. El orden en el que se asignan los coeficientes se corresponde con el orden ascendente de los códigos de los niveles de la variable independiente (el primer coeficiente corresponde al grupo con el código más pequeño). Hay que asignar tantos coeficientes como grupos; por tanto, a los grupos que no intervengan en un contraste concreto se les debe asignar un cero. Para definir un contraste de tipo lineal , los coeficientes asignados deben sumar cero, pero es posible definir contrastes cuyos coeficientes no sumen cero (si es éste el caso, el SPSS mues- tra un mensaje de aviso).
Para definir un contraste personalizado asignando coeficientes (ver figura 14.4):
Añadir para trasladarlo a la lista de la parte inferior.
o categorías tenga la variable factor.
coeficientes previamente añadidos.
Salario actual
22021690704,895 4 5505422676,224 22,232 , 4713912,034 1 4713912,034 ,019 , 838625100,789 1 838625100,789 3,386 , 21183065604,106 3 7061021868,035 28,513 , 18500356622,400 1 18500356622,400 74,707 , 20064211829,736 1 20064211829,736 81,022 , 1118853774,370 2 559426887,185 2,259 , 898756990,902 1 898756990,902 3,629 , 1104921995,358 1 1104921995,358 4,462 , 13931779,011 1 13931779,011 ,056 , 115894522777,980 468 247637869, 137916213482,875 472
(Combinadas) No ponderado Ponderado Desviación
Término lineal
No ponderado Ponderado Desviación
Término cuadrático
No ponderado Ponderado Desviación
Término cúbico
Inter-grupos
Intra-grupos Total
Suma de cuadrados gl Media cuadrática F Sig.
Este ejemplo muestra cómo llevar a cabo comparaciones de tendencia mediante la opción Polinómico del procedimiento ANOVA de un factor.
salario (salario actual) como variable Dependiente y la variable grupedad (grupos de edad) como variable Factor.
factor: Contrastes (ver figura 14.4).
grupedad tiene 5 niveles y podemos, por tanto, evaluar hasta 4 tendencias, más allá de la tendencia cúbica no resulta fácil interpretar la relación). Aceptando estas elecciones, el Visor de resultados ofrece la información que muestra la tabla 14.4.
Tabla 14.4. Tabla resumen del ANOVA de un factor incluyendo comparaciones de tendencia.
La información referida a las comparaciones de tendencia aparece integrada en la tabla re- sumen del ANOVA como parte de la variación Inter-grupos. Puesto que los grupos no tienen el mismo tamaño, la salida ofrece tanto la solución no ponderada como la ponderada. Cada tendencia aparece con su correspondiente suma de cuadrados, sus grados de libertad, su media cuadrática, su estadístico F y el nivel crítico asociado a su estadístico F. Nos fijamos en la solución ponderada (aunque, en este ejemplo, ambas soluciones llevan a la misma conclusión). La hipótesis nula que contrastamos con cada tendencia es que la rela- ción representada por esa tendencia concreta es nula. La tendencia o término lineal tiene un nivel crítico asociado de 0,066; puesto que ese valor es mayor que 0,05, mantenemos la hipótesis de que la tendencia lineal es nula y concluimos que entre la VI ( grupos de edad ) y la VD ( salario actual ) no existe relación lineal significativa. A continuación aparece información referida al resto de tendencias todavía no contrastadas ( Desviación ). Puesto que la única tendencia contrastada es la lineal, las todavía no contrastadas son la cuadrática, la cúbica y la de cuarto orden (recordemos que con 5 grupos pueden definirse hasta 4 tendencias). El nivel crítico de estas tendencias, 0,000, es menor que 0,05, lo que nos indica que, entre las tendencias de orden mayor que el lineal, existe alguna que es significativa. Observando la información correspondiente a la tendencia o término cuadrático vemos que el nivel crítico, 0,000, es menor que 0,05, por lo que debemos decidir rechazar la hipótesis nula referida a la tendencia cuadrática y concluir que la relación entre la VI y la VD es cuadrática. En el resto de tendencias todavía no contrastadas ( Desviación ) se incluyen las tendencias cúbica y de cuarto orden. El nivel crítico de estas dos tendencias tomadas juntas vale 0,106; puesto que este nivel crítico es mayor que 0,05, podemos afirmar que, entre las tendencias de orden mayor que el cuadrático, no existe ninguna significativa. Concluimos, por tanto, que la relación entre las variables grupos de edad y salario actual es cuadrática. Para formarnos una idea precisa de la forma concreta que adopta esta relación, podemos obtener, con la opción Gráfico de las medias del subcuadro de diálogo ANOVA de un factor: Opciones (ver figura 14.2), un gráfico de líneas como el que muestra la figura 14.5.