¡Descarga ANALISIS FACTORIAL. ANALISIS MULTIVARIANTE y más Apuntes en PDF de Estadística Matemática solo en Docsity!
Capítulo 20
Análisis factorial:
El procedimiento Análisis factorial
Introducción
El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homo-
géneos de variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos
se forman con las variables que correlacionan mucho entre sí y procurando, inicialmente, que
unos grupos sean independientes de otros.
Cuando recogemos un gran número de variables de forma simultánea, como por ejemplo
en un cuestionario de satisfacción laboral, podemos estar interesados en averiguar si las pregun-
tas del cuestionario se agrupan de alguna forma característica. Aplicando un análisis factorial
a las respuestas de los sujetos podemos encontrar grupos de variables con significado común
y conseguir de esta manera reducir el número de dimensiones necesarias para explicar las
respuestas de los sujetos.
El análisis factorial es, por tanto, una técnica de reducción de la dimensionalidad de los
datos. Su propósito último consiste en buscar el número mínimo de dimensiones capaces de
explicar el máximo de información contenida en los datos.
A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regre-
sión, en el análisis factorial todas las variables del análisis cumplen el mismo papel: todas ellas
son independientes en el sentido de que no existe a priori una dependencia conceptual de unas
variables sobre otras.
Análisis factorial
El análisis factorial consta de cuatro fases características: el cálculo de una matriz capaz
de expresar la variabilidad conjunta de todas las variables, la extracción del número óptimo
de factores, la rotación de la solución para facilitar su interpretación y la estimación de las
puntuaciones de los sujetos en las nuevas dimensiones. Para ejecutar correctamente un
análisis factorial será necesario tomar algunas decisiones en cada una de estas fases. La
estructura del procedimiento Análisis factorial del SPSS se ajusta a las cuatro fases
mencionadas. Este capítulo explica cuáles son las especificaciones mínimas para obtener
una solución inicial y cuáles son las opciones disponibles para personalizar la ejecución
del procedimiento.
Para llevar a cabo un análisis factorial:
| Seleccionar la opción Reducción de datos > Análisis factorial... del menú Analizar para
acceder al cuadro de diálogo Análisis factorial que se muestra en la figura 20.1.
Figura 20.1. Cuadro de diálogo Análisis factorial.
Ejemplo (Análisis factorial)
Este ejemplo muestra cómo ejecutar el procedimiento Análisis factorial con las especifica-
ciones que el programa tiene establecidas por defecto. Vamos a comprobar si es posible resu-
mir, mediante un número reducido de dimensiones o factores, la información disponible sobre
las características laborales de un conjunto de empleados de banca (archivo de datos: Datos
de empleados.sav ). Para ello:
| En el cuadro de diálogo Análisis factorial (ver figura 20.1), seleccionar las variables
educ, catlab, salario, salini, tiempemp, expprev y edad y trasladarlas a la lista Varia-
bles. (La variable edad se ha creado a partir de la variable fechnac mediante la expre-
sión «edad = CTIME.DAYS(DATE.DMY(31,12,1997) – fechnac)/365», obteniendo así
la edad en años a fecha 31/12/1997).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas 20.1 a la
Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)
Inicial Extracción
Método de extracción: Análisis de Componentes principales.
La tabla 20.1 contiene las comunalidades asignadas inicialmente a las variables ( inicial ) y las
comunalidades reproducidas por la solución factorial ( extracción ). La comunalidad de una
variable es la proporción de su varianza que puede ser explicada por el modelo factorial obte-
nido. Estudiando las comunalidades de la extracción podemos valorar cuáles de las variables
son peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor
explicada: el modelo sólo es capaz de reproducir el 68,2% de su variabilidad original.
En una nota a pie de tabla se indica que, para llegar a esta solución factorial, se ha utilizado
un método de extracción denominado componentes principales. Dicho método de extracción,
que es el que actúa por defecto, asume que es posible explicar el 100% de la varianza observa-
da y, por ello, todas las comunalidades iniciales son iguales a la unidad (que es justamente la
varianza de una variable en puntuaciones típicas).
A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos
(enseguida veremos cuáles son esos factores) es suficiente para explicar todas y cada una de
las variables incluidas en el análisis. También podemos empezar a plantearnos en este momento
si, dando por bueno el número de factores extraído, alguna de las variables incluidas podría
quedar fuera del análisis.
. Tabla 20.1. Comunalidades.
Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)
Componente
Método de extracción: Análisis de componentes principales.
En la tabla 20.3 se encuentra la solución factorial propiamente dicha. Contiene las correlacio-
nes entre las variables originales (o saturaciones ) y cada uno de los factores. Conviene señalar
que esta matriz cambia de denominación dependiendo del método de extracción elegido. En
este caso se denomina matriz de componentes porque en nuestro ejemplo hemos utilizado el
método de componentes principales como método de extracción (es el método que actúa por
defecto). Más adelante veremos que también recibe el nombre de matriz de estructura factorial.
Comparando las saturaciones relativas de cada variable en cada uno de los tres factores po-
demos apreciar que el primer factor está constituido por las variables nivel educativo, categoría
laboral, salario actual y salario inicial. Todas estas variables saturan en un único factor por-
que constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este
factor parece reflejar la dimensión de "promoción" dentro de la empresa. El segundo factor
recoge el grupo de las variables experiencia previa y edad , por lo que podría representar la
"veteranía laboral". Por último, el tercer factor está formado por una única variable, los meses
desde el contrato , o lo que es lo mismo, la “antigüedad en el puesto”, que es independiente de
la “promoción” y de la “veteranía laboral” (puesto que los factores son independientes entre
sí y la variable no satura en los otros dos factores).
Tabla 20.3. Matriz de componentes (matriz de la estructura factorial).
Descriptivos
La opción Descriptivos ofrece algunos estadísticos descriptivos, además de la matriz de corre-
laciones y otras matrices y estadísticos relacionados con ella. Para obtener estos estadísticos:
| Pulsar en el botón Descriptivos... del cuadro de diálogo Análisis factorial (ver figura 20.1)
para acceder al subcuadro de diálogo Análisis factorial: Descriptivos que muestra la figura
Figura 20.3. Subcuadro de diálogo Análisis factorial: Descriptivos.
Estadísticos. Este apartado contiene las opciones que permiten seleccionar los estadísticos des-
criptivos del análisis:
G Descriptivos univariados. Muestra, para cada variable, el número de casos válidos,
la media y la desviación típica.
G Solución inicial. Permite obtener las comunalidades iniciales, los autovalores de la
matriz analizada y los porcentajes de varianza asociados a cada autovalor. Esta opción
actúa por defecto y la información que ofrece aparece en las tablas 20.1 y 20.2.
G Anti-imagen. Muestra la matriz de covarianzas anti-imagen y la matriz de correlacio-
nes anti-imagen. La matriz de covarianzas anti-imagen contiene los negativos de las
covarianzas parciales y la matriz de correlaciones anti-imagen contiene los coeficien-
tes de correlación parcial cambiados de signo (la correlación entre dos variables se
parcializa teniendo en cuenta el resto de variables incluidas en el análisis). En la dia-
gonal de la matriz de correlaciones anti-imagen se encuentran las medidas de adecua-
ción muestral para cada variable. Si el modelo factorial elegido es adecuado para ex-
plicar los datos, los elementos de la diagonal de la matriz de correlaciones anti-imagen
deben tener un valor próximo a 1 y el resto de elementos deben ser pequeños.
G KMO y prueba de esfericidad de Bartlett. La medida de adecuación muestral KMO
(Kaiser-Meyer-Olkin) contrasta si las correlaciones parciales entre las variables son
suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de corre-
lación observados con la magnitud de los coeficientes de correlación parcial. El esta-
dístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis factorial
puede no ser una buena idea, dado que las correlaciones entre los pares de variables
no pueden ser explicadas por otras variables. Los menores que 0,5 indican que no debe
utilizarse el análisis factorial con los datos muestrales que se están analizando.
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz
de correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones sig-
nificativas entre las variables y el modelo factorial no sería pertinente.
Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)
Media
Desviación típica
N del análisis
Ejemplo (Análisis factorial > Descriptivos)
Este ejemplo muestra cómo obtener estadísticos descriptivos adicionales a la solución ofrecida
por defecto. Además de los estadísticos descriptivos, también veremos que es posible obtener
estadísticos inferenciales para contrastar algunas hipótesis relevantes en el contexto del análisis
factorial. Seguimos utilizando las mismas siete variables que en el ejemplo anterior. Para obte-
ner estos estadísticos:
| En el subcuadro de diálogo Análisis factorial: Descriptivos (ver figura 20.3), seleccio-
nar todas las opciones de los distintos apartados.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas 20.4 a 20.8.
La tabla 20.4 muestra, para cada una de las variables incluidas en el análisis, algunos estadís-
ticos descriptivos univariados: la media, la desviación típica y el número de casos válidos para
el análisis (que puede diferir del número de casos del archivo de datos).
Si se mantienen las especificaciones que el programa tiene establecidas por defecto y el
análisis se basa en la matriz de correlaciones, las diferencias de escala y de variabilidad entre
las variables carecen de relevancia. Sin embargo, si se decide que el análisis se base en la ma-
triz de varianzas-covarianzas, las variables con mayor variabilidad tendrán mayor importancia
en la solución final.
Tabla 20.4. Estadísticos descriptivos.
Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Meses desde el contrato
Experien. previa (meses)
Edad (años)
Por último, en una nota a pie de tabla aparece el valor del determinante de la matriz de
correlaciones. Si las variables de la matriz están linealmente relacionadas, el valor del deter-
minante se aproxima a cero, lo cual es un buen síntoma de cara a la idoneidad del análisis.
La tabla 20.6 recoge la inversa de la matriz de correlaciones. Esta matriz se encuentra estre-
chamente relacionada con la matriz anti-imagen que se muestra más abajo (ver tabla 20.8). Si
el determinante de la matriz de correlaciones vale exactamente cero, el programa emite una
advertencia indicando que no es posible calcular la matriz inversa, en cuyo caso tampoco será
posible utilizar algunos de los métodos de extracción (por ejemplo, ejes principales o máxima
verosimilitud ).
Tabla 20.6. Inversa de la matriz de correlaciones.
Medida de adecuación muestral de Kaiser-Meyer-Olkin. Chi-cuadrado aproximado gl Sig.
Prueba de esfericidad de Bartlett
La tabla 20.7 contiene dos estadísticos que permiten valorar la bondad de ajuste o adecuación
de los datos analizados a un modelo factorial: la medida de adecuación muestral KMO y la
prueba de esfericidad de Bartlett.
La medida de adecuación muestral de Kaiser-Meyer-Olkin (KMO) es un índice que com-
para la magnitud de los coeficientes de correlación observados con la magnitud de los coefi-
cientes de correlación parcial:
donde rij representa el coeficiente de correlación simple entre las variables i y j y rij.m representa
la correlación parcial entre las variables i y j eliminado el efecto de las restantes m variables
incluidas en el análisis. Puesto que la correlación parcial entre dos variables debe ser pequeña
cuando el modelo factorial es adecuado (véase más adelante), el denominador debe aumentar
poco si los datos corresponden a una estructura factorial, en cuyo caso KMO tomará un valor
próximo a 1. Si el valor de la medida de adecuación muestral es reducido (los valores por deba-
jo de 0,6 se consideran mediocres) puede que no sea pertinente utilizar el análisis factorial con
esos datos. (La diagonal de la matriz de correlaciones anti-imagen incluye los coeficientes de
adecuación muestral para cada variable individualmente considerada).
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de corre-
laciones observada es en realidad una matriz identidad. Asumiendo que los datos provienen de
una distribución normal multivariante, el estadístico de Bartlett se distribuye aproximadamente
según el modelo de probabilidad chi-cuadrado y es una transformación del determinante de la
matriz de correlaciones. Si el nivel crítico ( Sig. ) es mayor que 0,05, no podremos rechazar la
hipótesis nula de esfericidad y, consecuentemente, no podremos asegurar que el modelo facto-
rial sea adecuado para explicar los datos.
Tabla 20.7. KMO y prueba de Bartlett.
La correlación anti-imagen es el negativo de la correlación parcial entre dos variables. Si
la matriz de correlaciones anti-imagen contiene una gran proporción de coeficientes elevados,
el modelo factorial puede no ser adecuado para analizar los datos.
La diagonal de la matriz de correlaciones anti-imagen contiene una medida de adecuación
muestral para cada variable. Esta medida es similar a la medida KMO, pero para cada variable
individualmente considerada.
Los valores de la diagonal de la matriz de covarianza anti-imagen se obtienen restando a
1 la correlación múltiple al cuadrado entre cada variable y las restantes variables del análisis.
Representan, por tanto, una estimación de la unicidad de cada variable, o lo que es lo mismo,
una estimación de lo que cada variable tiene de propio o de no compartido con las demás.
Habitualmente, los valores de estas dos matrices se muestran en notación científica (en formato
exponencial). Si se desea reformar la tabla para que los valores no se muestren en notación
científica, sino en notación decimal, se puede ejecutar el proceso de SPSS Deshacer notación
científica.sbs. Para ello:
| Seleccionar la tabla en el Visor de resultados. | Seleccionar la opción Ejecutar proceso... del menú Utilidades.
| En la carpeta Scripts (que cuelga de la carpeta en la que está instalado el SPSS), selec-
cionar el archivo Deshacer notación científica.sbs.
.682 b^ .632 .748 .690 .073 -.306 -. .632 .782 b^ .816 .832 -.010 .093. .748 .816 .901 b^ .876 .087 -.088 -. .690 .832 .876 .887 b^ -.025 .056 -. .073 -.010 .087 -.025 .997 b^ .000. -.306 .093 -.088 .056 .000 .894 b^. -.344 .041 -.137 -.001 .064 .888 .889 b -.116 -.087 -.057 -.022 .054. -.116 -.036 -.076 .014 -.031 -. -.087 -.036 .004 -.002 -.010 -. -.057 -.076 .004 .006 -.010 -. -.022 .014 -.002 .006 .002 -. .054 -.031 -.010 -.010 .002 -. .062 -.031 -.007 -.008 -.012 -.
Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años) Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)
Correlación reproducida
Residual a
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Meses desde el contrato
Experien. previa (meses)
Edad (años)
Método de extracción: Análisis de Componentes principales. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (33.0%) residuos no redundantes con valores absolutos > 0.05.
a.
b.Comunalidades reproducidas
La tabla 20.9 muestra la matriz de correlaciones reproducidas. El Visor ofrece esta tabla al
final de los resultados de la extracción y no junto al resto de estadísticos descriptivos.
La matriz de correlaciones reproducidas contiene las correlaciones que es posible reprodu-
cir utilizando tan sólo la información contenida en la solución factorial. Es decir, utilizando la
matriz de la tabla 20.3. En concreto, la matriz reproducida se obtiene post-multiplicando la ma-
triz factorial por su traspuesta.
Además de la matriz de correlaciones reproducidas, la tabla 20.9 también incluye la matriz
residual , la cual contiene los residuos del análisis factorial. Cada residuo expresa la diferencia
existente entre la correlación observada entre dos variables (ver tabla 20.5) y la correlación re-
producida por la estructura factorial para esas dos variables. Si el análisis ha sido fructífero,
la mayoría de las correlaciones reproducidas se parecerán a las correlaciones observadas y los
residuos serán muy pequeños. De hecho, como orientación, la tabla incluye una nota a pie de
tabla que contabiliza el número de residuos mayores que 0,05 (un valor arbitrariamente peque-
ño) y el porcentaje que ese número representa sobre el total de correlaciones no redundantes
de la matriz.
Tabla 20.9. Matriz de correlaciones reproducidas y matriz residual.
Extracción
La opción Extracción permite controlar varios aspectos relacionados con la fase de extracción
de los factores. Entre otras cosas, permite decidir qué modelo factorial se desea utilizar, en qué
matriz de datos basar el análisis y cuántos factores deben extraerse. Para controlar los aspectos
relacionados con el proceso de extracción de factores:
| Pulsar en el botón Extracción... del cuadro de diálogo Análisis factorial (ver figura 20.1)
para acceder al subcuadro de diálogo Análisis factorial: Extracción que muestra la figura
Figura 20.4. Subcuadro de diálogo Análisis factorial: Extracción.
Método. En esta lista desplegable se puede seleccionar el modelo factorial que será utilizado
para estimar las saturaciones de las variables en los factores. Los distintos métodos difieren
tanto en el algoritmo de cálculo como en la matriz que será analizada (se asume que la matriz
seleccionada es la matriz de correlaciones). Los distintos métodos disponibles son:
- Componentes principales. Método de extracción en el que los factores obtenidos son
los autovectores de la matriz de correlaciones re-escalados.
- Mínimos cuadrados no ponderados. Método de extracción que minimiza la suma
de los cuadrados de las diferencias entre las matrices de correlaciones observada y
reproducida, ignorando los elementos de la diagonal.
- Mínimos cuadrados generalizados. Método de extracción que minimiza la suma de
los cuadrados de las diferencias entre las matrices de correlaciones observada y repro-
ducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que
las variables cuya unicidad es alta reciben un peso menor que aquellas cuyo valor es
bajo. Este método genera un estadístico de bondad de ajuste chi-cuadrado que permite
contrastar la hipótesis nula de que la matriz residual es una matriz nula.
- Máxima verosimilitud. Método de extracción que proporciona las estimaciones de
los parámetros que con mayor probabilidad han producido la matriz de correlaciones
observada, asumiendo que la muestra procede de una distribución normal multivaria-
da. Las correlaciones se ponderan por el inverso de la unicidad de las variables y se
emplea un algoritmo iterativo. Este método genera un estadístico de bondad de ajuste
chi-cuadrado que permite contrastar la bondad del modelo para explicar la matriz de
correlaciones.
- Ejes principales. Método de estimación iterativo en el que, como estimación inicial
de la comunalidad, la matriz de correlaciones original se reduce sustituyendo los unos
de su diagonal por las estimaciones de la correlación múltiple al cuadrado entre cada
variable y todas las demás. La matriz reducida se auto-descompone y se corrigen las
estimaciones iniciales de la comunalidad por las nuevas estimaciones resultantes. El
proceso continua hasta que no existe diferencia entre las estimaciones de las comuna-
lidades entre dos pasos sucesivos o se alcanza alguno de los criterios de parada.