Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


ANALISIS FACTORIAL. ANALISIS MULTIVARIANTE, Apuntes de Estadística Matemática

El analisis multivariante es complejo de entender sin tener en cuentas los factores multivariables, que como muchos es de sobra entender que hay aspectos cuantitativos y cualitatativas.

Tipo: Apuntes

2021/2022

Subido el 07/12/2022

EddyFonseca
EddyFonseca 🇪🇸

2 documentos

1 / 71

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 20
Análisis factorial:
El procedimiento Análisis factorial
Introducción
El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homo-
géneos de variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos
se forman con las variables que correlacionan mucho entre sí y procurando, inicialmente, que
unos grupos sean independientes de otros.
Cuando recogemos un gran número de variables de forma simultánea, como por ejemplo
en un cuestionario de satisfacción laboral, podemos estar interesados en averiguar si las pregun-
tas del cuestionario se agrupan de alguna forma característica. Aplicando un análisis factorial
a las respuestas de los sujetos podemos encontrar grupos de variables con significado común
y conseguir de esta manera reducir el número de dimensiones necesarias para explicar las
respuestas de los sujetos.
El análisis factorial es, por tanto, una técnica de reducción de la dimensionalidad de los
datos. Su propósito último consiste en buscar el número mínimo de dimensiones capaces de
explicar el máximo de información contenida en los datos.
A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regre-
sión, en el análisis factorial todas las variables del análisis cumplen el mismo papel: todas ellas
son independientes en el sentido de que no existe a priori una dependencia conceptual de unas
variables sobre otras.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47

Vista previa parcial del texto

¡Descarga ANALISIS FACTORIAL. ANALISIS MULTIVARIANTE y más Apuntes en PDF de Estadística Matemática solo en Docsity!

Capítulo 20

Análisis factorial:

El procedimiento Análisis factorial

Introducción

El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homo-

géneos de variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos

se forman con las variables que correlacionan mucho entre sí y procurando, inicialmente, que

unos grupos sean independientes de otros.

Cuando recogemos un gran número de variables de forma simultánea, como por ejemplo

en un cuestionario de satisfacción laboral, podemos estar interesados en averiguar si las pregun-

tas del cuestionario se agrupan de alguna forma característica. Aplicando un análisis factorial

a las respuestas de los sujetos podemos encontrar grupos de variables con significado común

y conseguir de esta manera reducir el número de dimensiones necesarias para explicar las

respuestas de los sujetos.

El análisis factorial es, por tanto, una técnica de reducción de la dimensionalidad de los

datos. Su propósito último consiste en buscar el número mínimo de dimensiones capaces de

explicar el máximo de información contenida en los datos.

A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regre-

sión, en el análisis factorial todas las variables del análisis cumplen el mismo papel: todas ellas

son independientes en el sentido de que no existe a priori una dependencia conceptual de unas

variables sobre otras.

Análisis factorial

El análisis factorial consta de cuatro fases características: el cálculo de una matriz capaz

de expresar la variabilidad conjunta de todas las variables, la extracción del número óptimo

de factores, la rotación de la solución para facilitar su interpretación y la estimación de las

puntuaciones de los sujetos en las nuevas dimensiones. Para ejecutar correctamente un

análisis factorial será necesario tomar algunas decisiones en cada una de estas fases. La

estructura del procedimiento Análisis factorial del SPSS se ajusta a las cuatro fases

mencionadas. Este capítulo explica cuáles son las especificaciones mínimas para obtener

una solución inicial y cuáles son las opciones disponibles para personalizar la ejecución

del procedimiento.

Para llevar a cabo un análisis factorial:

| Seleccionar la opción Reducción de datos > Análisis factorial... del menú Analizar para

acceder al cuadro de diálogo Análisis factorial que se muestra en la figura 20.1.

Figura 20.1. Cuadro de diálogo Análisis factorial.

Ejemplo (Análisis factorial)

Este ejemplo muestra cómo ejecutar el procedimiento Análisis factorial con las especifica-

ciones que el programa tiene establecidas por defecto. Vamos a comprobar si es posible resu-

mir, mediante un número reducido de dimensiones o factores, la información disponible sobre

las características laborales de un conjunto de empleados de banca (archivo de datos: Datos

de empleados.sav ). Para ello:

| En el cuadro de diálogo Análisis factorial (ver figura 20.1), seleccionar las variables

educ, catlab, salario, salini, tiempemp, expprev y edad y trasladarlas a la lista Varia-

bles. (La variable edad se ha creado a partir de la variable fechnac mediante la expre-

sión «edad = CTIME.DAYS(DATE.DMY(31,12,1997) – fechnac)/365», obteniendo así

la edad en años a fecha 31/12/1997).

Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas 20.1 a la

Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)

Inicial Extracción

Método de extracción: Análisis de Componentes principales.

La tabla 20.1 contiene las comunalidades asignadas inicialmente a las variables ( inicial ) y las

comunalidades reproducidas por la solución factorial ( extracción ). La comunalidad de una

variable es la proporción de su varianza que puede ser explicada por el modelo factorial obte-

nido. Estudiando las comunalidades de la extracción podemos valorar cuáles de las variables

son peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor

explicada: el modelo sólo es capaz de reproducir el 68,2% de su variabilidad original.

En una nota a pie de tabla se indica que, para llegar a esta solución factorial, se ha utilizado

un método de extracción denominado componentes principales. Dicho método de extracción,

que es el que actúa por defecto, asume que es posible explicar el 100% de la varianza observa-

da y, por ello, todas las comunalidades iniciales son iguales a la unidad (que es justamente la

varianza de una variable en puntuaciones típicas).

A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos

(enseguida veremos cuáles son esos factores) es suficiente para explicar todas y cada una de

las variables incluidas en el análisis. También podemos empezar a plantearnos en este momento

si, dando por bueno el número de factores extraído, alguna de las variables incluidas podría

quedar fuera del análisis.

. Tabla 20.1. Comunalidades.

Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)

Componente

Método de extracción: Análisis de componentes principales.

En la tabla 20.3 se encuentra la solución factorial propiamente dicha. Contiene las correlacio-

nes entre las variables originales (o saturaciones ) y cada uno de los factores. Conviene señalar

que esta matriz cambia de denominación dependiendo del método de extracción elegido. En

este caso se denomina matriz de componentes porque en nuestro ejemplo hemos utilizado el

método de componentes principales como método de extracción (es el método que actúa por

defecto). Más adelante veremos que también recibe el nombre de matriz de estructura factorial.

Comparando las saturaciones relativas de cada variable en cada uno de los tres factores po-

demos apreciar que el primer factor está constituido por las variables nivel educativo, categoría

laboral, salario actual y salario inicial. Todas estas variables saturan en un único factor por-

que constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este

factor parece reflejar la dimensión de "promoción" dentro de la empresa. El segundo factor

recoge el grupo de las variables experiencia previa y edad , por lo que podría representar la

"veteranía laboral". Por último, el tercer factor está formado por una única variable, los meses

desde el contrato , o lo que es lo mismo, la “antigüedad en el puesto”, que es independiente de

la “promoción” y de la “veteranía laboral” (puesto que los factores son independientes entre

sí y la variable no satura en los otros dos factores).

Tabla 20.3. Matriz de componentes (matriz de la estructura factorial).

Descriptivos

La opción Descriptivos ofrece algunos estadísticos descriptivos, además de la matriz de corre-

laciones y otras matrices y estadísticos relacionados con ella. Para obtener estos estadísticos:

| Pulsar en el botón Descriptivos... del cuadro de diálogo Análisis factorial (ver figura 20.1)

para acceder al subcuadro de diálogo Análisis factorial: Descriptivos que muestra la figura

Figura 20.3. Subcuadro de diálogo Análisis factorial: Descriptivos.

Estadísticos. Este apartado contiene las opciones que permiten seleccionar los estadísticos des-

criptivos del análisis:

G Descriptivos univariados. Muestra, para cada variable, el número de casos válidos,

la media y la desviación típica.

G Solución inicial. Permite obtener las comunalidades iniciales, los autovalores de la

matriz analizada y los porcentajes de varianza asociados a cada autovalor. Esta opción

actúa por defecto y la información que ofrece aparece en las tablas 20.1 y 20.2.

G Anti-imagen. Muestra la matriz de covarianzas anti-imagen y la matriz de correlacio-

nes anti-imagen. La matriz de covarianzas anti-imagen contiene los negativos de las

covarianzas parciales y la matriz de correlaciones anti-imagen contiene los coeficien-

tes de correlación parcial cambiados de signo (la correlación entre dos variables se

parcializa teniendo en cuenta el resto de variables incluidas en el análisis). En la dia-

gonal de la matriz de correlaciones anti-imagen se encuentran las medidas de adecua-

ción muestral para cada variable. Si el modelo factorial elegido es adecuado para ex-

plicar los datos, los elementos de la diagonal de la matriz de correlaciones anti-imagen

deben tener un valor próximo a 1 y el resto de elementos deben ser pequeños.

G KMO y prueba de esfericidad de Bartlett. La medida de adecuación muestral KMO

(Kaiser-Meyer-Olkin) contrasta si las correlaciones parciales entre las variables son

suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de corre-

lación observados con la magnitud de los coeficientes de correlación parcial. El esta-

dístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis factorial

puede no ser una buena idea, dado que las correlaciones entre los pares de variables

no pueden ser explicadas por otras variables. Los menores que 0,5 indican que no debe

utilizarse el análisis factorial con los datos muestrales que se están analizando.

La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz

de correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones sig-

nificativas entre las variables y el modelo factorial no sería pertinente.

Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)

Media

Desviación típica

N del análisis

Ejemplo (Análisis factorial > Descriptivos)

Este ejemplo muestra cómo obtener estadísticos descriptivos adicionales a la solución ofrecida

por defecto. Además de los estadísticos descriptivos, también veremos que es posible obtener

estadísticos inferenciales para contrastar algunas hipótesis relevantes en el contexto del análisis

factorial. Seguimos utilizando las mismas siete variables que en el ejemplo anterior. Para obte-

ner estos estadísticos:

| En el subcuadro de diálogo Análisis factorial: Descriptivos (ver figura 20.3), seleccio-

nar todas las opciones de los distintos apartados.

Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas 20.4 a 20.8.

La tabla 20.4 muestra, para cada una de las variables incluidas en el análisis, algunos estadís-

ticos descriptivos univariados: la media, la desviación típica y el número de casos válidos para

el análisis (que puede diferir del número de casos del archivo de datos).

Si se mantienen las especificaciones que el programa tiene establecidas por defecto y el

análisis se basa en la matriz de correlaciones, las diferencias de escala y de variabilidad entre

las variables carecen de relevancia. Sin embargo, si se decide que el análisis se base en la ma-

triz de varianzas-covarianzas, las variables con mayor variabilidad tendrán mayor importancia

en la solución final.

Tabla 20.4. Estadísticos descriptivos.

Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)

Nivel educativo

Categoría laboral

Salario actual

Salario inicial

Meses desde el contrato

Experien. previa (meses)

Edad (años)

Por último, en una nota a pie de tabla aparece el valor del determinante de la matriz de

correlaciones. Si las variables de la matriz están linealmente relacionadas, el valor del deter-

minante se aproxima a cero, lo cual es un buen síntoma de cara a la idoneidad del análisis.

La tabla 20.6 recoge la inversa de la matriz de correlaciones. Esta matriz se encuentra estre-

chamente relacionada con la matriz anti-imagen que se muestra más abajo (ver tabla 20.8). Si

el determinante de la matriz de correlaciones vale exactamente cero, el programa emite una

advertencia indicando que no es posible calcular la matriz inversa, en cuyo caso tampoco será

posible utilizar algunos de los métodos de extracción (por ejemplo, ejes principales o máxima

verosimilitud ).

Tabla 20.6. Inversa de la matriz de correlaciones.

Medida de adecuación muestral de Kaiser-Meyer-Olkin. Chi-cuadrado aproximado gl Sig.

Prueba de esfericidad de Bartlett

La tabla 20.7 contiene dos estadísticos que permiten valorar la bondad de ajuste o adecuación

de los datos analizados a un modelo factorial: la medida de adecuación muestral KMO y la

prueba de esfericidad de Bartlett.

La medida de adecuación muestral de Kaiser-Meyer-Olkin (KMO) es un índice que com-

para la magnitud de los coeficientes de correlación observados con la magnitud de los coefi-

cientes de correlación parcial:

donde rij representa el coeficiente de correlación simple entre las variables i y j y rij.m representa

la correlación parcial entre las variables i y j eliminado el efecto de las restantes m variables

incluidas en el análisis. Puesto que la correlación parcial entre dos variables debe ser pequeña

cuando el modelo factorial es adecuado (véase más adelante), el denominador debe aumentar

poco si los datos corresponden a una estructura factorial, en cuyo caso KMO tomará un valor

próximo a 1. Si el valor de la medida de adecuación muestral es reducido (los valores por deba-

jo de 0,6 se consideran mediocres) puede que no sea pertinente utilizar el análisis factorial con

esos datos. (La diagonal de la matriz de correlaciones anti-imagen incluye los coeficientes de

adecuación muestral para cada variable individualmente considerada).

La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de corre-

laciones observada es en realidad una matriz identidad. Asumiendo que los datos provienen de

una distribución normal multivariante, el estadístico de Bartlett se distribuye aproximadamente

según el modelo de probabilidad chi-cuadrado y es una transformación del determinante de la

matriz de correlaciones. Si el nivel crítico ( Sig. ) es mayor que 0,05, no podremos rechazar la

hipótesis nula de esfericidad y, consecuentemente, no podremos asegurar que el modelo facto-

rial sea adecuado para explicar los datos.

Tabla 20.7. KMO y prueba de Bartlett.

La correlación anti-imagen es el negativo de la correlación parcial entre dos variables. Si

la matriz de correlaciones anti-imagen contiene una gran proporción de coeficientes elevados,

el modelo factorial puede no ser adecuado para analizar los datos.

La diagonal de la matriz de correlaciones anti-imagen contiene una medida de adecuación

muestral para cada variable. Esta medida es similar a la medida KMO, pero para cada variable

individualmente considerada.

Los valores de la diagonal de la matriz de covarianza anti-imagen se obtienen restando a

1 la correlación múltiple al cuadrado entre cada variable y las restantes variables del análisis.

Representan, por tanto, una estimación de la unicidad de cada variable, o lo que es lo mismo,

una estimación de lo que cada variable tiene de propio o de no compartido con las demás.

Habitualmente, los valores de estas dos matrices se muestran en notación científica (en formato

exponencial). Si se desea reformar la tabla para que los valores no se muestren en notación

científica, sino en notación decimal, se puede ejecutar el proceso de SPSS Deshacer notación

científica.sbs. Para ello:

| Seleccionar la tabla en el Visor de resultados. | Seleccionar la opción Ejecutar proceso... del menú Utilidades.

| En la carpeta Scripts (que cuelga de la carpeta en la que está instalado el SPSS), selec-

cionar el archivo Deshacer notación científica.sbs.

.682 b^ .632 .748 .690 .073 -.306 -. .632 .782 b^ .816 .832 -.010 .093. .748 .816 .901 b^ .876 .087 -.088 -. .690 .832 .876 .887 b^ -.025 .056 -. .073 -.010 .087 -.025 .997 b^ .000. -.306 .093 -.088 .056 .000 .894 b^. -.344 .041 -.137 -.001 .064 .888 .889 b -.116 -.087 -.057 -.022 .054. -.116 -.036 -.076 .014 -.031 -. -.087 -.036 .004 -.002 -.010 -. -.057 -.076 .004 .006 -.010 -. -.022 .014 -.002 .006 .002 -. .054 -.031 -.010 -.010 .002 -. .062 -.031 -.007 -.008 -.012 -.

Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años) Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Edad (años)

Correlación reproducida

Residual a

Nivel educativo

Categoría laboral

Salario actual

Salario inicial

Meses desde el contrato

Experien. previa (meses)

Edad (años)

Método de extracción: Análisis de Componentes principales. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (33.0%) residuos no redundantes con valores absolutos > 0.05.

a.

b.Comunalidades reproducidas

La tabla 20.9 muestra la matriz de correlaciones reproducidas. El Visor ofrece esta tabla al

final de los resultados de la extracción y no junto al resto de estadísticos descriptivos.

La matriz de correlaciones reproducidas contiene las correlaciones que es posible reprodu-

cir utilizando tan sólo la información contenida en la solución factorial. Es decir, utilizando la

matriz de la tabla 20.3. En concreto, la matriz reproducida se obtiene post-multiplicando la ma-

triz factorial por su traspuesta.

Además de la matriz de correlaciones reproducidas, la tabla 20.9 también incluye la matriz

residual , la cual contiene los residuos del análisis factorial. Cada residuo expresa la diferencia

existente entre la correlación observada entre dos variables (ver tabla 20.5) y la correlación re-

producida por la estructura factorial para esas dos variables. Si el análisis ha sido fructífero,

la mayoría de las correlaciones reproducidas se parecerán a las correlaciones observadas y los

residuos serán muy pequeños. De hecho, como orientación, la tabla incluye una nota a pie de

tabla que contabiliza el número de residuos mayores que 0,05 (un valor arbitrariamente peque-

ño) y el porcentaje que ese número representa sobre el total de correlaciones no redundantes

de la matriz.

Tabla 20.9. Matriz de correlaciones reproducidas y matriz residual.

Extracción

La opción Extracción permite controlar varios aspectos relacionados con la fase de extracción

de los factores. Entre otras cosas, permite decidir qué modelo factorial se desea utilizar, en qué

matriz de datos basar el análisis y cuántos factores deben extraerse. Para controlar los aspectos

relacionados con el proceso de extracción de factores:

| Pulsar en el botón Extracción... del cuadro de diálogo Análisis factorial (ver figura 20.1)

para acceder al subcuadro de diálogo Análisis factorial: Extracción que muestra la figura

Figura 20.4. Subcuadro de diálogo Análisis factorial: Extracción.

Método. En esta lista desplegable se puede seleccionar el modelo factorial que será utilizado

para estimar las saturaciones de las variables en los factores. Los distintos métodos difieren

tanto en el algoritmo de cálculo como en la matriz que será analizada (se asume que la matriz

seleccionada es la matriz de correlaciones). Los distintos métodos disponibles son:

- Componentes principales. Método de extracción en el que los factores obtenidos son

los autovectores de la matriz de correlaciones re-escalados.

- Mínimos cuadrados no ponderados. Método de extracción que minimiza la suma

de los cuadrados de las diferencias entre las matrices de correlaciones observada y

reproducida, ignorando los elementos de la diagonal.

- Mínimos cuadrados generalizados. Método de extracción que minimiza la suma de

los cuadrados de las diferencias entre las matrices de correlaciones observada y repro-

ducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que

las variables cuya unicidad es alta reciben un peso menor que aquellas cuyo valor es

bajo. Este método genera un estadístico de bondad de ajuste chi-cuadrado que permite

contrastar la hipótesis nula de que la matriz residual es una matriz nula.

- Máxima verosimilitud. Método de extracción que proporciona las estimaciones de

los parámetros que con mayor probabilidad han producido la matriz de correlaciones

observada, asumiendo que la muestra procede de una distribución normal multivaria-

da. Las correlaciones se ponderan por el inverso de la unicidad de las variables y se

emplea un algoritmo iterativo. Este método genera un estadístico de bondad de ajuste

chi-cuadrado que permite contrastar la bondad del modelo para explicar la matriz de

correlaciones.

- Ejes principales. Método de estimación iterativo en el que, como estimación inicial

de la comunalidad, la matriz de correlaciones original se reduce sustituyendo los unos

de su diagonal por las estimaciones de la correlación múltiple al cuadrado entre cada

variable y todas las demás. La matriz reducida se auto-descompone y se corrigen las

estimaciones iniciales de la comunalidad por las nuevas estimaciones resultantes. El

proceso continua hasta que no existe diferencia entre las estimaciones de las comuna-

lidades entre dos pasos sucesivos o se alcanza alguno de los criterios de parada.