


























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Uso de co.ponentes principales
Tipo: Apuntes
1 / 34
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!



























Análisis Componentes Principales
Santiago de la Fuente Fernández
Análisis Componentes Principales
Santiago de la Fuente Fernández
Análisis Componentes Principales ………………………………………… 1 Ejercicio Teórico‐Práctico Componentes ……………………….……… 16 Ejercicio Práctico Componentes ………………………………..…………. 23
En el análisis de componentes principales se dispone de una muestra de tamaño n acerca de p variables X , X , 1 2 , Xp (tipificadas o expresadas en desviaciones respecto a la
media) inicialmente correlacionadas, para posteriormente obtener a partir de ellas un número k pde variables incorrelacionadas Z , Z , 1 2 , Zk que sean combinación lineal
de las variables iniciales y que expliquen la mayor parte de su variabilidad.
La primera componente principal , al igual que las restantes, se expresa como combinación lineal de las variables originales:
Z1i u 11 X1i u 12 X (^) 2i u1p Xpi
Para el conjunto de las n observaciones muestrales, la ecuación puede expresarse matricialmente:
11 11 21 p1^11 12 12 22 p2^12
1n 1n^ 2n^ pn^ 1p
Z X^ X^ X^ u Z X^ X^ X^ u
Z X^ X^ X^ u
En notación abreviada: Z 1 = Xu 1
Tanto si las X están tipificadas, como si están expresadas en desviaciones respecto de suj
media muestral, la media de Z 1 es cero, es decir, E(Z ) = E(Xu ) = E(X)u = 0 1 1 1
La varianza de Z 1 será:
n 2 1 1i 1 1 1 1 1 1 1 1 i 1
V (Z ) Z Z Z u X Xu u X X u u V u n (^) n n n
' ' ' ' ' '
Si las variables están expresadas en desviaciones respecto a la media, la expresión
n
'
( matriz de inercia ) es la matriz de covarianzas muestral a la que se denomina V (caso más
general) y para variables tipificadas
n
' (^) es la matriz de correlaciones R.
La primera componente Z 1 se obtiene de forma que su varianza sea máxima, sujeta a la
restricción de que la suma de los pesos u1j al cuadrado sea igual a la unidad, es decir, la
variable de los pesos o ponderaciones (u , u 11 12 , ,u1p ) ' se encuentra normalizada.
Se trata de hallar Z 1 maximizando V (Z ) 1 u V u 1 '^ 1 con la restricción
p 1 1 j 1
u u 1
Para afrontar el problema de maximización con restricciones se aplica el método de los multiplicadores de Lagrange, considerando la función lagrangiana:
L u V u 1 1 (u u 1 1 1) ' '
derivando respecto a u 1 e igualando a cero:
1 1 1 1
2 V u 2 u 0 (V I)u 0 u
se trata de un sistema homogéneo en u 1 que sólo tiene solución si el determinante de la
matriz de los coeficientes es nulo: V I 0.
La expresión V I 0 es equivalente a decir que es un valor propio de la matriz V
En general, la ecuación V I 0 tiene n raíces 1 , 2 , ,n, ordenadas de mayor a
menor 1 2 n
Si en la ecuación (V I)u 1 0 se multiplica a la derecha por u 1 '^ se tiene:
u (V 1 I)u 1 0 u V u 1 1 V (Z ) 1 u V u 1 1
Por tanto, para maximizar V (Z ) hay que tomar el mayor valor propio 1 de la matriz V
Tomando 1 como el mayor valor propio de V y tomando u 1 como su vector propio
asociado normalizado (u u 1 '^ 1 1), se define el vector de ponderaciones que se aplica a las
variables iniciales para obtener la primera componente principal , componente que se expresa:
Z 1 Xu 1
La segunda componente principal , al igual que las restantes, se expresa como combinación lineal de las variables originales:
Z2i u 21 X1i u 22 X2i u (^) 2p Xpi
Para el conjunto de las n observaciones muestrales, la ecuación puede expresarse matricialmente:
21 11 21 p1 21 22 12 22 p2 22
2n 1n 2n pn 2p
Z X^ X^ X^ u Z X^ X^ X^ u
Z X^ X^ X^ u
En notación abreviada: Z 2 (^) = Xu 2
Tanto si las X están tipificadas, como si están expresadas en desviaciones respecto de suj
media muestral, la media de Z 2 es cero, es decir, E(Z ) = E(Xu ) = E(X)u 2 2 2 = 0
La varianza de Z 2 será:
n 2 2 2i 2 2 2 2 2 2 2 2 i 1
V (Z ) Z Z Z u X Xu u X X u u V u n (^) n n n
' ' ' ' ' '
La segunda componente Z 2 se obtiene de forma que su varianza sea máxima, sujeta a la
restricción de que la suma de los pesos u2 j al cuadrado sea igual a la unidad, es decir, la
Por lo tanto, para maximizar V (Z ) se ha de tomar el segundo mayor valor propio 2 de la
matriz V (el primer mayor valor propio ya lo había tomado al obtener la primera componente principal).
Tomando 2 como el segundo mayor valor propio de V y tomando u 2 como su vector
propio asociado normalizado (u u 2 '^ 2 1), ya se ha definido el vector de ponderaciones que
se aplica a las variables iniciales para obtener la segunda componente principal, componente que vendrá definida como Z 2 = Xu 2
Análogamente, la componente principal h-ésima se define como Zh = Xuh , donde uh es
el vector propio de V asociado a su h-ésimo mayor valor propio. Suele denominarse también a uh eje factorial h-ésimo.
La varianza de la componente h-ésima es: V (Z )h u V uh ' h h
La varianza de cada componente es igual al valor propio de la matriz V al que va asociada.
Si, como es lógico, la medida de la variabilidad de las variables originales es la suma de sus varianzas, dicha variabilidad será:
p h h 1
ya que las varianzas de las variables son los términos que aparecen en la diagonal de la matriz de varianzas-covarianzas V.
Ahora bien, como V es una matriz real simétrica, por la teoría de diagonalización de
matrices, existe una matriz ortogonal P(P ^1 P '^ )tal que P V P '^ D, donde D es la matriz
diagonal con los valores propios de V ordenados de mayor a menor en la diagonal principal.
p h h 1
Por tanto, traza (P V P) '^ traza (V PP ) ' traza (VI) traza (V)
Con lo que:
p p p h h h h 1 h 1 h 1
Se ha comprobado que la suma de las varianzas de las variables ( inercia total de la nube de puntos ) es igual a la suma de las varianzas de las componentes principales e igual a la suma de los valores propios de la matriz de varianzas-covarianzas muestral V.
La proporción de la variabilidad total recogida por la componente principal h-ésima ( porcentaje de inercia explicada por la componente principal h-ésima ) viene dado por:
h h p h h 1
traza
Si las variables están tipificadas, V = R y traza(V) = traza(R) = p , con lo que la proporción
de la componente h-ésima en la variabilidad total será h p
El porcentaje de inercia explicada por las k primeras componentes principales (o ejes factoriales) se define como:
k k h h h 1 h 1 p h h 1
traza
Se denomina estructura factorial de las componentes principales a la matriz de correlaciones entre las componentes Zh y las variables originales X .j
Considerando los vectores muestrales relativos a X yj Zh respectivamente:
j j 2 j
jn
h h h
hn
La covarianza muestral entre X yj Zh viene dada por
n
Cov (^) j h ' j h
El vector X (^) j se puede expresar en función de la matriz X utilizando el vector de orden p , al
que denominamos por , que tiene un 1 en la posición j-ésima y 0 en las restantes posiciones.
La forma de expresar X (^) j en función de la matriz X a través del vector p es:
11 1i 1n
j1 ji jn
p1 pi pn
j X' δ' X'
Teniendo en cuenta que Z (^) h = Xuh se puede expresar:
Cov (X , Z ) = 1 X Z = 1 δ' X Xu'^ = δ' V u = δ λ'^ u = λ δ' u = λ u j h (^) n j h (^) n h h h h h h h hj
'
En consecuencia, se puede escribir la correlación existente entre la variable X (^) j y la
componente Z h de la siguiente forma:
En general, el objetivo de la aplicación de las componentes principales es reducir las dimensiones de las variables originales, pasando de p variables originales a m p
componentes principales.
Se plantea el problema de cómo fijar m , o lo que es lo mismo, ¿qué número de componentes se deben retener?.
Aunque para la extracción de las componentes principales no hace falta plantear un modelo estadístico previo, algunos de los criterios para determinar cuál debe ser el número óptimo de componentes a retener requieren la formulación previa de hipótesis estadísticas.
A continuación se exponen distintos criterios:
Selecciona aquellas componentes cuya raíz característica ( varianza ) (^) jexcede de la media
de las raíces características.
Analíticamente este criterio implica retener todas aquellas componentes que verifiquen:
p h j 1 h p
Si se utilizan variables tipificadas se retienen aquellas componentes tales que h 1.
Se puede considerar que las (p m)últimas raíces características poblacionales son
iguales a 0.
Si las raíces muestrales que se observan correspondientes a estas componentes no son exactamente igual a 0, se debe a los problemas del azar. Por ello, bajo el supuesto de que las variables originales siguen una distribución normal multivariante, se pueden formular las siguientes hipótesis relativas a las raíces características poblacionales:
H : 0 m 1 (^) (^) m 2 p 0
El estadístico que se considera para contrastar la hipótesis nula es:
p 2 p m j (p m 2)(p m 1) j m 1 2
2p 11 Q n (p m)Ln Ln 6
Bajo la hipótesis nula H , el estadístico Q 0 ^ se distribuye como una Chi-cuadrado con
(p m 2)(p m 1) 2
grados de libertad. Este contraste se deriva del contraste de
esfericidad de Barlett para la existencia o no de una relación significativa entre las variables analizadas que se utiliza en la validación del modelo de análisis multivariante de la varianza.
La mecánica del estadístico Q^ : Supongamos que inicialmente se han retenido m raíces características (por ejemplo, las que superan la unidad) al aplicar el criterio de la media aritmética. En el caso de que no se rechace la hipótesis nula H 0 esto significa que una o más raíces
características no retenidas es significativa(s). La decisión a tomar en este caso sería retener una nueva componente, y aplicar de nuevo el contraste a las restantes raíces características. El proceso continuaría hasta que no se rechace la hipótesis nula.
Si los valores propios son iguales, a partir del valor (m 1), no hay ejes principales a partir
del eje (m 1), en el sentido de que no hay direcciones de máxima variabilidad. La
variabilidad en las últimas (n m)dimensiones es esférica.
Para decidir este hecho debe contrastarse:
H : 0 m 1 (^) (^) m 2 p 0
Se acepta la hipótesis nula H 0 cuando el estadístico:
p p j 2 j m 1 2 j (p m)(p m 1) (^1) j m 1 2
Ln (n 1) Ln (p m)(n 1) Ln (p m)
(^)
sigue una distribución Chi-cuadrado con
(p m)(p m 1) 1 2
grados de libertad, siempre
y cuando el número de individuos n sea grande.
Si para un m fijado, ^2 es significativo, debe rechazarse la hipótesis nula H. 0
covarianzas muestral.
Esta prueba sólo es válida sí las variables X , X , 1 2 , Xn son normales con distribución
conjunta normal.
El gráfico de sedimentación se obtiene al representar en ordenadas las raíces características y en abscisas los números de las componentes principales correspondientes a cada raíz característica en orden decreciente.
Uniendo todos los puntos se obtiene una Figura que, en general, se parece al perfil de una montaña con una fuerte pendiente hasta llegar a la base, formada por una meseta con una ligera inclinación.
En este símil establecido de la montaña, en la meseta es donde se acumulan los guijarros caídos desde la cumbre, es decir, donde se sedimentan. Este es el motivo por lo que al gráfico se le conoce con el nombre de gráfico de sedimentación, su denominación en inglés es scree plot.
1 1 2 2 1 2 p
p p
0 0 u
ˆ ˆ^0 0 u X X u u u
0 0 u
'
Por otra parte,
p p 1 1 1
X X (^) u u (X X) u u
La casi nulidad del menor valor propio p de X Xˆ^ '^ ˆ puede expresarse:
p p p p p p
V (Z ) V (Xu ) (Xu ) (Xu ) 0 Xu 0 n
indicando la casi colinealidad de los vectores columna de X. En estas condiciones, elˆ vector de los coeficientes de ajuste mínimo cuadrático se escribe:
p 1 1
(X X) X yˆ^ u u X yˆ
' ' ' '
y la estimación de su matriz de varianzas-covarianzas será:
p 2 1 2 1
V ( ) S (X X) S u u
' '
lo que permite ver que uno o varios valores propios casi nulos hacen impreciso el ajuste.
Se eliminaría el problema de la casi colinealidad de los vectores columna de X suprimiendoˆ (p q)vectores uk ( k = q +1, q + 2, , p )correspondientes a los valores propios k más
pequeños de X Xˆ^ '^ ˆ.
En estas condiciones, el vector de los coeficientes de ajuste mínimo cuadrático será:
q 1 1
(^) (X X) X yˆ (^) u u X yˆ
' ' ' ' (^) q < p
y la estimación de su matriz de varianzas-covarianzas será:
q 2 1
V ( ) S u u
'
Diagonalizada la matriz X Xˆ^ '^ ˆ, el cálculo de los coeficientes (u , u , 1 2 , u )q se realiza
considerando las componentes principales tipificadas:
(^1) ˆ z (^) Xu
= 1, 2, , q
El modelo inicial Y X ese ha ajustado mediante yˆ Z c d
donde Z ( z , z , 1 2 , zq ) es la matriz ( n,q )cuyas columnas son los q vectores propios
unitarios y ortogonales z asociados a los mayores valores propios de X Xˆ^ '^ ˆ, y donde c es
el vector de los q nuevos coeficientes hallados mediante:
c (Z Z) '^ ^1 Z y '^ ˆ con V (c) S (Z Z)^2 ' ^1
Como Z Z '^ Iq ya que Z ( z , z , 1 2 , zq )con z ortogonales y unitarios, se escribe:
c (Z Z) '^ ^1 Z y '^ ˆ^ Z y '^ ˆ con
n 2 1 2 2 i i 1
V (c) S (Z Z) S I d I n q 1
'
Por lo tanto, los coeficientes c están incorrelacionados y tienen todos la misma varianza,
estimada por S.^2
La regresión ortogonal es un método utilizado para determinar una relación lineal entre p variables que a priori juegan papeles análogos (sin hacer distinción, como en el modelo lineal, entre variables endógenas y exógenas). En concreto, se buscan coeficientes tales que aseguren la más pequeña dispersión de esta combinación lineal de las variables.
Sea u un vector de p coeficientes (u , u , 1 2 , u )p , sea X la matriz (ˆ n,p )de observaciones
centradas por columnas, y sea
n
' la matriz de covarianzas muestrales de las p
variables.
La varianza de la combinación lineal de las variables Z Xuˆ , definida por u , es la cantidad
p p
V (Z) V (Xu) (Xu ) (Xu ) u Su n
Bajo este punto de vista, el análisis en componentes principales determina la combinación
lineal Z 1 Xuˆ 1 de u 1 con máxima varianza 1 , siendo 1 el mayor valor propio de S, y u 1 el
vector propio unitario asociado (u u 1 '^ 1 1).
1 1 1 1 1 1 1
V (Z ) V (Xu ) (Xu ) (Xu ) u Su n
El mismo criterio, aplicado a la búsqueda de la combinación lineal de variables con varianza mínima , lleva a retener el vector propio up de S asociado al más pequeño valor propio p ,
siendo éste el valor de esta varianza mínima.
p p p p p p p
V (Z ) V (Xu ) (Xu ) (Xu ) u Su n
En consecuencia, tomando los coeficientes de la regresión ortogonal como las componentes del vector propio up de S asociado al más pequeño valor propio p , se tiene
caracterizado el mejor ajuste en el sentido de los mínimos cuadrados a la nube de las n
La comunalidad proporciona un criterio de la calidad de la representación de cada variable, de modo que, variables totalmente representadas tienen de comunalidad la unidad.
De otra parte, la suma en vertical de los cuadrados de las cargas factoriales de todas las variables en una componente es su valor propio.
El valor propio de la primera componente: r 11 2 r 122 r1p^2 1
Al ser las cargas factoriales los coeficientes de correlación entre variables y componentes, su empleo hace comparables los pesos de cada variable en la componente y facilita su interpretación. En este sentido, su representación gráfica puede orientar en una primera aproximación a la interpretación de los coeficientes. En el papel (un plano) sólo se pueden representar los factores de dos en dos, por lo que se pueden realizar tantos gráficos como parejas de factores retenidos.
Estos gráficos se denominan círculos de correlación , y están formados por puntos que representan cada variable por medio de dos coordenadas que miden los coeficientes de correlación de dicha variable con los dos factores o componentes considerados. Todas las variables estarán contenidas dentro de un círculo de radio unidad.
Es frecuente no encontrar interpretaciones verosímiles a los factores (componentes) obtenidos, ya que se ha organizado el estudio partiendo de una primer componente principal que condensaba la máxima inercia de la nube.
No tiene por qué coincidir esta máxima inercia del primer factor, que condicionaba el cálculo de los restantes, con la óptima interpretación de cada uno de los componentes.
Para una fácil interpretación sería deseable que cada componente estuviera muy bien relacionada con pocas variables (coeficientes de correlación r próximos a 1 ó -1) y mal con las demás ( r próximos a 0). Esta optimización se obtiene por una adecuada rotación de ejes que definen los componentes principales.
Rotar un conjunto de componentes no cambia la proporción de inercia total explicada , como tampoco cambia las comunalidades de cada variable , que no son sino la proporción de varianza explicada por todos ellos. Sin embargo, los coeficientes , que dependen directamente de la posición de los componentes respecto a las variables originales (cargas factoriales y valores propios), se ven afectados por la rotación.
Existen varios tipos de rotaciones. Entre las rotaciones ortogonales , las más utilizadas son la rotación Varimax y la Quartimax.
La rotación Varimax se utiliza para conseguir que cada componente rotado (en vertical, en la matriz de cargas factoriales) presente altas correlaciones sólo con unas cuantas variables. A ésta rotación se suele aplicarse la conocida normalización de Kaiser para evitar que componentes con mayor capacidad explicativa, que no tienen por qué coincidir con la mejor interpretabilidad, pesen más en el cálculo y condicionen la rotación. Esta rotación, la más frecuentemente utilizada, es adecuada cuando el número de componentes es reducido.
La rotación Quartimax se utiliza para conseguir que cada variable (en horizontal, en la matriz de cargas factoriales) tenga una correlación alta con muy pocos componentes cuando es elevado el número de éstos.
Cuando las componentes aún rotadas ortogonalmente no presentan una clara interpretación, cabe la posibilidad de intentar mejorarla a través de rotaciones oblicuas , que no respetan la perpendicularidad entre ellas. De entre las distintas rotaciones oblicuas, la Promax se aplica normalmente sobre una Varimax previa.
Las rotaciones oblicuas varían los valores propios y las comunalidades, manteniendo la varianza explicada por el modelo. La no perpendicularidad entre los ejes produce una correlación entre ellos, antes inexistente, por lo que la parte de varianza de una variable explicada por una componente no es ya independiente de los demás factores.
La elección entre diferentes rotaciones se basa en criterios no estadísticos, no se puede decir que una rotación sea mejor que otra. La rotación preferida es aquélla que se interpreta más fácilmente. Si dos rotaciones proponen diferentes interpretaciones no deben ser consideradas discordantes sino como dos enfoques diferentes de un mismo fenómeno que el investigador deberá analizar. La interpretación de una componente es un proceso subjetivo al que la rotación puede restar parte de subjetividad.
La medida de la adecuación muestral de Kaiser-Meyer-Olkin ( Coeficiente KMO ) contrasta si las correlaciones parciales entre las variables son pequeñas, toma valores entre 0 y 1, e indica que el análisis factorial es tanto más adecuado cuanto mayor sea su valor. Así, Kaiser propuso en 1974 el siguiente criterio para decidir sobre la adecuación del análisis factorial de un conjunto de datos:
0,9 KMO 1,0 Excelente adecuación muestral 0,8 KMO 0,9 Buena adecuación muestral 0,7 KMO 0,8 Aceptable adecuación muestral 0,6 KMO 0,7 Regular adecuación muestral 0,5 KMO 0,6 Mala adecuación muestral 0,0 KM
O 0,5 Adecuación muestral inaceptable
La Prueba de esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, lo cual indicaría que el modelo factorial es inadecuado.
El estadístico de Bartlett se obtiene a partir de una transformación ^2 del determinante de la matriz de correlaciones y cuanto mayor sea, y por tanto menor el nivel de significación, más improbable es que la matriz sea una matriz identidad y más adecuado resulta el análisis factorial.
Cuanta mayor dependencia haya entre ellas, más alargada será la nube de puntos en alguna dirección y más estrecha en alguna dirección perpendicular (suponiendo siempre que la relación entre ellas fuera lineal).
La elipse de concentración está inscrita en un cuadrado con la misma orientación que la diagonal principal. Es decir, el eje mayor de la elipse forma un ángulo de 45º con el eje de abscisas.
Seleccionando Analizar/Reducción de datos/Análisis factorial ... y pulsando en el botón Descriptivos... en matriz de correlaciones la opción Correlaciones
Cuando se tipifican las observaciones ( ZVentas y ZBeneficios ) la matriz de covarianzas es la matriz de correlación y, por tanto, la varianza de cada tipificada es igual a 1.
Al aplicar el método de las componentes principales, la suma de las varianzas de todas las componentes principales (su número es igual al de variables originales) es igual a la suma de la varianzas de las variables originales. En consecuencia, como hay dos variables tipificadas la suma debe ser 2.
La primera componente principal se obtiene de forma que se maximice su varianza condicionada a las restricciones. Por ello, en general la primera componente principal tiene su varianza mayor que la de cualquier variable original. Si las variables están tipificadas, en general, la varianza de la primera componente será mayor que 1.
En el caso particular de que las variables originales estén incorrelacionadas entre sí, entonces las componentes principales coincidirán exactamente con las variables originales.
Partiendo de la matriz de correlación muestral:
La aplicación del procedimiento de componentes principales requiere calcular las raíces características y los vectores característicos de la matriz de covarianzas. Para la matriz R las raíces características que se obtienen son:
Las raíces características son: 1 1,59859 y 2 0,
La varianza de cada componente es igual al valor de la raíz característica a que está asociado.
Cuando se trata de 2 variables tipificadas, la varianza de la primera componente principal es igual a la varianza de una de las variables (1) más el coeficiente de correlación lineal entre las variables:
1 1 0,59859 1,