





































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
grado de marketing e investigacion de mercado.Estadistica multivariante
Tipo: Apuntes
1 / 45
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!






































3.1. Introducción
El análisis de componentes principales es un método multivariante introducido por Pearson a finales del siglo XIX y desarrollado posteriormente por Hotelling en los años 30 del siglo XX.
Contexto : Base de datos con variables cuantitativas correlacionadas entre sí.
Objetivo : REDUCIR la dimensión de la base de datos original, transformando un conjunto p de variables cuantitativas interrelacionadas en otro de k variables (k<p) -llamadas Componentes Principales-, que incorporan gran parte de la variabilidad de los datos, de manera que la pérdida de información sea mínima.
La cantidad de información incorporada en una componente se mide mediante su varianza (mayor varianza, mayor información).
En principio, se obtienen tantas componentes principales como variables originales. La suma de sus varianzas es igual a la suma de las varianzas de las variables originales.
Cuando las variables originales están muy correlacionadas, la mayor parte de su variabilidad se puede explicar con muy pocas componentes, que serán las finalmente seleccionadas (reducimos así la dimensión).
Si las variables originales estuvieran incorrelacionadas, este análisis carecería de interés, ya que las componentes obtenidas coincidirían con las variables originales.
El método no exige hipótesis de partida sobre las distribuciones poblacionales, es importante que las variables originales sean cuantitativas, estén correlacionadas y no haya valores atípicos que distorsionen las covarianzas.
Tenemos una muestra tamaño n de p variables cuantitativas originales interrelacionadas.
A partir de la combinación lineal de las p variables originales elegiremos k ≤ p componentes principales no correlacionadas, que expliquen un porcentaje alto de la variabilidad de las variables iniciales.
X 1 , X 2 ,…,Xp → Z 1 , Z 2 ,…,Zk
….
Nos enfrentamos a un problema de maximización:
La primera componente 𝑍𝑍 1 es la combinación lineal que tiene varianza máxima. La segunda componente 𝑍𝑍 2 es aquella combinación lineal que tiene la siguiente varianza máxima, sujeta a la restricción de no estar correlacionada con la primera. Y así sucesivamente. Las componentes subsiguientes explican tanto como sea posible la varianza restante, mientras permanecen no correlacionadas con todas las demás componentes.
Por ejemplo, para la primera componente tenemos las siguientes ecuaciones (una para cada una de las observaciones):
…
Expresado de forma matricial la primera componente:
=
n n pn p
p
p
n a
a
a
X X X
X X X
X X X
Z
Z
Z
1
12
11
1 2
12 22 2
11 21 1
1
12
11
La segunda componente, Z 2 , es aquella combinación lineal que tiene la siguiente varianza mayor, sujeta a la misma restricción de longitud unitaria, y también a la restricción de no estar correlacionada con la primera componente.
𝑴𝑴𝒂𝒂𝑴𝑴 𝑽𝑽𝒂𝒂𝑽𝑽 (𝒁𝒁𝟏𝟏) = 𝒂𝒂𝟏𝟏^ ′^ 𝑽𝑽 𝒂𝒂𝟏𝟏 𝒔𝒔. 𝒂𝒂. 𝒂𝒂𝟏𝟏^ ′^ 𝒂𝒂𝟏𝟏 = 𝟏𝟏
Así, para maximizar Var (Z 2 ) tomamos el siguiente mayor valor propio de la matriz V (𝑽𝑽𝒂𝒂𝑽𝑽 (𝒁𝒁𝟏𝟏) = 𝝀𝝀𝟏𝟏) y 𝒂𝒂𝟏𝟏 es su vector propio.
Y así, sucesivamente.
Resumen : Las Componentes Principales son combinaciones lineales de las variables originales, cuyos coeficientes de ponderación son los vectores propios asociados a la matriz V.
Si las variables están tipificadas (media nula y varianza igual a la unidad) la varianza poblacional total es igual a p (número de variables: ∑ 𝑝𝑝𝑗𝑗=1 𝜆𝜆𝑗𝑗 = 𝑝𝑝). En este caso, la proporción de variabilidad de la componente j-ésima en la variabilidad total quedaría: 𝝀𝝀𝒋𝒋 �𝟏𝟏
La correlación entre una variable Xi y la componente Z (^) j representa la parte de la varianza de la variable explicada por la correspondiente componente principal.
3.3. Retención de componentes