Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadistica multivariante, Apuntes de Estadística

grado de marketing e investigacion de mercado.Estadistica multivariante

Tipo: Apuntes

2017/2018

Subido el 03/11/2018

cristinaterroba
cristinaterroba 🇪🇸

11 documentos

1 / 45

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística Multivariante
Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B.
Curso 2016-2017
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d

Vista previa parcial del texto

¡Descarga Estadistica multivariante y más Apuntes en PDF de Estadística solo en Docsity!

Estadística Multivariante

Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B.

Curso 2016-

Tema 3. Análisis de Componentes Principales

3.1. Introducción

Introducción

 El análisis de componentes principales es un método multivariante introducido por Pearson a finales del siglo XIX y desarrollado posteriormente por Hotelling en los años 30 del siglo XX.

Contexto : Base de datos con variables cuantitativas correlacionadas entre sí.

Objetivo : REDUCIR la dimensión de la base de datos original, transformando un conjunto p de variables cuantitativas interrelacionadas en otro de k variables (k<p) -llamadas Componentes Principales-, que incorporan gran parte de la variabilidad de los datos, de manera que la pérdida de información sea mínima.

Introducción

 La cantidad de información incorporada en una componente se mide mediante su varianza (mayor varianza, mayor información).

 En principio, se obtienen tantas componentes principales como variables originales. La suma de sus varianzas es igual a la suma de las varianzas de las variables originales.

 Cuando las variables originales están muy correlacionadas, la mayor parte de su variabilidad se puede explicar con muy pocas componentes, que serán las finalmente seleccionadas (reducimos así la dimensión).

 Si las variables originales estuvieran incorrelacionadas, este análisis carecería de interés, ya que las componentes obtenidas coincidirían con las variables originales.

Introducción

 El método no exige hipótesis de partida sobre las distribuciones poblacionales, es importante que las variables originales sean cuantitativas, estén correlacionadas y no haya valores atípicos que distorsionen las covarianzas.

Obtención de componentes

 Tenemos una muestra tamaño n de p variables cuantitativas originales interrelacionadas.

 A partir de la combinación lineal de las p variables originales elegiremos k ≤ p componentes principales no correlacionadas, que expliquen un porcentaje alto de la variabilidad de las variables iniciales.

X 1 , X 2 ,…,Xp → Z 1 , Z 2 ,…,Zk

….

Obtención de componentes

 Nos enfrentamos a un problema de maximización:

 La primera componente 𝑍𝑍 1 es la combinación lineal que tiene varianza máxima.  La segunda componente 𝑍𝑍 2 es aquella combinación lineal que tiene la siguiente varianza máxima, sujeta a la restricción de no estar correlacionada con la primera.  Y así sucesivamente. Las componentes subsiguientes explican tanto como sea posible la varianza restante, mientras permanecen no correlacionadas con todas las demás componentes.

Obtención de componentes

 Por ejemplo, para la primera componente tenemos las siguientes ecuaciones (una para cada una de las observaciones):

𝒁𝒁𝟏𝟏𝒊𝒊 = 𝒂𝒂𝟏𝟏𝟏𝟏 𝑿𝑿 𝟏𝟏𝒊𝒊 + 𝒂𝒂𝟏𝟏𝟏𝟏 𝑿𝑿𝟏𝟏𝒊𝒊 + ⋯ + 𝒂𝒂𝟏𝟏𝟏𝟏 𝑿𝑿𝟏𝟏𝒊𝒊 i=1….n

Obtención de componentes

 Expresado de forma matricial la primera componente:

= 

n n pn p

p

p

n a

a

a

X X X

X X X

X X X

Z

Z

Z

1

12

11

1 2

12 22 2

11 21 1

1

12

11

 

   

 En notación abreviada : 𝒁𝒁𝟏𝟏 = 𝑿𝑿 𝒂𝒂𝟏𝟏

 En general, para la componente j-ésima: 𝒁𝒁𝒋𝒋 = 𝑿𝑿 𝒂𝒂𝒋𝒋

Obtención de componentes

 La segunda componente, Z 2 , es aquella combinación lineal que tiene la siguiente varianza mayor, sujeta a la misma restricción de longitud unitaria, y también a la restricción de no estar correlacionada con la primera componente.

𝑴𝑴𝒂𝒂𝑴𝑴 𝑽𝑽𝒂𝒂𝑽𝑽 (𝒁𝒁𝟏𝟏) = 𝒂𝒂𝟏𝟏^ ′^ 𝑽𝑽 𝒂𝒂𝟏𝟏 𝒔𝒔. 𝒂𝒂. 𝒂𝒂𝟏𝟏^ ′^ 𝒂𝒂𝟏𝟏 = 𝟏𝟏

𝒂𝒂𝟏𝟏^ ′^ 𝑽𝑽 𝒂𝒂 𝟏𝟏 = 0

 Así, para maximizar Var (Z 2 ) tomamos el siguiente mayor valor propio de la matriz V (𝑽𝑽𝒂𝒂𝑽𝑽 (𝒁𝒁𝟏𝟏) = 𝝀𝝀𝟏𝟏) y 𝒂𝒂𝟏𝟏 es su vector propio.

 Y así, sucesivamente.

Obtención de componentes

Resumen : Las Componentes Principales son combinaciones lineales de las variables originales, cuyos coeficientes de ponderación son los vectores propios asociados a la matriz V.

Obtención de componentes

 Si las variables están tipificadas (media nula y varianza igual a la unidad) la varianza poblacional total es igual a p (número de variables: ∑ 𝑝𝑝𝑗𝑗=1 𝜆𝜆𝑗𝑗 = 𝑝𝑝). En este caso, la proporción de variabilidad de la componente j-ésima en la variabilidad total quedaría: 𝝀𝝀𝒋𝒋 �𝟏𝟏

 La correlación entre una variable Xi y la componente Z (^) j representa la parte de la varianza de la variable explicada por la correspondiente componente principal.

3.3. Retención de componentes