Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Principal Component Analysis: Obtención y Interpretación de Componentes Principales - Prof, Resúmenes de Biología

El proceso de obtención y interpretación de componentes principales (pc) en un análisis de componentes principales. Las cp son combinaciones lineales de variables originales que reducen el número de variables y explotan toda la variabilidad de los datos. Se detalla el proceso de obtención de las cp, su interpretación y la representación gráfica de los resultados.

Tipo: Resúmenes

2015/2016

Subido el 13/12/2016

jordisasro
jordisasro 🇪🇸

3.8

(53)

61 documentos

1 / 4

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 10: Components Principals i correspondències
OBJECTIUS DE LES COMPONENTES PRINCIPALS:
Reduir un gran nombre de variables a unes quantes (poques) NOVES variables (Components
Principals=Principal Components=PC) que són combinacions lineals de les variables originals i
que expliquen tota la variació de les dades
Interpretar el significat de les CP per a descriure el patró de comportament dels individus
10.1.- Obtenció i interpretació de les Components Principals
Per a un banc de dades, amb i=1,..n objectes i Y1, Y2, … Yp variables, la primera component
principal serà una variable de de màxima variança
Els coeficients de la combinació (a11,.., a1p) són les coordenades del primer vector propi de la
matriu de var-covar, C, de Y, amb les variables Y centrades. (Mitjana de cada variable és 0)
La segona component principal, incorrelada amb l’anterior (no repeteix informació) i
de màxima variança entre les que queden, resultaria ser la combinació lineal
Amb (a21,..,a2p) coordenades del segon vector propi de C (matriu de var-covar de Y, Y
centrades).
Y així fins a p.
IMPORTANT: Si les variances de les variables originals són molt distintes (el valor de la més
gran és més de quatre vegades el valor de la menor), per a l’obtenció de les CP treballarem
amb les dades estandarditzades, equivalentment amb la matriu de correlacions R
Els valors propis obtinguts corresponen a les variances de les noves variables (CP) i la
suma dels valors propis és igual a la suma de les variances de les variables originals (Suma de
la diagonal de la matriu emprada, ja siga C=variances-covariances de Y centrades, o R=Matriu
de correlacions de Y)
Si hem treballat amb R (correlacions) els elements de la diagonal són tots 1 la suma
dels valors propis serà p=nº de variables originals.
Cada valor propi dividit per la suma total representa la variança explicada per la corresponent CP
Com les CP s’obtenen en ordre decreixent de variança per a cada CP s’indica % variança
acumulada=% de variança de les dades originals si només utilitzem aquesta CP i totes les anteriors.
INTERPRETACIÓ DE LES COMPONENTS PRINCIPALS
Bàsica:
1.-Tots els coeficientes positius=”DE GRANDÀRIA” valors grans de la CP apareixen per a
individus que tenen valors grans en totes les variables originals, en canvi valors menuts de la
CP corresponen a individus amb valors menuts en totes les variables originals: Separa
“individus grans” dels “individus menuts”
2.-Amb coeficientes positius i coeficients negatius =”DE FORMA”
Adicional:
Interpretem el significat a partir dels coeficients i els “Pesos” (loadings) aquests últims són les
correlacions entre la CP i les variables originals (indiquen quines de les Yi influeixen més i com
fan canviar el valor de la CP) Però, els valors i els signes dels coeficients (i els pesos) de les
components i de les puntuacions de PC no tenen significat aïlladament. Ens fixarem únicament
en les diferències relatives i els signes contraposats entre variables.
PUNTUACIONS DE CP: Són les noves coordenades de cada individu en les noves variables (CP) Per obtenir les
puntuacions de PC de cada individu (coordenades en cada component principal) cal substituir els valors
estandarditzats que l’individu pren per a cada variable original
1 11 1 12 2 1
..
i i i p ip
Z a Y a Y a Y
2 21 1 22 2 2
..
i i i p ip
Z a Y a Y a Y
pf3
pf4

Vista previa parcial del texto

¡Descarga Principal Component Analysis: Obtención y Interpretación de Componentes Principales - Prof y más Resúmenes en PDF de Biología solo en Docsity!

Tema 10: Components Principals i correspondències

OBJECTIUS DE LES COMPONENTES PRINCIPALS:

  • Reduir un gran nombre de variables a unes quantes (poques) NOVES variables (Components Principals=Principal Components=PC) que són combinacions lineals de les variables originals i que expliquen tota la variació de les dades
  • Interpretar el significat de les CP per a descriure el patró de comportament dels individus

10.1.- Obtenció i interpretació de les Components Principals

Per a un banc de dades, amb i=1,..n objectes i Y 1 , Y 2 , … Yp variables, la primera component principal serà una variable de de màxima variança Els coeficients de la combinació ( a 11 ,.., a 1p) són les coordenades del primer vector propi de la matriu de var-covar, C, de Y, amb les variables Y centrades. (Mitjana de cada variable és 0)

La segona component principal, incorrelada amb l’anterior (no repeteix informació) i de màxima variança entre les que queden, resultaria ser la combinació lineal Amb ( a 21 ,..,a2p ) coordenades del segon vector propi de C (matriu de var-covar de Y, Y centrades). Y així fins a p.

IMPORTANT: Si les variances de les variables originals són molt distintes (el valor de la més gran és més de quatre vegades el valor de la menor), per a l’obtenció de les CP treballarem amb les dades estandarditzades, equivalentment amb la matriu de correlacions R

Els valors propis obtinguts corresponen a les variances de les noves variables ( CP ) i l a suma dels valors propis és igual a la suma de les variances de les variables originals (Suma de la diagonal de la matriu emprada, ja siga C=variances-covariances de Y centrades, o R=Matriu de correlacions de Y) Si hem treballat amb R (correlacions)els elements de la diagonal són tots 1la suma dels valors propis serà p=nº de variables originals. Cada valor propi dividit per la suma total representa la variança explicada per la corresponent CP Com les CP s’obtenen en ordre decreixent de variançaper a cada CP s’indica % variança acumulada=% de variança de les dades originals si només utilitzem aquesta CP i totes les anteriors.

INTERPRETACIÓ DE LES COMPONENTS PRINCIPALS

Bàsica : 1.- Tots els coeficientes positius =” DE GRANDÀRIA”  valors grans de la CP apareixen per a individus que tenen valors grans en totes les variables originals, en canvi valors menuts de la CP corresponen a individus amb valors menuts en totes les variables originals: Separa “individus grans” dels “individus menuts” 2.- Amb coeficientes positius i coeficients negatius =” DE FORMA”

Adicional : Interpretem el significat a partir dels coeficients i els “Pesos” ( loadings ) aquests últims són les correlacions entre la CP i les variables originals (indiquen quines de les Yi influeixen més i com fan canviar el valor de la CP) Però, els valors i els signes dels coeficients (i els pesos) de les components i de les puntuacions de PC no tenen significat aïlladament. Ens fixarem únicament en les diferències relatives i els signes contraposats entre variables.

PUNTUACIONS DE CP: Són les noves coordenades de cada individu en les noves variables (CP) Per obtenir les puntuacions de PC de cada individu (coordenades en cada component principal) cal substituir els valors estandarditzats que l’individu pren per a cada variable original

Z (^) i 1  a Y 11 i (^) 1  a Y 12 i (^) 2  .. a Y 1 p ip

Z (^) i 2  a Y 21 i (^) 1  a Y 22 i (^) 2  .. a 2 (^) p Yip

en la combinació lineal determinada pel corresponent vector propi

10.2.- Selecció del nombre de components principals i representació gràfica

Totes les corresponents fins que deixa d’haver un descens brusc en la gràfica de valors propis. Les que tenen valor propi major que 1 (si usem matriu de correlacions). Les que proporcionen un % de variabilitat explicada acumulada per dalt del 50% (> 50%-70%) Test del bastó trencat