¡Descarga Soluciones Ejercicios Análisis Multivariante y más Ejercicios en PDF de Análisis Matemático solo en Docsity!
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
Tema 6: Análisis de Coordenadas Principales (MDS)
Solución: El fichero jugadores_futbol.txt contiene los datos de la Tabla 13. Para calcular las
distancias de Gower entre los jugadores usaremos la función gower2.m. Para poder usar esta
función las columnas de la matriz de datos tiene que estar ordenadas de la siguiente forma:
primero las variables cuantitativas, luego las variables binarias y en último lugar las variables
cualitativas (no binarias). Además, las variables binarias deben estar codificadas como 0/1.
X=load('jugadores_futbol.txt'); p1=4; p2=1; p3=2; S_gower=gower2(X,p1,p2,p3); D2_gower=ones(size(S_gower))-S_gower;
Para obtener las coordenadas principales, usaremos la función coorp.m. Recordad que
D2_gower ya es la matriz de cuadrados de distancias.
[Y,vaps,percent,acum]=coorp(D2_gower)
La siguientes figuras muestran la representación MDS en dos ejes y el Scree-plot con el
porcentaje de variabilidad acumulada por los ejes.
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
La matriz Y contiene las coordenadas principales de los 50 jugadores, los vectores vaps,
percent, acum contienen, respectivamente, los autovalores de la matriz de productos
internos, el porcentaje de variabilidad explicada por cada eje principal y los porcentajes de
variabilidad acumulada.
Una forma de interpretar los ejes es calcular alguna medida de correlación/asociación entre las
variables originales y las coordenadas principales. En concreto, para ver la influencia de las
variables cuantitativas en los ejes principales, podemos calcular el coeficiente de correlación de
Pearson; para variables nominales, la V de Cramer y para variables ordinales el coeficiente de
correlación de Spearman. Esto es lo que hace la función correlaciones2.m, que además
de la tabla de correlaciones/asociaciones, proporciona un “mapa de calor” (heatmap).
Para poder utilizar la función correlaciones2.m hay que indicar el número de variables
cuantitativas y el número de variables nominales que hay la matriz de datos originales X.
Además, las columnas de X deben estar ordenadas de la siguiente forma: primero las
cuantitativas, luego las nominales y finalmente las ordinales.
En este ejercicio, hay p1 variables cuantitativas (X1, X2, X3, X4), mientras que hay dos variables
nominales (X5, X6) y una variable ordinal (X7). Por tanto, escribiremos:
pcuant=p1; pnominal=2; corr_table=correlaciones2(X,Y(:,1:3),pcuant,pnominal)
corr_table = -0.0525 0.1813 0. -0.2868 -0.4203 0. 0.0972 -0.7744 0. -0.0316 -0.7117 0. 0.3393 0.3988 0. 0.5961 0.4027 0. 0.5580 -0.3203 0.
Las variables que más influyen en el primer eje son X6 (nacionalidad) y X5 (pierna buena del
jugador), mientras que las variables X3 (altura) y X4 (peso) son las que más influyen en el
segundo eje.
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
vaps = 1.0000 0.7958 0.3333 0.0931 0.0000 0.
percent = 45.0000 35.8114 15.0000 4.1886 0.0000 0.
acum = 45.0000 80.8114 95.8114 100.0000 100.0000 100.
Si observamos la representación MDS, vemos que el primer eje está separando los animales
según si son carnívoros (izquierda) o herbívoros (derecha), mientras que el segundo eje separa
a los animales según si son salvajes (superior) o de granja (inferior).
Calculamos las asociaciones entre las variables X1-X6 y los ejes principales mediante la función
correlaciones2.m. En este ejercicio, no hay ninguna variable cuantitativa, ni ninguna
variable ordinal; todas son nominales. Por tanto, escribiremos:
corr_table=correlaciones2(X,Y(:,1:3),0,6)
corr_table = 0.6325 0.6325 0. 0.3536 0.7906 0. 0.4472 1.0000 0. 0.7071 0.7906 0. 1.0000 0.8165 0. 0.6325 0.6325 0.
La variable que más influye en el primer eje es X5 (si es carnívoro), mientras que la variable X
(tiene el cuello largo) es la que más influye en el segundo eje, aunque X5, X2 y X4 también tienen
una alta asociación.
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
Ejemplo 5 (teoría). Grané and Romera (2016) estudiaron la sensitividad y robustez de las
configuraciones MDS obtenidas a partir de distintas matrices de distancias. Para ello se disponía
de un grupo de más de 400 entrevistados en 2008 para los que se tenía información acerca de
sus ingresos (en euros), la edad (en años), el sexo del entrevistado, la situación laboral, si tuvo
algún tipo de problema con su vivienda, la frecuencia con la que recibían un ayuda económica
importante, expectativas para su vida en general y expectativas económicas. La tabla siguiente
contiene las variables observadas.
El fichero muestra_CRE.mat contiene una muestra de n=100 de estos individuos, con las 8
variables observadas: X1=ingresos mensuales, X2=edad, X3=problemas con la vivienda, X4=sexo,
X5=situación laboral, X6=ayuda económica, X7=expectativas para su vida en general,
X8=expectativas económicas.
A partir de la distancia de Gower obtener una representación en coordenadas principales.
Estudiar la influencia de las variables en la configuración MDS y describir los perfiles.
Solución: Empezamos cargando el fichero muestra_CRE.mat y vemos que sólo contiene una
matriz de datos, de nombre Xsample
load('muestra_CRE') [n,p]=size(Xsample);
Calculamos la matriz de similaridades de Gower, la correspondiente matriz de distancias y
obtenemos la representación MDS:
p1=2; p2=2; p3=p-p1-p2; S=gower2(Xsample,p1,p2,p3); D=ones(n)-S;
[Y,vaps,percent,acum] = coorp(D);
Como resultado, obtenemos la siguiente representación, en la que observamos que las dos
primeras coordenadas principales captan casi el 30% de la variabilidad de los datos. También
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
identif_cuantis(Xsample(:,1:p1),Y)
Parecen apreciarse dos grupos de edad, aunque algo confusos. Fijaros que las persona jóvenes
están hacia la derecha del primer eje, mientras a mediad que aumenta la edad, los individuos se
van situando más hacia la izquierda del eje (dado que la correlación de X2 con Y1 era de -0.6767).
El programa identif_cuantis.m crea los grupos a partir de los cuartiles de las variables
cuantitativas. Quizás esta partición no sea la más adecuada para la variable edad. Si
consideramos otros intervalos más adecuados para la variable edad (16-24; 25-49; 50-64; 65-79;
80+), entonces sí conseguimos diferencias el grupo de personas mayores de 65 años del resto.
Para las variables cualitativas, hacemos identif_cualis(Xsample(:,p1+1:p),Y)
La variable X3 nos ayuda a construir el perfil de las personas mayores de 65 años, indicando que
todas ellas han sufrido problemas con su vivienda.
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
También X5 contribuye al perfil de las personas mayores de 65 años, indicando que la gran
mayoría se encuentran jubilados o bien son mujeres que nunca trabajaron.
Las variables X7 y X8 separan a las personas encuestadas en tres grupos: indecisos, optimistas y
pesimistas. Se aprecia que las personas de mayor edad tienen peores expectativas que el resto
de encuestados.
Juntando toda esta información, podríamos establecer 4 o 5 grupos o perfiles:
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
Podemos hacer los gráficos Y1-Y2, Y1-Y3, Y2-Y3, mediante el siguiente código:
figure
subplot(1,3,1); plot(Y(:,1),Y(:,2),'.b','MarkerSize',15) grid xlabel('PC1','FontSize',12) ylabel('PC2','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,1),Y(i,2),lab(i,:)); end end
subplot(1,3,2) plot(Y(:,1),Y(:,3),'.b','MarkerSize',15) grid xlabel('PC1','FontSize',12) ylabel('PC3','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,1),Y(i,3),lab(i,:)); end end
subplot(1,3,3) plot(Y(:,2),Y(:,3),'.b','MarkerSize',15) grid xlabel('PC2','FontSize',12) ylabel('PC3','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,2),Y(i,3),lab(i,:)); end end
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
Para poder caracterizar las agrupaciones que se observan, empezaremos analizando la
influencia de las variables X1—X8 en los ejes principales. Para ello, calculamos las
correlaciones/asociaciones cruzadas entre las variables X1—X8 y los ejes Y1—Y3.
pcuant=p1;pnominal=2; corr_table=correlaciones2(X,Y(:,1:3),pcuant,pnominal)
corr_table =
0.5797 -0.3858 0. 0.8054 -0.2367 0. 0.2293 -0.4745 0. 0.8313 0.2300 0. 0.7603 0.3302 0. 0.9166 0.1207 0. 0.2536 0.8924 0. 0.5886 0.5524 0.
Las variables con correlaciones/asociaciones más fuertes con el primer eje son X6 (daños
corporales), X4 (lesiones) y X2 (daños materiales). Por tanto, los siniestros con mayores daños
personales o materiales estarán hacia la derecha del primer eje, y viceversa.
Respecto al segundo eje, destaca X7 (tamaño) con una asociación alta. De manera que este eje
tiende a discriminar los siniestros según el tamaño del vehículo. Las correlaciones/asociaciones
con el tercer eje no son superiores a 0.6, siendo la más alta X7, cuya información ya queda
reflejada en el segundo eje.
Por tanto, vamos a ceñirnos a la representación Y1-Y2, para averiguar qué marcas de vehículos
han estado implicadas en siniestros de gravedad y cuáles parecen más seguras.
Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez
De forma análoga al ejercicio anterior, podríamos describir los distintos grupos de marcas de
vehículos. También clasificar estas marcas como más o menos seguras. Así, atendiendo a las
variables X6, X4, X2 vemos que las marcas más seguras se sitúan a la izquierda del gráfico,
mientras que las menos seguras tienden a situarse hacia la derecha. En cuanto al tamaño o tipo
del vehículo, vemos que en ambos casos hay tamaños pequeños y mini, así como vehículos de
dos o cuatro puertas o furgonetas.