Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Soluciones Ejercicios Análisis Multivariante, Ejercicios de Análisis Matemático

Soluciones a ejercicios de Análisis Multivariante en el Grado en Estadística y Empresa. Se explica cómo calcular distancias de Gower y obtener coordenadas principales a partir de ellas. También se muestra cómo interpretar los ejes principales y analizar la influencia de las variables originales en ellos. Se utiliza la función correlaciones2.m para calcular correlaciones y asociaciones entre variables. Además, se describe un ejemplo de estudio de la sensitividad y robustez de las configuraciones MDS obtenidas a partir de distintas matrices de distancias.

Tipo: Ejercicios

2020/2021

A la venta desde 07/06/2022

alvaro-ruiz-26
alvaro-ruiz-26 🇪🇸

25 documentos

1 / 13

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Soluciones Ejercicios Análisis Multivariante
Aurea Grané Chávez
Grado en Estadística y Empresa
Tema 6: Análisis de Coordenadas Principales (MDS)
Solución: El fichero jugadores_futbol.txt contiene los datos de la Tabla 13. Para calcular las
distancias de Gower entre los jugadores usaremos la función gower2.m. Para poder usar esta
función las columnas de la matriz de datos tiene que estar ordenadas de la siguiente forma:
primero las variables cuantitativas, luego las variables binarias y en último lugar las variables
cualitativas (no binarias). Además, las variables binarias deben estar codificadas como 0/1.
X=load('jugadores_futbol.txt');
p1=4; p2=1; p3=2;
S_gower=gower2(X,p1,p2,p3);
D2_gower=ones(size(S_gower))-S_gower;
Para obtener las coordenadas principales, usaremos la función coorp.m. Recordad que
D2_gower ya es la matriz de cuadrados de distancias.
[Y,vaps,percent,acum]=coorp(D2_gower)
La siguientes figuras muestran la representación MDS en dos ejes y el Scree-plot con el
porcentaje de variabilidad acumulada por los ejes.
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Vista previa parcial del texto

¡Descarga Soluciones Ejercicios Análisis Multivariante y más Ejercicios en PDF de Análisis Matemático solo en Docsity!

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

Tema 6: Análisis de Coordenadas Principales (MDS)

Solución: El fichero jugadores_futbol.txt contiene los datos de la Tabla 13. Para calcular las

distancias de Gower entre los jugadores usaremos la función gower2.m. Para poder usar esta

función las columnas de la matriz de datos tiene que estar ordenadas de la siguiente forma:

primero las variables cuantitativas, luego las variables binarias y en último lugar las variables

cualitativas (no binarias). Además, las variables binarias deben estar codificadas como 0/1.

X=load('jugadores_futbol.txt'); p1=4; p2=1; p3=2; S_gower=gower2(X,p1,p2,p3); D2_gower=ones(size(S_gower))-S_gower;

Para obtener las coordenadas principales, usaremos la función coorp.m. Recordad que

D2_gower ya es la matriz de cuadrados de distancias.

[Y,vaps,percent,acum]=coorp(D2_gower)

La siguientes figuras muestran la representación MDS en dos ejes y el Scree-plot con el

porcentaje de variabilidad acumulada por los ejes.

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

La matriz Y contiene las coordenadas principales de los 50 jugadores, los vectores vaps,

percent, acum contienen, respectivamente, los autovalores de la matriz de productos

internos, el porcentaje de variabilidad explicada por cada eje principal y los porcentajes de

variabilidad acumulada.

Una forma de interpretar los ejes es calcular alguna medida de correlación/asociación entre las

variables originales y las coordenadas principales. En concreto, para ver la influencia de las

variables cuantitativas en los ejes principales, podemos calcular el coeficiente de correlación de

Pearson; para variables nominales, la V de Cramer y para variables ordinales el coeficiente de

correlación de Spearman. Esto es lo que hace la función correlaciones2.m, que además

de la tabla de correlaciones/asociaciones, proporciona un “mapa de calor” (heatmap).

Para poder utilizar la función correlaciones2.m hay que indicar el número de variables

cuantitativas y el número de variables nominales que hay la matriz de datos originales X.

Además, las columnas de X deben estar ordenadas de la siguiente forma: primero las

cuantitativas, luego las nominales y finalmente las ordinales.

En este ejercicio, hay p1 variables cuantitativas (X1, X2, X3, X4), mientras que hay dos variables

nominales (X5, X6) y una variable ordinal (X7). Por tanto, escribiremos:

pcuant=p1; pnominal=2; corr_table=correlaciones2(X,Y(:,1:3),pcuant,pnominal)

corr_table = -0.0525 0.1813 0. -0.2868 -0.4203 0. 0.0972 -0.7744 0. -0.0316 -0.7117 0. 0.3393 0.3988 0. 0.5961 0.4027 0. 0.5580 -0.3203 0.

Las variables que más influyen en el primer eje son X6 (nacionalidad) y X5 (pierna buena del

jugador), mientras que las variables X3 (altura) y X4 (peso) son las que más influyen en el

segundo eje.

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

vaps = 1.0000 0.7958 0.3333 0.0931 0.0000 0.

percent = 45.0000 35.8114 15.0000 4.1886 0.0000 0.

acum = 45.0000 80.8114 95.8114 100.0000 100.0000 100.

Si observamos la representación MDS, vemos que el primer eje está separando los animales

según si son carnívoros (izquierda) o herbívoros (derecha), mientras que el segundo eje separa

a los animales según si son salvajes (superior) o de granja (inferior).

Calculamos las asociaciones entre las variables X1-X6 y los ejes principales mediante la función

correlaciones2.m. En este ejercicio, no hay ninguna variable cuantitativa, ni ninguna

variable ordinal; todas son nominales. Por tanto, escribiremos:

corr_table=correlaciones2(X,Y(:,1:3),0,6)

corr_table = 0.6325 0.6325 0. 0.3536 0.7906 0. 0.4472 1.0000 0. 0.7071 0.7906 0. 1.0000 0.8165 0. 0.6325 0.6325 0.

La variable que más influye en el primer eje es X5 (si es carnívoro), mientras que la variable X

(tiene el cuello largo) es la que más influye en el segundo eje, aunque X5, X2 y X4 también tienen

una alta asociación.

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

Ejemplo 5 (teoría). Grané and Romera (2016) estudiaron la sensitividad y robustez de las

configuraciones MDS obtenidas a partir de distintas matrices de distancias. Para ello se disponía

de un grupo de más de 400 entrevistados en 2008 para los que se tenía información acerca de

sus ingresos (en euros), la edad (en años), el sexo del entrevistado, la situación laboral, si tuvo

algún tipo de problema con su vivienda, la frecuencia con la que recibían un ayuda económica

importante, expectativas para su vida en general y expectativas económicas. La tabla siguiente

contiene las variables observadas.

El fichero muestra_CRE.mat contiene una muestra de n=100 de estos individuos, con las 8

variables observadas: X1=ingresos mensuales, X2=edad, X3=problemas con la vivienda, X4=sexo,

X5=situación laboral, X6=ayuda económica, X7=expectativas para su vida en general,

X8=expectativas económicas.

A partir de la distancia de Gower obtener una representación en coordenadas principales.

Estudiar la influencia de las variables en la configuración MDS y describir los perfiles.

Solución: Empezamos cargando el fichero muestra_CRE.mat y vemos que sólo contiene una

matriz de datos, de nombre Xsample

load('muestra_CRE') [n,p]=size(Xsample);

Calculamos la matriz de similaridades de Gower, la correspondiente matriz de distancias y

obtenemos la representación MDS:

p1=2; p2=2; p3=p-p1-p2; S=gower2(Xsample,p1,p2,p3); D=ones(n)-S;

[Y,vaps,percent,acum] = coorp(D);

Como resultado, obtenemos la siguiente representación, en la que observamos que las dos

primeras coordenadas principales captan casi el 30% de la variabilidad de los datos. También

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

identif_cuantis(Xsample(:,1:p1),Y)

Parecen apreciarse dos grupos de edad, aunque algo confusos. Fijaros que las persona jóvenes

están hacia la derecha del primer eje, mientras a mediad que aumenta la edad, los individuos se

van situando más hacia la izquierda del eje (dado que la correlación de X2 con Y1 era de -0.6767).

El programa identif_cuantis.m crea los grupos a partir de los cuartiles de las variables

cuantitativas. Quizás esta partición no sea la más adecuada para la variable edad. Si

consideramos otros intervalos más adecuados para la variable edad (16-24; 25-49; 50-64; 65-79;

80+), entonces sí conseguimos diferencias el grupo de personas mayores de 65 años del resto.

Para las variables cualitativas, hacemos identif_cualis(Xsample(:,p1+1:p),Y)

La variable X3 nos ayuda a construir el perfil de las personas mayores de 65 años, indicando que

todas ellas han sufrido problemas con su vivienda.

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

También X5 contribuye al perfil de las personas mayores de 65 años, indicando que la gran

mayoría se encuentran jubilados o bien son mujeres que nunca trabajaron.

Las variables X7 y X8 separan a las personas encuestadas en tres grupos: indecisos, optimistas y

pesimistas. Se aprecia que las personas de mayor edad tienen peores expectativas que el resto

de encuestados.

Juntando toda esta información, podríamos establecer 4 o 5 grupos o perfiles:

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

Podemos hacer los gráficos Y1-Y2, Y1-Y3, Y2-Y3, mediante el siguiente código:

figure

subplot(1,3,1); plot(Y(:,1),Y(:,2),'.b','MarkerSize',15) grid xlabel('PC1','FontSize',12) ylabel('PC2','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,1),Y(i,2),lab(i,:)); end end

subplot(1,3,2) plot(Y(:,1),Y(:,3),'.b','MarkerSize',15) grid xlabel('PC1','FontSize',12) ylabel('PC3','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,1),Y(i,3),lab(i,:)); end end

subplot(1,3,3) plot(Y(:,2),Y(:,3),'.b','MarkerSize',15) grid xlabel('PC2','FontSize',12) ylabel('PC3','FontSize',12) title(['Explained variability ',num2str(acum(3)),'%'],'FontSize',12) if n<= for i=1:n text(Y(i,2),Y(i,3),lab(i,:)); end end

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

Para poder caracterizar las agrupaciones que se observan, empezaremos analizando la

influencia de las variables X1—X8 en los ejes principales. Para ello, calculamos las

correlaciones/asociaciones cruzadas entre las variables X1—X8 y los ejes Y1—Y3.

pcuant=p1;pnominal=2; corr_table=correlaciones2(X,Y(:,1:3),pcuant,pnominal)

corr_table =

0.5797 -0.3858 0. 0.8054 -0.2367 0. 0.2293 -0.4745 0. 0.8313 0.2300 0. 0.7603 0.3302 0. 0.9166 0.1207 0. 0.2536 0.8924 0. 0.5886 0.5524 0.

Las variables con correlaciones/asociaciones más fuertes con el primer eje son X6 (daños

corporales), X4 (lesiones) y X2 (daños materiales). Por tanto, los siniestros con mayores daños

personales o materiales estarán hacia la derecha del primer eje, y viceversa.

Respecto al segundo eje, destaca X7 (tamaño) con una asociación alta. De manera que este eje

tiende a discriminar los siniestros según el tamaño del vehículo. Las correlaciones/asociaciones

con el tercer eje no son superiores a 0.6, siendo la más alta X7, cuya información ya queda

reflejada en el segundo eje.

Por tanto, vamos a ceñirnos a la representación Y1-Y2, para averiguar qué marcas de vehículos

han estado implicadas en siniestros de gravedad y cuáles parecen más seguras.

Soluciones Ejercicios Análisis Multivariante Aurea Grané Chávez

De forma análoga al ejercicio anterior, podríamos describir los distintos grupos de marcas de

vehículos. También clasificar estas marcas como más o menos seguras. Así, atendiendo a las

variables X6, X4, X2 vemos que las marcas más seguras se sitúan a la izquierda del gráfico,

mientras que las menos seguras tienden a situarse hacia la derecha. En cuanto al tamaño o tipo

del vehículo, vemos que en ambos casos hay tamaños pequeños y mini, así como vehículos de

dos o cuatro puertas o furgonetas.