Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Técnicas estadísticas multivariables, Apuntes de Estadística

Apuntes de esta asignatura, con capturas de SPSS.

Tipo: Apuntes

2022/2023

Subido el 09/10/2023

Jorgete12
Jorgete12 🇪🇸

2 documentos

1 / 26

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Cómo clasificar variables.
- Histogramas para variables no nominales (muchos números) Análisis explorar,
descriptivo
- Gráfico circular para variable nominal (no son números, como el sexo, residencia,
tipos...)
- Gráfico en barra para variable nominal en escala, pero no muchos números
(segmentos, residencia, tipos…)
- Variables no numéricas son factores (cómo el sexo, religión, raza), es medida nominal,
ya que no siguen ningún orden.
- Si nos tienen que explicar las variables (por ej: nivel educativo 1=ESO 2=Bachiller…), y
tienen un orden (nivel educativo) no es escala. En este caso sería ordinal.
-Escala: Cuando tenemos etiquetas que NO siguen un orden. (Edad, salario, pero
también religión, preguntas de “sí o no”). También datos puramente numéricos
(edad, IQ, temperatura).
-Ordinal: Cuando tenemos etiquetas que SÍ siguen un orden (nivel satisfacción, nivel
educativo...)
-Nominal: Cuando tenemos etiquetas que NO siguen un orden. (Edad, salario, pero
también sexo, religión, preguntas de “sí o no”).
https://www.datamind.website/correlacion-lineal-cl/
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Vista previa parcial del texto

¡Descarga Técnicas estadísticas multivariables y más Apuntes en PDF de Estadística solo en Docsity!

Cómo clasificar variables.

  • Histogramas para variables no nominales (muchos números) Análisis explorar, descriptivo
  • Gráfico circular para variable nominal (no son números, como el sexo, residencia, tipos...)
  • Gráfico en barra para variable nominal en escala, pero no muchos números (segmentos, residencia, tipos…)
  • Variables no numéricas son factores (cómo el sexo, religión, raza), es medida nominal, ya que no siguen ningún orden.
  • Si nos tienen que explicar las variables (por ej: nivel educativo 1=ESO 2=Bachiller…), y tienen un orden (nivel educativo) no es escala. En este caso sería ordinal.
  • Escala: Cuando tenemos etiquetas que NO siguen un orden. (Edad, salario, pero también religión, preguntas de “sí o no”). También datos puramente numéricos (edad, IQ, temperatura).
  • Ordinal : Cuando tenemos etiquetas que SÍ siguen un orden (nivel satisfacción, nivel educativo...)
  • Nominal : Cuando tenemos etiquetas que NO siguen un orden. (Edad, salario, pero también sexo, religión, preguntas de “sí o no”). https://www.datamind.website/correlacion-lineal-cl/

Contraste de Hipótesis.

La Hipótesis Nula es la más sencilla. La creemos si pvalor es mayor que 0,05. Sino, creemos en la alternativa. La nula es que no hay discriminación (más fácil) La alternativa es que si lo hay. Comparar medias de hombre y mujeres y su salario. Usamos prueba T de nuestras independientes (dos grupos respecto a una variable (salario). Pvalor=Sig Pvalor de H Nula=0, No rechazo la nula, entonces puedo decir estadísticamente que no hay discriminación. Cambio Aula 22. Parte II. METODOS DE DEPENDENCIA. Tema 3. Regresión Lineal. La nula es que la moneda esta equilibrada, no está trucada. La alternativa es que esta trucada. La alternativa es que siempre hay diferentes, y es mas complicada. La nula es siempre lo mismo, mas fácil.

  1. Hay modelo si o no. Cuál es la nula y cuál es la alternativa. A la vista de los datos, si es alternativa (pvalor < 0,05) es que, si hay modelo y relación, si es nula (pvalor > 0,05) no hay modelo.
  2. Si hay modelo, ¿cómo de bueno es el modelo? Como de fuerte es la relación lineal.

g) Las 2 variables no serian significativas. El modelo general si es significativo (pvalor en Anova). h) Detectamos multicolinealidad. i) Las 2 variables con multicolinealidad son la antigüedad y la edad. Quitando la variable antigüedad, el modelo es ABS= 15,672 – 0,143 (EDAD) – 0, (SALARIO). Quitando la variable edad y metiendo antigüedad. Rechazamos la H. Nula. Tampoco detectamos multicolinealidad. La antigüedad es el más significativo (mayor coefic. Estandarizado) Hacer ejercicio numero 5 y el 2 opcional. Ejercicio 5. a) Al realizar una correlación bivariada y un gráfico de dispersión, observamos que la relación de Sales y Radio/TV es positiva y directa (coef. Pearson positivo), al igual que la relación Sales y Newspaper. A mayor gasto, mayores ventas. Al realizar un análisis de regresión multivariable, comprobamos que el valor de ambas variables independientes es menor que 0,1, por lo que rechazamos la H.Nula de que no hay relación con las variables y aceptamos la H. Alternativa de que si hay correlación entre el número de Sales y el gasto en TV/Radio y Newspaper, sí hay modelo. Además, podemos ver como estas variables explican en un 78,9% (R Cuadrado ajustado) la correlación con la variable Sales. Realizar un análisis de regresión multivariable. b) Según la tabla de coeficientes, podemos ver que la función Sales = 156,43 + 13’081(Radio/TV) + 16,795 (Newspaper) Por cada unidad adicional q gastamos en radio/Tv, si todo lo demás es constante, las ventas aumentaran en 13,081, y con newspaper las ventas aumentaran en 16,795. La variable que tiene más influencia sobre las Sales es el gasto en Radio/TV puesto que tiene un mayor coeficiente estandarizado (0,749) que Newspaper (0,571). c) Sales = 156,43 + 13,08120 + 16,79520 = 753,95 mil dólares. Aunque no nos dicen las unidades (hemos tomado que esta en miles), así que podría ser diferente. d) La variable Radio/TV tiene cierta relación con las Sales al tener un pvalor (< 0,01) muy pequeño (< 0,05), aunque tiene un R cuadrado no muy alto (0,485).

La variable Newspaper tiene cierta relación con las Sales al tener un pvalor (0,017) muy pequeño (< 0,05), aunque tiene un R cuadrado no muy alto (0,252). e) Las variables Radio/TV y Newspaper tiene un pvalor muy pequeño (< 0,01) y explican en un 78,9% (R Cuadrado ajustado) la correlación con la variable Sales. Podemos decir que sí hay una relación significativa. f) Al realizar un diagnóstico de colinealidad, podemos observar que el valor VIF de la variable Radio/TV (1,009) y la variable Newspaper (1,009) es menor que 4, por lo tanto, y viendo que sus respectivos pvalores son < 0,01 podemos determinar que no hay razón para sospechar que hay colinealidad. g) Como hemos observado anteriormente, el R cuadrado ajustado al incluir ambas variables es de 0.789, lo cual sí es significativo al explicar en un 78,9% la relación de ambas variables con la variable dependiente Sales. BIEN. Al separar las variables independientes, vemos que el R cuadrado de Radio/TV tiene un R cuadrado de 0,485, y el R cuadrado de Newspaper tiene un R cuadrado de 0,252. Esto significa que ninguna de estas variables por separado es muy explicativa, aunque la variable Radio/TV sí explica en mayor medida la relación con Sales que la variable Newspaper. Ejercicios 12, 10 y 8 no hacerlos porque tiene multicolinealidad. Hacer el resto. Ejercicio 13. a) Metros eje x variable independiente. Valor de tasación eje y variable dependiente. A mas metros, mayor valor de tasación. b) Correlación bivariadas y metemos todas las variables. Ahí por ejemplo podemos ver que las correlaciones más significativas (pvalor muy pequeños) son tasación con metros, metros con antigüedad y antigüedad con tasación. Metros con oficinas no es significativa, por tanto no rechazamos la H.Nula en este ultimo caso. a. Vemos R cuadrado ajustado y en Anova el pvalor completo, que es <0, por tanto rechazamos la H.Nula y si hay modelo. Pero al ver los pvalor de cada dependiente, los pvalores de antigüedad y oficinas son altas, pero el VIF es bajo así que no hay colinealidad y no hace falta restimar. Simplemente no son significativas. c) Aceptamos la H.Nula de antigüedad por su pvalor que no es significativo, igual con oficinas. Metros rechazamos la H.Nula. d) Ya lo hemos comentado. e) Ninguno es mayor que 4.

mación que esta variable aporta al modelo, está ya aportada por el resto de variable s independientes. d) Al observar los pvalores para cada variable dependiente, podemos observar que la variable superficie tiene un pvalor (0,077) mayor que 0,01, por lo tanto no es significativo para explicar su relación con el gasto en calefacción y no podemos rechazar la H.Nula. e) La H.Nula sería que no hay una relación lineal que explique el gasto en calefacción en función de las otras variables, y la H. Alternativa sería que sí hay una relación estadística con estas variables. f) Podemos observar que el modelo presenta colinealidad en todas las variables, puesto que su valor VIF es mayor que 4 en todas ellas. La solución es rehacer el modelo quitando variables para detectar cuales son las más significativas sin que haya colinealidad. MAL, EL MODELO ES GASTO CON ALTURA, FACHADA Y VENTANAS. ESTIMACIÓN PASO POR PASO. Al quitar la variable ventanas, vemos que la única correlación sin colinealidad es la de Gasto en calefacción en función de la superficie de cristal, ya que esta correlación presenta un VIF menor que 4. Ocurre lo mismo si incluimos la variable ventanas y quitamos la superficie de cristal. Al eliminar la variable altura, vemos que no hay colinealidad en el gasto de calefacción en función de las variables superficie, fachada y ventanas, ya que ninguno presenta un valor VIF mayor que 4. Por tanto, este modelo alternativo sí que tiene significado. g) Al analizar todas las variables a la vez, vemos que el coeficiente estandarizado con mayor valor absoluto es el número de ventanas, esto significa que es la variable que más influencia tiene sobre el gasto en calefacción, aunque ya hemos visto que al estar también la variable cristal, hay un problema de colinealidad que puede distorsionar el significado de estas variables. Por cada ventana adicional, el gasto en calefacción aumenta 0,180 (mirar la B) h) El coeficiente de determinación del modelo que incluye a todas la variables es 92,1%, significa que la correlación del gasto en calefacción en función del resto de variables se explica en el porcentaje mencionado. Sin embargo, ya hemos observado que este coeficiente, aun siendo alto, no significa que no pueda haber multicolinealidad entre las variables, como sí ha ocurrido. MAL. MODEL SUMMARY. El valor del coeficiente de determinación 0.918, indica que el 91.8% de la varianza (variabilidad) de la variable gasto en calefacción queda explicado por el modelo. Ejercicio 11.

a) 1. Precio de venta y ventas. Al realizar una correlación bivariada entre estas dos variables, si podemos observar que hay una relación negativa e inversa, con un pvalor muy pequeño (<0,001). Esto significa que rechazamos la H.Nula de que no hay relación y aceptamos la H. Alternativa de que si hay relación estadística: a menor precio, mayor numero de ventas.

  1. Tamaño de motor y ventas. No rechazamos la H.Nula de que no hay correlación entre estas variables, ya que el pvalor es muy grande (0,785). Rechazamos la H.Alternativa. b) Al realizar el diagrama de dispersión, podemos observar cómo la relación es negativa e inversa: a menor precio, mayor número de ventas. c) Número de ventas = 50,543 – 1,689(precio) + 29,659(tamaño motor) – 0,397(potencia)
  • 1,772 (depósito)
  1. Obervando la tabla de coeficiente, vemos que la única variable significativa es el tamaño de motor, ya que es único que posee un pvalor menor que 0,01. La otra variable significativa es precio, al poseer un pvalor menor que 0,05 Por tanto, rechazamos la H.Nula de que no hay correlación con el numero de ventas y aceptamos la H. Alternativa de que si hay correlación.
  2. El modelo anterior no es significativo al tener todas las variables (excepto motor y precio) un pvalor muy alto. En estas variables no rechazamos la H. Nula de que no hay correlación y rechazamos por tanto la H. Alternativa.
  3. El modelo estimado si presenta colinealidad en las variables motor y potencia, al tener un valor VIF mayor que 4. El modelo alternativo propuesto es ir eliminando estas variables (motor y después potencia) y rehacer el modelo hasta que sea significativo. Al hacer esto, vemos que los dos modelos generados no presentan colinealidad al tener todas las variables un VIF menor que 4. Ventas = 51.509 - 2.503precio + 22.973motor d) 1. En ambos modelos alternativos generados, la variable precio del coche es el que posee un mayor coeficiente estandarizado, esto significa que es la variable que más influye en el número de ventas de coches. Por cada 1000 euros que suba el precio de un coche, las ventas disminuyen en 2503 co ches
  4. La bondad de ajuste de ambos modelos alternativos es 13,4% y 16,1% respectivamente, lo cual no es muy significativo. Así como el modelo que incluye todas las variables (17%), no lo es tampoco. Sin embargo, al analizar solamente el numero de ventas en función del precio, vemos que la bondad del modelo (R2) es muy alto, un 93% de explicación. Sería el modelo con más significado. MAL. MODEL SUMMARY. El modelo no ajusta nada bien a los datos al ser el valor del r cuadrado corregido muy

Ejercicio 4. En tienda ponemos Valores. Valor 1 es tienda 1, valor 2 es tienda 2... Requisito 1. Usamos el Shapiro (N es 20). Los pvalores de las 3 tiendas son mayores que 0,05. No rechazamos la H.Nula. Si hubiese una menor, rechazamos la H.Nula y el ejercicio se acaba. Se distribuye de manera normal las ventas. Seguimos con el Requsiito 2. La nula es que las medias son iguales. Requisito 2. En la tabla prueba de homogeneidad de varianzas. El primer pvalor es menor que 0,05 (<0,001), por tanto, no todas las varianzas son iguales y rechazamos la H. Nula. NO se cumple el requisito 2. Al no cumplirse, el modelo Anova que nos ha dado no sirve, realizamos el estadístico de Welch. Otra vez Comparar medias, Anova de un Factor, y ahora en opciones ponemos prueba Welch. En la tabla Pruebas robustas de igualdad. Vemos que el pvalor (0,557) es mayor que 0,05, por tanto las medias son iguales, las ventas son las mismas sin depender los periodos de garantía, aceptamos la H.Nula. Como las medias son iguales, no hay ningún periodo de garantía que proporcione mayores ventas. Fin del ejercicio. Si la (prueba de homogeneidad o robustas de igualdad ¿??? )diese menor que 0,05 significa que no aceptamos la H.Nula y las varianzas no son iguales, por tanto podremos analizar las varianzas mediante T2 para ver cual tiene mayor valor.

Ejercicio 2. Añadimos valores en centro. Valor 1 es centro 1, valor 2 es centro 2...

 Requisito 1. H. Nula, que las medias de las notas de cada muestra (centro) es igual. La H. Alternativa, al menos alguna media es diferente. Miramos pvalores de Shapiro y aceptamos la H.Nula de que todas las medias son iguales. Por tanto vamos al requisito

 Requisito 2. H.Nula que todas las varianzas son iguales. Comparar medias, Anova de un factor y prueba de homogeneidad. Vemos que todas las varianzas son iguales, por tanto aceptamos la HNula. El primer pvalor (estadisiticos de Levene) es 0,210 que es mayor que 0,05.  Requisito 3. Por tanto, podemos mirar el ANOVA. El pvalor de la tabla ANOVA es 0, al ser menor que 0,05 rechazamos la H.Nula ( al 5%, por defecto ) (y aceptariamos la nula al 1%). Depende de en qué centro estudies, tienes una nota mejor o peor. Al rechazar la nula, hacemos Bonferroni para saber cual es el mejor centro. Anova de un

factor, post hoc y onferroni (porque estamos en Anova, si las varianzas fuesen diferentes (requisito 2), haríamos Welch). Al ver la tabla post hoc y ver las diferencias de medias. Para ver si estas diferencias son significativas, miramos los pvalores. En el centro 1, el pvalor es 1, y al ser mayor que 0, aceptamos la H. Nula de que la media del centro es la misma que la media del centro 2 ( aunque en las diferencias podíamos ver como la media del centro 2 era mayor que el centro 1 y 5). El centro 2 con el centro 4 es la única comparación significativa , al tener un pvalor (0,008) menor que 0,05 y rechazar la H. Nula. Las medias por tanto no son iguales y si que se diferencian. El centro 2 es mejor que el centro 4 porque tiene mayor media. Ejercicio 6. Ponemos valores a Equipo. a) H. Nula que el tiempo medio empleado por el equipo 1 es el mismo que en el Equipo 2 y 3. H. Alternativa, al menos alguno es diferente. b) Miramos Shapiro (N es 5) y sus pvalores son mayores 0,001. Hay normalidad. c) Requisito 2. Todas las varianzas son iguales. Pvalor es (0,178). Hacemos Anova. d) Requisito 3. Hacemos Anova. Miramos la tabla ANOVA y vemos que el pvalor es 0, (5%). Rechazamos la H. Nula, hay diferencias entre equipos. Cual es el mejor. e) Hacemos posthoc y Ponferroni. H. Nula, media del equipo 1 es la misma que Equipo 2. Viceversa con el 3. Vemos que el Equipo 2 (media de tiempo) es mayor que el 1, pero sig es mayor que 0,01. Por tanto los equipo 1 y 2 no tienen diferencias significativas. f) Ahora compramos equipos 1 y 3. El 3 es mayor que el 1. El mejor equipo es el 2, ya que es el que menos tiempo gasta de media. Pvalor debe ser menor que 5%. Todas las diferencias son significativas menos entre el equipo 2 y 1. Hacer y entregar ejercicio 3 y 5 para el domingo. El lunes cuelga las soluciones.

Tema 5. Componentes Principales. Ejercicio 2. ACP = Análisis de Componentes Principales. a) Hacemos tabla de correlación. Colocamos todas las variables menos V5 (eso pide). Si tiene sentido, es necesario ACP porque se comparte mucha información como podemos ver en la tabla de correlaciones. Tenemos que ordenarlo. b) 1) y 2) Reducción de dimensiones y factor. Ponemos todas menos V5. En opción descriptivos ponemos Solución inicial, coeficientes y niveles de significación. En opción Extracción ponemos método Componentes Principales, matriz de correlación, sin rotar y grafico de sedimentación. En opción puntuación Guardar como variables y Regresión. Vemos la tabla/matriz Varianza total explicada. % de Varianza de mayor a menor. En la parte derecha solo aparecen 3 autovalores, los que más info aportan, ya que con ello tenemos un 82% aprox de info ya aportada. Se ve mejor en el gráfico de sedimentación abajo. A partir del 4 ya la pendiente no es importante. La matriz que nos quedamos es la matriz de 3 componentes ya que nos aportan el 82% de información. Se ve en la Matriz de Componente.

  1. Vemos la Matriz de Componente. El nivel de desarrollo del país sería el componente principal (esperanza de vida, PB per capita, tasa fertilidad, baja población rural, baja mortalidad...). La segunda componente principal (gasto publico educación, alto aporte calórico cotidiano) seria... no hay un nombre exacto pero serian países muy desarrollados por la alta inversión en educación y alto aporte calórico cotidiano. La interpretación puede ser una tabla con CP1 y CP2. c) Hacemos grafico de dispersión. REGR 1 (CP1) en eje x y REGR 2 en eje y. Hacer doble clic en el gráfico y añadir. Ponemos valor 0 en los ejes y pinchamos un punto y en elementos poner etiquetas. Cada número es un país. INTERPRETAR. d) Correlacionamos solo REGRE 1 (CP1) y Variable 5. Si podría ser un índice alternativo de desarrollo humano, ya que comparten mucha información y es significativo. Ejercicio 1. Hemos borrado los REGR porque lo queremos calcular nosotros.

a) Análisis de correlación. Bivariadas. Vemos la matriz de correlaciones. Si que hay correlaciones importantes entre sí. Entre CO y NOX (correlación de Pearson de 79%, por tanto, al ser alto hay información común entre ellas, información duplicada, siempre que Pearson sea mayor que 0 es que se comparte info). Por tanto, Si tiene sentido hacer ACP (análisis componentes principales). b) Analizar, reducción de dimensiones, Factor. Cambiamos en cada pestaña lo mismo q la última vez. La primera explica un 51%, la segunda un 20,8%, la tercera un 12,9%. c) El codo está en el dos, nos lo da la tabla anterior, donde solo aparecen 2 componentes. El punto de inflexión es en el 2. El grafico representa los autovalores, asignados cada uno a un componente principal. Para saber cuántos componentes cogemos, vemos que el segundo punto es donde está el codo (vemos que este ángulo es más pequeño que el del punto 3, es otra forma de verlo si solo tenemos el gráfico). d) Extraemos por tanto 2 CP. e) La componente 1 (vamos a la matriz de componente, la última que tenemos), opone los diferentes distritos con valores altos en todas las variables correlacionadas positivamente con él (la componente P10 es negativo y no lo contamos), a los que toman los valores bajos. Podemos llamar CP1 como contaminación. A la derecha del 0, en el eje, tenemos el CP1 más contaminados, y la izquierda los menos contaminados. Por el CP2, arriba hay menor capa de ozono y abajo mayor capa de ozono. La segunda componente, esta correlacionada positivamente con el (Ozono) O3, solo nos da información sobre eso. El resto lo da el CP1. f) Arriba g) Gráficos. Diagrama de dispersión. CP1 (REGR 1) siempre en el eje x. CP2 (REGR

  1. en el eje y. Los distritos más contaminados están en el cuadrante arriba derecha, números 2, 4, 5, 7 y 10. Cada número es un distrito. Manuel becerra, marqués de Salamanca, plaza España, Gregorio Marañón. Los menos contaminados es el cuadrante izquierda abajo, distritos 16, 11, 9 y
  1. La menos contaminada seria la 19, pero tiene una baja capa de ozono. No sabemos en realidad cual sería la mejor (no somos expertos). h) Arriba Deberes escribir la formula/expresión de la CP1 y CP2. En el ejercicio 1. Analizar, reducir dimensiones, factor, metemos las variables menos las 2 ultimas. En extracción, matriz de correlaciones ( NO de covarianzas), por tanto, el análisis es normado. Deberes escribir la formula/expresión de la CP1 y CP2, mirar diapo 41. Apartado F ejercicio 1

Según este gráfico, Ceuta seria la comunidad mas desarrollada... ETIQUETA DE ID DE PUNTOS EN EL GRAFICO DE DISPERSION (para ver los países en vez de los num por ej). Dice la profe q no funciona. NO SALE EL TEMA 7. (ANALISIS DE CORRESPONDENCIAS) NO VA A SER EVALUABLE. JUEVES 4 DE MAYO SEGUNDO PARCIAL.

TEMA 6. ANALISIS FACTORIAL.

EJERCICIO 3. (resuelto en pdf). Ejercicio 2. Correlaciones bivariadas (con diagonal). Hay muchas correlaciones significativas (con asteriscos) y altas (valores grandes). Hace falta que haya bastante, muchas correlaciones, no tienen que ser todas. Reducción de dimensión. Análisis factorial. En específicos activamos KMO- Bartlett. Rechazo la H. Nula de que no hay correlaciones (pvalor de Bartlett). KMO nos dice como de bueno es el modelo 0,774 es muy bueno, muy cercano de 1, no es un porcentaje.

Recuperamos y en extracción ponemos grafico sedimentación. Así vemos con cuantos factores nos quedamos. Podemos elegir 4 como mucho. Miramos la tabla Comunalidades, y vemos que todas están bastante explicadas. La mejor explicada es DEMOGRAF con 0,988, tiene la comunidad más alta. Si lo hacemos con 3 componentes, hay una variable EGBHABIT con MUY poca comunalidad (0,096). Por tanto 3 factores no nos sirven. Nos quedamos con 4. Recuperamos con 4 y rotación Varimax y en puntuaciones Guardar como variables. No vemos la matriz de componentes. Vemos la rotada, mucho más claro 4CP es unipolar y especifico (solo hay una variable grande, EGBHABIT). 3CP es especifica y unipolar (tres variables seguidas) 2CP es general y unipolar (las 6 ultimas, ya son bastantes) 1CP es general y unipolar (son 6) Ahora interpretamos los factores (damos nombres). 4CP es niños en edad escolar 3CP es nivel de consumo 2CP es nivel de actividad industrial 1CP es el más complicado (tiene muchas variables), puede ser volumen de actividad y tamaño. Diagrama dispersión simple. Eje X el primero y eje Y el segundo. V1 en etiquetas. Comparamos así Factor 2 con Factor 4. Ejercicio 1. SOLO LO HACEMOS DE LAS 7 ULTIMAS VARIABLES DEL EJERCICIO (el archivo contenia muchos más datos...) Habría que hacerlo otra vez. A) Realizamos una matriz de correlaciones bivariadas y observamos que, aunque no todas las variables presentan correlaciones entre sí, si hay numerosas variables que con correlaciones significativas (p-valor muy pequeño) y alta (valores grandes). Observamos el Índice Bartlett y KMO. El p-valor de Bartlett es menor que 5%, por tanto, rechazamos la H. Nula de que no hay correlaciones. Sí hay modelo. El Índice en este caso es de 0,718 sobre 1, lo cual indica que este modelo tiene un alto grado de correlación y por tanto es adecuado realizar AF. B) Al realizar el AF, también observamos que la varianza total explicada resalta 4 Factores, según SPSS. Sin embargo, la varianza total acumulada con 4 Factores es del 77%, y observamos que en la tabla de comunalidades hay algunas variables que están muy poco explicadas, como “Ventas/Plantilla” (0,309) y especialmente “Beneficios/Capital Social” (0,080). La mejor explicada es “Rentabilidad” (0,999). Vamos a probar con 3 Factores. Con 3 Factores la varianza total acumulada es del 67%, y en la tabla de comunalidades observamos que hay mas variables poco explicadas que con 4 Factores, “Ventas/Activos Totales” (0,076), “Ventas/Plantilla” (0,053),

F) Hecho en apartado B. Valores mas altos y bajo en la tabla de comunalidades. En la siguiente tabla vemos las variables a destacar de cada factor. G) El primer factor podría ser “tamaño de empresa”. El segundo factor “ratio de ventas”. El tercer factor “solvencia”

El cuarto factor “efectividad en ventas” H) Representación de los casos de la muestra en los dos primeros factores extraídos: Hacerlo de nuevo.