Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadistica superior, Apuntes de Estadística

Asignatura: estadistica superior, Profesor: , Carrera: Economía, Universidad: URJC

Tipo: Apuntes

2015/2016

Subido el 15/01/2016

efrendj
efrendj 🇪🇸

3

(2)

1 documento

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Estadistica superior y más Apuntes en PDF de Estadística solo en Docsity!

Powered by TCPDF (www.tcpdf.org)

Tema 1. 1. ¿Qué es el análisis multivariante? Conjunto de métodos estadísticos que analizan simultáneamente multiples medidas en cada individuo y objeto bajo investigación. Y se utiliza para medición, explicación, predicción y contraste de hipótesis. Para que el análisis se considere multivariante todas las variables deben ser aleatorias. 2. Conceptos básicos de análisis multivariante. El modelo es una combinación lineal con pesos determinados empíricamente. El investigador especifica las variables, mientras que las ponderaciones las especifica la técnica multivariante. n Y =Ww,X, + W2X2 + + Wp Xp = Y mx ren + Y = valor teórico de la variable aleatoria * X= variable observada + W,=peso o ponderación 3. Tipos de datos y escalas de medida: 1) No métricas (cualitativas). Son características que identifican o describen a un sujeto. a) Ordinal: son etiquetas con las que se establece un orden. b) Nominal: Asigna números que se usan para identificar sujetos u objetos. a) Métricas (cuantitativas): b) De Intervalo o Escala: se puede medir la distancia entre dos puntos de la variable. c) Razón: además de ser escala tienen origen. 4. Error de medida. Es la diferencia entre el valor real y el valor observado. En toda técnica multivariante hay un grado de error. Las causas del error de medida son: debilidad de las correlacinoes, perdida de precisión en las medidas, distorsión de las relaciones observadas. Para medir el error tenemos los siguientes requisitos: + Validez: es válida si realmente mide lo que quieres medir. + Fiabilidad: grado en que la variable observada mide el valor verdadero y está libre de error. Las medidas fiables mostrarán una mayor consistencia. 5. Tipos de errores y potencia: + Error tipo [(a): la probabilidad de rechazar la hipótesis nula (Ho) cuando es cierta. Denominado “falso positivo”. + Error tipo II(8): la probabilidad de aceptar la hipótesis nula (Ho) cuando es falsa. Denominado “falso negativo”. + Potencia del contraste (1-b): la probabilidad de rechazar H0 cuando es falsa, es decir, cuando debe ser rechazada. La potencia del contraste depende de tres factores: + Tamaño del efecto (distancia): el test se da cuenta de que hay significación estadística cuando el efecto es muy grande (00-01). + Error tipo I(a.): cuanto menor sea a menor es la potencia del contraste, Se reduce la probabilidad de encontrar un efecto incorrecto significativo. La posibilidad de encontrar correctamente un efecto también disminuye. + Tamaño de la muestra: un aumento del tamaño implica menor potencia del contraste. Potencia estándar deseada 0,8. 6. Tipos de análisis multivariante: 1. Técnicas de dependencia. Trata de explicar la Y en función de las Xn. Es decir, explicar una variable a partir de otras. + Regresión múltiple: predice los cambios en las variables dependientes cuando varían las independientes. Tema 2. 1. Examen gráfico. + Histograma + Diagrama de frecuencias + Diagrama de cajas y bigotes. Xmán 01 02 03 Ximáx h ¡ia ; , + 20 245 ; 19 26,529,5 38,5 48 4 33,5 39 45 fl ñ Xmín Q1 Q2 03 Xmáx La línea en el centro de la caja señala la posición de la mediana. Si esta se sitúa cerca del final de la caja hay asimetría. Cuanto mayor es la caja mayor son las observaciones. Los bigotes representan la distancia entre el mayor y la menor de las observaciones. + Diagrama de puntos. 2. Valores perdidos ( datos que faltan) Hay que ver el proceso de pérdida de datos, si ha sido sistemático o aleatorio. Ocurre cuando el encuestado no responde a una o más preguntas en una encuesta. * Impacto: o o) Reduce el tamaño muestral Distorsiona los datos. + Pasos para identificar datos perdidos: o o o o Paso 1. Saber el tipo de datos perdidos. Paso 2. ¿Cuántos? Paso 3. ¿ Ha sido de forma aleatoria o no? Paso 4. Seleccionar el método de imputación. + Estrategia para manejar datos perdidos. jo) o Usar observaciones con datos complejos solo. Borrar el caso porque está incompleto o faltan variables. o Estimar los valores faltantes. Si la perdida de datos ha sido aleatoria y menor de un 10% podemos ignorarla, Si ha sido aleatoria no se puede suprimir, Imputación de datos faltantes: o En 10% > cualquiera de los métodos de imputación se pueden explicar cuando los datos que faltan sean tan bajos, aunque el método de caso completo es el más preferido. o En 20%.- Los métodos preferidos son MCAR y MAR. 3. Valores atípicos: Observaciones con una única combinación de características identificables como muy diferentes de las demás observaciones. ¿Por qué se producen? Error de procedimiento. Eventos extraordinarios. Observaciones extraordinarias. Una combinación de desviaciones únicas. ¿ Qué hacemos con los valores atípicos? . Identificarlos Describirlos Borrarlos o mantenerlos. 3.1 Identificación de valores atípicos. Examinar datos y luego identificar valores atípicos en términos de números de desviaciones estándar. Examinar datos mediante diagrama de cajas, tallo y dispersión. Detección multivariante (D?) Detección de valores atípicos: Detección univariante: examinar todas las variables métricas para identificar observaciones únicas o extremas. Para muestras pequeñas (80 o menos observaciones) los valores atípicos generalmente se definen como casos con calificaciones de 2,5 o mayores. Para muestras mas grandes debemos aumentar el valor del umbral de las puntuaciones estándar hasta 4. Si no se utilizan las puntaciones estándar identificamos los casos que Tema 3. Análisis Factorial Exploratorio. 1. Definición. Técnica de interdependencia cuyo objetivo principal es definir la estructura subyacente entre las variables en el análisis. Examina las interacciones entre un gran número de variables y luego intenta explicar en términos de sus dimensiones subyacentes comunes, conocidas como factores. No tiene variables dependientes o independientes, sino que es una técnica de interdependencia que considera simultáneamente todas las variables. 2. Proceso de decisión del análisis factorial: Paso I. Objetivos del análisis factorial: 1) Cual es el objetivo del factorial: exploratorio o confirmatorio. a) Exploratorio: se utiliza para descubrir la estructura factorial de una construcción y examinar su fiabilidad. Está basada en los datos ( tu das los datos y el programa te da el modelo). b) Confirmatorio: Proponer el modelo y la estadística te confirma si es váido. 2) Especifica la unidad de análisis; 3) ¿Resumen de datos y/o reducción? a) Resumen de datos: descubre factores que al interpretar y comprender describe los datos en un número mucho menor de los conceptos de las variables individuales originales. b) Reducción de datos: extiende el resumen de datos mediante la desviación de un valor empírico para cada factor y luego sustituye este valor por valores originales. 4) Utilizando el análisis factorial con otras técnicas Paso II. Diseño del análisis factorial. 1) Cálculo de los datos de entrada: R vs Q análisis. 2) Diseñar un estudio den número de variables, las propiedades del número de variables y el tipo de variables. 3) Tamaño de muestra necesario. El análisis factorial se lleva a cabo normalmente en las variables métricas, aunque existen métodos especializados para el uso de variables ficticias. Si el estudio pretende diseñar la estructura factorial, deben tener al menos cinco variables para cada factor propuesto. Por tamaño de la muestra: + La muestra deberá tener más observaciones que variables. + El tamaño mínimo debe ser de 50 observaciones. Maximizar el número de observaciones por variable, son un mínimo de 5 y es de esperar 10 observaciones por variable. Paso lll. Supuestos del análisis factorial: 1) Multicolinealidad: impide distinguir el efecto de la variable X en la variable Y. En este análisis queremos que exista Multicolinealidad. ¿Cómo lo vemos? Cuando las correlaciones son altas. 2) MSA/KMO. Mide la adecuación de los valores de la muestra. Varía entre 0 y 1 y buscamos valores superiores a 0,5. 3) Homogeneidad de los factores. La agrupación debe ser lógica y coherente. 4) Test de las asunciones. 5) Rest de Bartlett: contrasta la igualdad de la matriz de correlaciones y la matriz identidad. Nos interesa rechazar. Si las matrices son iguales no hay correlación. Si acepto HO no se puede hacer el análisis factorial. Paso IV. Estimación de los factores. + Hay dos métodos de extracción de factores: o Análisis factorial común o Componentes Principales. » Fijar el número de factores que representan los datos: ¿Qué método utilizo ACP o Común? Depende de: 1) Objetivos del análisis factorial 2) Los datos previos sobre la varianza de las variables. ¿Número de factores? b) Los valores cross-load (tienen cargas altas en 2 o mas factores) normalmente son eliminados mediante la reducción de datos. En general las variables deben tener comunalidades superiores a 0,5 para que se conserven en el análisis. Autovalor: cantidad de varianza de todas las variables que es explicada por un solo factor. Comunalidad: cantidad de varianza de la variable observada explicada por los factores. Paso VI. Validadación del análisis Factorial. Perspectiva de confirmación. Evaluar factor de estabilidad estructural. Detectar observaciones influyentes. Paso VII.- Usos adicionales del análisis factorial Selección de variables subrogadas. Creación de escalas sumadas. Cálculo del factor de las puntuaciones. Tema 5. Análisis Discriminante Múltiple. 1. Definición: Técnica adecuada cuando la variable dependiente es categórica ( nominal o no métrica) y las variables independientes son métricas. La única variable dependiente puede tener 2,3 o más categorías. Ej: Masculino/femenino 2. Procesos de decisión del Análisis Discriminante: Paso 1. Objetivos del Análisis Discriminante. Determinar si existen diferencias estadístiacas significativas entre dos o más grupos definidos “a Priori”, Identificar la importancia relativa de cada una de las variables independientes en la predicción de pertenencia al grupo. Establecer el número y la composición de las dimensiones de la discriminación entre los grupos formados a partir del conjunto de variables independientes. Desarrollar procedimientos para la clasificación de los objetos en grupos y luego examinar la exactitud de la predicción de la función discriminante. Paso II. Diseño del Análisis Discriminante. La selección de las variables dependiente e independientes. Tamaño de la muestra. División de la muestra para la validación. o Habitualmente se convierten las variables métricas en no métricas. o Extremos polares: compara sólo los grupos extremos y excluye al grupo intermedio. Reglas generales: o La variable dependiente debe ser no métrica, representa mejor las diferencias entre los grupos. o Las variables independientes deben identificar las diferencias entre al menos dos grupos. o Tamaño de la muestra: el número de observaciones debe ser mayor que el número de variables. Paso VI. Validación: + Utilizando una muestra observada + Validación cruzada. Tema VII. Análisis Multivariante de la varianza (Manova). 1. MANOVA (Análisis Multivariante de la varianza). En la extensión multivariante de las técnicas univariantes para evaluar las diferencias entre las medias de los grupos. El contraste con ANOVA se puede conservar mas de una variable dependiente. ANOVA > Compara una variable sobre varias poblaciones o grupos. MANOVA> Compara varias variables sobre varias poblaciones o grupos. El aspecto único de MANOVA es que la variable aleatoria combina de manera óptima las múltiples medidas dependientes en un solo valor que maximiza las diferencias entre los grupos. 2. Proceso de decisión MANOVA. Paso |. Objetivos de MANOVA. + Se suele utilizar MANOVA en vez de ANOVA para controlar el error. + Proporciona más potencia estadística que ANOVA cuando el número de variables dependientes es menos que 5. + Examina el efecto de una o mas variables independientes no métricas en dos o más variables dependientes métricas. Además tiene la capacidad de testear múltiples variables dependientes. + Las variables independientes crean grupos entre los que se compara las variables dependientes. Paso II. Diseño MANOVA. * Requisito del tamaño de la muestra: todos o por grupos. * Diseño Factorial > 2 o mas tratamientos (tipo y número) + Uso de covariables > ANCOVA o MANCOVA. * Reglas: o Las celdas se forman por la combinación de variables independientes. o Tamaño de la muestra: " Mínimo de 20 observaciones por celda. = Cada celda debe tener un número parecido de observaciones. + Medidas de potencia: 0,8 es aceptable. Depende de la relación potencia, significación y tamaño del efecto (efecto distancia). Paso V. Interpretación MANOVA. * Interpretar los efectos de las covariables ( si se usan). + Evaluar las variables que mostraron diferencias entre los grupos de cada tratamiento. + Identificar si los grupos difieren en una variable dependiente o en toda la variable dependiente aleatoria. + Reglas: o Hay que ver si el coeficiente de interacción es significativo: Interacciones ordinales: Se produce cuando los efecto de un tratamiento no son iguales para todos los niveles del otro tratamiento, pero la magnitud es siempre de la misma dirección. Interacciones disordinales: los efectos de un tratamiento son positivos para algunos niveles y negativos para los otros niveles del otro tratamiento. Ver diferencias entre los grupos individuales: + Método Post Hoc: o Scheffe o Diferencia Significativa de Tuckey. o Duncan. + Apriorio planificación de las composiciones. Etapa VI. Validación de los resultados. + Replicación. + Uso de covariables. + Evaluación de la causalidad. Tema 9. Análisis Clúster. 1. ¿ Qué es el Análisis Clúster? Vale para detectar objetos similares. Aquí la técnica detecta al grupo, no hay que decirle cuales son. Este análisis es descriptivo, ateórico y no diferencial. Siempre va a grupar, pero hay que ver si las agrupaciones tienen sentido y no se debe extrapolar a otros grupos. Lo primero para agrupar es definir que se consideran como características similares. Hay que ver lo que queremos hacer y ver las variables utilizadas para medir la distancia. Paso 1. Diseño del experimento. Tipos de distancia: + Distancia Euclídea: d = / Pz, (x; — y)?; es el concepto de distancia que utilizamos habitualmente. + Distancia Manhattan. Procede de la configuración de una ciudad por manzanas en las que hay que recorrer todas las calles. La muestra debe ser lo suficientemente grande para representar a los grupos y la muestra debería tener mas casos del grupo mayoritario. Supuestos. + Los datos pueden ser métricos, no métricos o una combinación de ellos, sin embargo, mezclando la interpretación es más difícil. + Asume que la muestra es representativa de la población, es decir, los atípicos deben ser eliminados. + La multicolinealidad entre las variables tiene efectos adversos para el análisis. Provoca que las variables multicolineales tengan un peso superior al real, atribuyéndolas mas importancia de la que tienen. + Siel grado de multicolinealidad es alto se puede hacer: o Eliminar algunas de las multicolinealidades. o Ejecutar la distancia de Mahalanobis que compense la correlación. + Los grupos presentes en la población deben estar presentes en la muestra, El análisis no puede confirmar esa existencia. Las líneas horizontales que unen los clúster representa la distancia entre ellos y cuanto más larga mas distancia y menos parecidos son. 14