Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Capitulo 9 analisis 2, Apuntes de Psicología

Asignatura: Análisis de Datos II, Profesor: Ricardo Olmos, Carrera: Psicología, Universidad: UAM

Tipo: Apuntes

2014/2015

Subido el 27/12/2015

rociorocio92
rociorocio92 🇪🇸

3.3

(35)

21 documentos

1 / 26

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 9
REGRESIÓN LINEAL MÚLTIPLE
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Vista previa parcial del texto

¡Descarga Capitulo 9 analisis 2 y más Apuntes en PDF de Psicología solo en Docsity!

Capítulo 9

REGRESIÓN LINEAL MÚLTIPLE

ESQUEMA del capítulo

  • (^) En este capítulo nos centramos en otra técnica muy extendida y útil en análisis: la regresión múltiple. Parecido al ANOVA, en regresión tratamos de explicar una variable cuantitativa (igual que ANOVA), a partir de una o varias variables predictoras cuantitativas (distinto de ANOVA).
  • (^) Por lo tanto, en regresión lineal múltiple participan variables cuantitativas. Éstas tienen dos estatus: o bien es la variable dependiente (variable que queremos explicar y/o pronosticar), o bien la variable es independiente (variable que pronostica la dependiente). Referencia: Pardo, A., Ruíz, M.A. y San Martín, R. (2010). Análisis de datos en ciencias sociales y de la salud (Vol II). Madrid. Síntesis. Capítulo 10.
  1. La ecuación de regresión Donde es la variable pronosticada y las Xi son las variables independientes.
  2. El significado de los coeficientes: β 0 es la intersección o constante del modelo de regresión: es el valor que pronosticamos de la VD cuando el resto de VIs es cero. β 1 es la pendiente asociada a la primera VI y nos informa del cambio que se produce en la VD por cada unidad que aumentamos en esa primera VI cuando se mantiene constante el resto de VIs.

REGRESIÓN LINEAL MÚLTIPLE

i p p

Y ˆ^     X   X .....  X

0 1 1 2 2 i

Y ˆ

Por ejemplo, supongamos que queremos pronosticar las calorías de unos tercios de cerveza a partir del % de alcohol. Estamos aquí ante un modelo de regresión lineal simple. Es simple porque únicamente tenemos una variable independiente. Representamos el diagrama de dispersión que relaciona ambas variables:

REGRESIÓN LINEAL MÚLTIPLE

La ecuación de regresión es: La intersección o constante es 80,972, que es el número de calorías que pronosticamos que tendrá una cerveza cuando tiene 0,0% de alcohol. 21,027 es la pendiente o tasa de cambio. Por cada grado de alcohol que incrementamos en la cerveza pronosticamos un aumento medio de 21,027 calorías en la cerveza.

REGRESIÓN LINEAL MÚLTIPLE

0 1 1

Y^ ˆ^ X

i

Calorias alcohol i

  1. El ajuste del modelo: ¿tenemos la mejor ecuación posible que relaciona la VD con las VIs, pero ¿es esta ecuación buena? Para ello tenemos el coeficiente de determinación o R 2

. Este coeficiente tiene la virtud de que oscila entre 0 y 1. Un valor R 2 = 0 significa que con las variables independientes no conseguimos explicar nada de la variable dependiente. Más concretamente que explicamos un 0% de la varianza de la VD. En el polo opuesto, una R 2 = 1 informa de que explicamos perfectamente la VD a partir de nuestras variables independientes. En el ejemplo de la cerveza tenemos un valor de 0,898, lo cual nos informa de que conociendo el % de alcohol podemos explicar un 89,8% de la varianza de las calorías. Se puede interpretar también como que conociendo el % de alcohol mejoramos los pronósticos de las calorías en un 89,8% respecto a si utilizamos la media de la VD (que es equivalente a no utilizar ninguna VI).

REGRESIÓN LINEAL MÚLTIPLE

  1. La hipótesis nula de que todos los coeficientes de regresión son cero en la población: Con el estadístico F ponemos a prueba esta hipótesis. Si rechazamos porque p es < 0,05 sabemos ya que al menos una de las VIs contribuye a explicar significativamente la VD. Ya sabemos que una cosa es el tamaño del efecto (en regresión la R 2 juega este papel) y otras son las pruebas de significación estadística. Pues bien, la F en la regresión juega este otro papel. Con la F podemos justificar si hay alguna VI que mejore significativamente los pronósticos de la VD.

REGRESIÓN LINEAL MÚLTIPLE

H 0 :  1   2 .....  p  0

  1. La hipótesis referida a los coeficientes de regresión individualmente. Para cada uno de los coeficientes tenemos que contrastar con el estadístico T de Student la hipótesis nula: De manera que cuando rechacemos ( p < 0,05) significa que esa VI contribuye a explicar la VD y debemos retenerla en el modelo. Recordad que en ANOVA cuando rechazamos con la F la hipótesis de que todas las medias son iguales solemos hacer las comparaciones múltiples para conocer qué medias difieren de qué otras. Pues bien, aquí, evaluar los coeficientes de regresión individualmente es el equivalente a ese paso del ANOVA. Con ello queremos averiguar exactamente qué VIs mejoran significativamente los pronósticos de la VD.

REGRESIÓN LINEAL MÚLTIPLE

H 0 :  p  0

  1. ¿Cómo incluir e interpretar una variable categórica como sexo? En los modelos de regresión se pueden introducir variables categóricas. Éstas variables suelen denominarse Dummy en inglés. Para ello hay que dicotomizarlas con valores 0 y 1. Por ejemplo, si tratamos de pronosticar el salario actual a partir del salario inicial, años de estudio, meses desde el contrato, edad y el sexo (0 = mujer; 1 = hombre) y obtenemos la siguiente tabla de coeficientes:

REGRESIÓN LINEAL MÚLTIPLE

  1. Al observar la B de sexo es 2067,2 (t = 2,656; p = 0,008 por lo que es significativa). Este coeficiente significa que, igualando en el resto de VIs, es decir, misma edad, mismo salario inicial, mismos estudios, etc., la diferencia entre un hombre y una mujer es de 2067,2 dólares pronosticados a favor de los hombres.

REGRESIÓN LINEAL MÚLTIPLE

En el fichero Regresión rendimiento tratar de explicar/predecir la variable rendimiento_escolar a partir del resto de variables incluidas. En este primer modelo de regresión, ¿qué te parece el ajuste del modelo?, ¿te parece aceptable?, ¿de qué valor informarías? ________ El estadístico F de la tabla ANOVA junto con su nivel crítico, ¿de qué te está informando? ___________________________________________ Atendiendo ahora a las variables individualmente, ¿cuáles contribuyen significativamente a explicar el rendimiento? _____________________


REGRESIÓN LINEAL MÚLTIPLE

¿Cuál es la variable más importante del modelo a la hora de explicar el rendimiento? _________________________ Interpreta los coeficientes de regresión de las variables significativas (las que contribuyen a explicar el rendimiento) _________________


REGRESIÓN LINEAL MÚLTIPLE

Linealidad Este supuesto se refiere a que la relación entre la VD y cada VI debe ser de tipo lineal. Si no, el modelo de regresión lineal no sería adecuado. Por ejemplo, si detectamos una relación curvilínea (cuadrática) entre una VI y la VD, no debemos incluirla en el modelo, puesto que la regresión lineal detecta relaciones de tipo lineal (una solución ante esta situación es incluir un término cuadrático, pero esto no se ve en el curso). ¿Cómo observar esto? Con diagramas de dispersión simple como ya sabemos hacer, o bien con los diagramas de regresión parcial (botón Gráficos del procedimiento y seleccionamos la opción Generar todos los gráficos parciales ).

APÉNDICE: CONTRASTAR SUPUESTOS

Independencia Este supuesto nos dice que las observaciones del modelo de regresión son independientes. Algo así como que el salario del caso 2 no depende del caso 1, el del 3 no depende del caso 2, etc. En modelos de regresión como los vistos se presupone independencia entre los casos y no tiene mucho sentido evaluarlo. En modelos de regresión donde los casos tienen alguna relación temporal sí que habría que evaluar la independencia (los modelos econométricos, típicamente). SPSS tiene el estadístico Durbin-Watson para valorar la independencia. Los casos son independientes (no autocorrelacionan) si los valores que da este estadístico están entre 1,5 y 2,5. Valores por debajo de 1,5 o por encima de 2,5 deberían hacernos sospechar de que este supuesto no se sostiene.

REGRESIÓN LINEAL MÚLTIPLE