Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Regresión Lineal: Capítulo 18, Apuntes de Psicología

Este documento introduce el análisis de regresión lineal, una técnica estadística utilizada para estudiar la relación entre una variable dependiente y una o más variables independientes. Aprenderemos sobre el procedimiento de regresión simple y múltiple, coeficientes de regresión estandarizados, y el análisis de regresión por pasos. El objetivo final es desarrollar una ecuación lineal predictiva.

Tipo: Apuntes

2014/2015

Subido el 21/03/2015

cajuncio
cajuncio 🇪🇸

3.8

(6)

7 documentos

1 / 67

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 18
Análisis de regresión lineal:
El procedimiento Regresión lineal
Introducción
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis
de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas
hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de
mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede
resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto.
En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar
la relación entre una variable llamada dependiente o criterio (Y) y una o más variables llamadas
independientes o predictoras (X1, X2, ..., Xk), así como para desarrollar una ecuación lineal con
fines predictivos. Además, el análisis de regresión lleva asociados una serie de procedimientos
de diagnóstico (análisis de los residuos, puntos de influencia) que informan sobre la estabilidad
e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo.
Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual
que en los capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis,
sino que intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de regre-
sión lineal, y cómo interpretar los resultados. También prestaremos atención a otras cuestiones
como el chequeo de los supuestos del análisis de regresión y la forma de proceder cuando se
incumplen.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43

Vista previa parcial del texto

¡Descarga Análisis de Regresión Lineal: Capítulo 18 y más Apuntes en PDF de Psicología solo en Docsity!

Capítulo 18

Análisis de regresión lineal:

El procedimiento Regresión lineal

Introducción

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto. En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc. Tanto en el caso de dos variables (regresión simple ) como en el de más de dos variables (regresión múltiple ), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio ( Y ) y una o más variables llamadas independientes o predictoras ( X 1 , X 2 , ..., X (^) k ), así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una serie de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo. Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual que en los capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis, sino que intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de regre- sión lineal, y cómo interpretar los resultados. También prestaremos atención a otras cuestiones como el chequeo de los supuestos del análisis de regresión y la forma de proceder cuando se incumplen.

Porcentaje de alcohol

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6, nº calorías (por tercio de litro)

200 180 160 140 120 100 80 60

La recta de regresión

En el capítulo anterior (sobre correlación lineal) hemos visto que un diagrama de dispersión ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pe- ro, además, un diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables: basta con observar el grado en el que la nube de puntos se ajusta a una línea recta. Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de cuantificar esa relación tiene un serio inconveniente: la relación entre dos variables no siempre es perfecta o nula; de hecho, habitualmente no es ni lo uno ni lo otro. Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35 marcas de cerveza y que estamos interesados en estudiar la relación entre el grado de alcohol de las cervezas y su contenido calórico. Un buen punto de partida para formarnos una primera impresión de esa relación podría ser la representación de la nube de puntos, tal como muestra el diagrama de dispersión de la figura 18.1.

Figura 18.1. Diagrama de dispersión de porcentaje de alcohol por nº de calorías.

El eje vertical muestra el número de calorías (por cada tercio de litro) y el horizontal el con- tenido de alcohol (expresado en porcentaje). A simple vista, parece existir una relación positiva entre ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta el número

  • (^) Debemos aprender una lección de esto: la primera cosa razonable que podríamos hacer es añadir en nuestro estudio alguna cerveza con porcentaje de alcohol cero; probablemente así obtendríamos una recta con un origen más realista.

Porcentaje de alcohol

nº calorías (por tercio de litro)2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,

200 180 160 140 120 100 80 60

Figura 18.2. Diagrama de dispersión y recta de regresión ( % de alcohol por nº de calorías ).

Yi = n33,77 + 37,65 X (^) i

Vemos que, en general, la recta hace un seguimiento bastante bueno de los datos. La fórmula de la recta aparece a la derecha del diagrama. La pendiente de la recta ( B 1 ) indica que, en pro- medio, a cada incremento de una unidad en el porcentaje de alcohol ( X (^) i ) le corresponde un incremento de 37,65 calorías ( Yi ). El origen de la recta ( B 0 ) sugiere que una cerveza sin alcohol (grado de alcohol cero) podría contener –33,77 calorías. Y esto, obviamente, no parece posible. Al examinar la nube de puntos vemos que la muestra no contiene cervezas con menos de un 2 % de alcohol. Así, aunque el origen de la recta aporta información sobre lo que podría ocurrir si extrapolamos hacia abajo la pauta observada en los datos hasta llegar a una cerveza con grado de alcohol cero, al hacer esto estaríamos efectuando pronósticos en un rango de valores que va más allá de lo que abarcan los datos disponibles, y eso es algo extremadamente arries- gado en el contexto del análisis de regresión*.

La mejor recta de regresión

En una situación ideal (e irreal) en la que todos los puntos de un diagrama de dispersión se en- contraran en una línea recta, no tendríamos que preocuparnos de encontrar la recta que mejor resume los puntos del diagrama. Simplemente uniendo los puntos entre sí obtendríamos la recta con mejor ajuste a la nube de puntos. Pero en una nube de puntos más realista (como la de las figuras 18.1 y 18.2) es posible trazar muchas rectas diferentes. Obviamente, no todas ellas se ajustarán igualmente bien a la nube de puntos. Se trata de encontrar la recta capaz de conver- tirse en el mejor representante del conjunto total de puntos. Existen diferentes procedimientos para ajustar una función simple, cada uno de los cuales intenta minimizar una medida diferente del grado de ajuste. La elección preferida ha sido, tradi- cionalmente, la recta que hace mínima la suma de los cuadrados de las distancias verticales entre cada punto y la recta. Esto significa que, de todas las rectas posibles, existe una y sólo una que consigue que las distancias verticales entre cada punto y la recta sean mínimas (las dis- tancias se elevan al cuadrado porque, de lo contrario, al ser unas positivas y otras negativas, se anularían unas con otras al sumarlas).

múltiple. Se trata de una medida estandarizada que toma valores entre 0 y 1 (0 cuando las va- riables son independientes y 1 cuando entre ellas existe relación perfecta). Este coeficiente posee una interpretación muy intuitiva: representa el grado de ganancia que podemos obtener al predecir una variable basándonos en el conocimiento que tenemos de otra u otras variables. Si queremos, por ejemplo, pronosticar el número de calorías de una cer- veza sin el conocimiento de otras variables, utilizaríamos la media del número de calorías. Pero si tenemos información sobre otra variable y del grado de relación entre ambas, es posible mejorar nuestro pronóstico. El valor R^2 del diagrama de la figura 18.2 vale 0,83, lo que indica que si conocemos el porcentaje de alcohol de una cerveza, podemos mejorar en un 83 % nues- tros pronósticos sobre su número de calorías si, en lugar de utilizar como pronóstico el número medio de calorías, basamos nuestro pronóstico en el porcentaje de alcohol. Comparando este resultado con el correspondiente al diagrama de la figura 18.3 (donde R^2 vale 0,06) compren- deremos el valor informativo de R^2 : en este segundo caso, el conocimiento del contenido de alcohol de una cerveza sólo nos permite mejorar nuestros pronósticos del precio en un 6 %, lo cual nos está indicando, además de que nuestros pronósticos no mejoran de forma importante, que existe un mal ajuste de la recta a la nube de puntos. Parece evidente, sin tener todavía otro tipo de información, que el porcentaje de alcohol de las cervezas está mas relacionado con el número de calorías que con su precio.

Resumen

En este primer apartado introductorio hemos aprendido que el análisis de regresión lineal es una técnica estadística que permite estudiar la relación entre una variable dependiente (VD) y una o más variables independientes (VI) con el doble propósito de:

  1. Averiguar en qué medida la VD puede estar explicada por la(s) VI.
  2. Obtener predicciones en la VD a partir de la(s) VI.

El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor ex- presa la relación entre la VD y la(s) VI y estimar mediante el coeficiente de determinación la calidad de la ecuación de regresión obtenida. Estos dos pasos deben ir acompañados de un chequeo del cumplimiento de las condiciones o supuestos que garantizan la validez del proce- dimiento (en un próximo apartado se explica todo lo relacionado con la comprobación de los supuestos del modelo de regresión).

Regresión simple

Para llevar a cabo un análisis de regresión simple con las especificaciones que el programa tiene establecidas por defecto:

| Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de

diálogo Regresión lineal que muestra la figura 18.4.

Figura 18.4. Cuadro de diálogo Regresión lineal.

| Seleccionar la variable salario en la lista de variables del archivo de datos y trasladarla al

cuadro Dependiente.

| Seleccionar la variable salini y trasladarla a la lista Independientes.

Con sólo estas especificaciones, al pulsar el botón Aceptar el Visor ofrece los resultados que muestran las tablas 18.1 a la 18.3.

,880 ,775 ,774 $8,115.

Modelo 1

R R cuadrado

R cuadrado corregida

Error típ. de la estimación

Bondad de ajuste

La primera información que obtenemos (tabla 18.1) se refiere al coeficiente de correlación múltiple ( R ) y a su cuadrado. Puesto que sólo tenemos dos variables, el coeficiente de correla- ción múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre esas dos variables (ver capítulo anterior). Su cuadrado ( R cuadrado ) es el coeficiente de determinación:

(los residuos son las diferencias existentes entre las puntuaciones observadas y los pronósticos obtenidos con la recta). Tal como hemos señalado ya, R^2 expresa la proporción de varianza de la variable dependiente que está explicada por la variable independiente. En nuestro ejemplo (tabla 18.1), R toma un valor muy alto (su máximo es 1); y R^2 nos indica que el 77,5 % de la variación de salario está explicada por salini. Es importante resaltar en este momento que el análisis de regresión no permite afirmar que las relaciones detectadas sean de tipo causal: sólo es posible hablar de grado de relación.

Tabla 18.1. Resumen del modelo.

R cuadrado corregida es una corrección a la baja de R^2 que se basa en el número de casos y de variables independientes:

( p se refiere al número de variables independientes). En una situación con pocos casos y mu- chas variables independientes, R^2 puede ser artificialmente alta. En tal caso, el valor de R^2 co- rregida será sustancialmente más bajo que el de R^2. En nuestro ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R^2 (el corregido y el no corregido) son prácticamente iguales.

1928,206 888,680 2,170 , 1,909 ,047 ,880 40,276 ,

(Constante) Salario inicial

B Error típ.

Coeficientes no estandarizados Beta

Coeficientes estandarizados t Sig.

Ecuación de regresión

La tabla 18.3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coefi- cientes no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas.

Tabla 18.3. Coeficientes de regresión parcial.

El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo que he- mos llamado B 0 ):

Y el coeficiente correspondiente a Salario inicial es la pendiente de la recta de regresión (lo que hemos llamado B 1 ):

B 1 indica el cambio medio que corresponde a la variable dependiente ( salario ) por cada unidad de cambio de la variable independiente ( salini ). Según esto, la ecuación de regresión queda de la siguiente manera:

Pronóstico en salario = 1928,206 + 1,909 salini

A cada valor de salini le corresponde un pronóstico en salario basado en un incremento cons- tante (1928,206) más 1,909 veces el valor de salini.

Coeficientes de regresión estandarizados

Los coeficientes Beta (coeficientes de regresión parcial estandarizados) son los coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables ori- ginales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la siguiente manera: En el análisis de regresión simple, el coeficiente de regresión estandarizado correspon- diente a la única variable independiente presente en la ecuación coincide exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según veremos, los coeficientes de regresión estandarizados permiten valorar la importancia relativa de cada variable indepen- diente dentro de la ecuación.

Análisis de regresión lineal múltiple

El procedimiento Regresión lineal permite utilizar más de una variable independiente y, por tanto, permite llevar a cabo análisis de regresión múltiple. Pero en el análisis de regresión múl- tiple, la ecuación de regresión ya no define una recta en el plano, sino un hiperplano en un es- pacio multidimensional. Imaginemos un análisis de regresión con salario como variable dependiente y salini (salario inicial) y expprev (experiencia previa) como variables independientes. La figura 18. muestra el diagrama de dispersión de salario sobre salini y expprev , y el plano de regresión en un espacio tridimensional.

Figura 18.5. Diagrama de dispersión de salario sobre salini y expprev.

Con una variable dependiente y dos independientes, necesitamos tres ejes para poder repre- sentar el correspondiente diagrama de dispersión. Y si en lugar de dos variables independientes utilizáramos tres, sería necesario un espacio de cuatro dimensiones para poder construir el dia-

grama de dispersión. Y un espacio de cinco dimensiones para poder construir el diagrama co- rrespondiente a cuatro variables independientes. Etc. Por tanto, con más de una variable independiente, la representación gráfica de las rela- ciones presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útil. Es más fácil y práctico partir de la ecuación del modelo de regresión lineal:

De acuerdo con este modelo o ecuación, la variable dependiente ( Y ) se interpreta como una combinación lineal de un conjunto de K variables independientes ( X (^) k ), cada una de las cuales va acompañada de un coeficiente (β k ) que indica el peso relativo de esa variable en la ecuación. La ecuación incluye además una constante (β 0 ) y un componente aleatorio (los residuos: ε) que recoge todo lo que las variables independientes no son capaces de explicar. Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de su- puestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que estu- diaremos en detalle en el siguiente apartado. La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los coe- ficientes beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que las diferencias al cuadrado entre los valores observados ( Y ) y los pronosticados ( ) sean mínimas:

,895 ,802 ,800 $7,631.

Modelo 1

R

R cuadrado

R cuadrado corregida

Error típ. de la estimación

Modelo: 1

110540801465,350 3 36846933821,783 632,607 , 27375693970,990 470 58246157, 137916495436,340 473

Regresión Residual Total

Suma de cuadrados gl Media cuadrática F Sig.

Bondad de ajuste

Tomadas juntas (ver tabla 18.4), las tres variables independientes incluidas en el análisis ex- plican un 80 % de la varianza de la variable dependiente, pues R^2 corregida = 0,80. Además, el error típico de los residuos (8.115,36 en el análisis de regresión simple) ha disminuido algo (7.631,92 en el análisis de regresión múltiple), lo que indica una pequeña mejora en el ajuste. De nuevo, el valor corregido de R^2 es casi idéntico al valor no corregido.

Tabla 18.4. Resumen del modelo.

El estadístico F (ver tabla 18.5) contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, nos permite decidir si existe relación lineal significativa entre la variable de- pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico Sig. = 0,000 indica que sí existe relación lineal significativa. Podemos afirmar, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos.

Tabla 18.5. Resumen del ANOVA.

Modelo: 1

-3661,517 1935,490 -1,892 , 1,749 ,060 ,806 29,198 , -16,730 3,605 -,102 -4,641 , 735,956 168,689 ,124 4,363 ,

(Constante) Salario inicial Experiencia previa (meses) Nivel educativo (años)

B Error típ.

Coeficientes no estandarizados Beta

Coeficientes estandarizados t Sig.

Ecuación de regresión

La tabla de coeficientes de regresión parcial (ver tabla 18.6) contiene toda la información necesaria para construir la ecuación de regresión mínimo-cuadrática.

Tabla 18.6. Coeficientes de regresión parcial.

En la columna encabezada Coeficientes no estandarizados se encuentran los coeficientes ( B (^) k ) que forman parte de la ecuación en puntuaciones directas:

Pronóstico en salario =

= n3.661,517 + 1,749 salini n 16,730 expprev + 735,956 educ

Estos coeficientes no estandarizados se interpretan en los términos ya conocidos. Por ejemplo, el coeficiente correspondiente a la variable salini , que vale 1,749, indica que, si el resto de va- riables se mantienen constantes, a un aumento de una unidad (un dólar) en salini le corres- ponde, en promedio, un aumento de 1,749 dólares en salario. Es necesario señalar que estos coeficientes no son independientes entre sí. De hecho, re- ciben el nombre de coeficientes de regresión parcial porque el valor concreto estimado para cada coeficiente se ajusta teniendo en cuenta la presencia del resto de variables independientes. Conviene, por tanto, interpretarlos con cautela. El signo del coeficiente de regresión parcial de una variable puede no ser el mismo que el del coeficiente de correlación simple entre esa variable y la dependiente. Esto es debido a los ajustes que se llevan a cabo para poder obtener la mejor ecuación posible. Aunque existen diferentes explicaciones para justificar el cambio de signo de un coeficiente de regresión, una de las que deben ser más seriamente consideradas es la que se refiere a la presencia de un alto grado de asociación entre algunas de las variables independientes (colinealidad). Trataremos esta cuestión más adelante.