Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de regresión lineal: conceptos y procedimiento - Prof. Datos, Apuntes de Psicología

El capítulo 18 del documento presenta el análisis de regresión lineal, una técnica estadística para estudiar la relación entre variables. Se explican los conceptos básicos de regresión simple y múltiple, el coeficiente de determinación r 2, los coeficientes de regresión parcial y estandarizados, y los supuestos del modelo de regresión lineal. También se tratan los métodos de selección de variables y el análisis de regresión por pasos.

Tipo: Apuntes

2014/2015

Subido el 18/10/2015

trinidad.gigena
trinidad.gigena 🇪🇸

3.7

(111)

62 documentos

1 / 41

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 18
Análisis de regresión lineal
El procedimiento Regresión lineal
Introducción
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis
de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas
hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de
mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede
resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto.
En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar
la relación entre una variable llamada dependiente o criterio (Y) y una o más variables llamadas
independientes o predictoras (X1, X2, ..., Xk), así como para desarrollar una ecuación lineal con
fines predictivos. Además, el análisis de regresión lleva asociados una serie de procedimientos
de diagnóstico (análisis de los residuos, puntos de influencia) que informan sobre la estabilidad
e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo.
Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual
que en los capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis,
sino que intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de
regresión lineal, y cómo interpretar los resultados. También prestaremos atención a otras
cuestiones como el chequeo de los supuestos del análisis de regresión y la forma de proceder
cuando se incumplen.
La recta de regresión
En el capítulo anterior (sobre correlación lineal) hemos visto que un diagrama de dispersión
ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pe-
ro, además, un diagrama de dispersión también puede utilizarse como una forma de cuantificar
el grado de relación lineal existente entre dos variables: basta con observar el grado en el que
la nube de puntos se ajusta a una línea recta.
Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión
muy rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29

Vista previa parcial del texto

¡Descarga Análisis de regresión lineal: conceptos y procedimiento - Prof. Datos y más Apuntes en PDF de Psicología solo en Docsity!

Capítulo 18

Análisis de regresión lineal

El procedimiento Regresión lineal

Introducción

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto. En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc. Tanto en el caso de dos variables (regresión simple ) como en el de más de dos variables (regresión múltiple ), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio ( Y ) y una o más variables llamadas independientes o predictoras ( X 1 , X 2 , ..., X (^) k ), así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una serie de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo. Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual que en los capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis, sino que intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de regresión lineal, y cómo interpretar los resultados. También prestaremos atención a otras cuestiones como el chequeo de los supuestos del análisis de regresión y la forma de proceder cuando se incumplen.

La recta de regresión

En el capítulo anterior (sobre correlación lineal) hemos visto que un diagrama de dispersión ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pe- ro, además, un diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables: basta con observar el grado en el que la nube de puntos se ajusta a una línea recta. Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma

338 Capítulo 18

Porcentaje de alcohol

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6, nº calorías (por tercio de litro)

200 180 160 140 120 100 80 60

de cuantificar esa relación tiene un serio inconveniente: la relación entre dos variables no siempre es perfecta o nula; de hecho, habitualmente no es ni lo uno ni lo otro. Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35 marcas de cerveza y que estamos interesados en estudiar la relación entre el grado de alcohol de las cervezas y su contenido calórico. Un buen punto de partida para formarnos una primera impresión de esa relación podría ser la representación de la nube de puntos, tal como muestra el diagrama de dispersión de la figura 18.1.

Figura 18.1. Diagrama de dispersión de porcentaje de alcohol por nº de calorías.

El eje vertical muestra el número de calorías (por cada tercio de litro) y el horizontal el con- tenido de alcohol (expresado en porcentaje). A simple vista, parece existir una relación positiva entre ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta el número de calorías. En esta muestra no hay cervezas que teniendo alto contenido de alcohol tengan pocas calorías y tampoco hay cervezas que teniendo muchas calorías tengan poco alcohol. La mayor parte de las cervezas de la muestra se agrupan entre el 4,5 % y el 5 % de alcohol, siendo relativamente pocas las cervezas que tienen un contenido de alcohol inferior a ése. Podríamos haber extendido el rango de la muestra incluyendo cervezas sin alcohol, pero el rango de calorías y alcohol considerados parece bastante apropiado: no hay, por ejemplo, cervezas con un contenido de alcohol del 50 %, o cervezas sin calorías. ¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos decir sim- plemente que el aumento del porcentaje de alcohol va acompañado de un aumento en el número de calorías; pero esto, aunque correcto, es poco específico. ¿Cómo podríamos obtener una descripción más concreta de los resultados? Podríamos, por ejemplo, listar los datos concretos de que disponemos; pero esto, aunque preciso, no resulta demasiado informativo. Podríamos hacer algo más interesante. Por ejemplo, describir la pauta observada en la nube de puntos mediante una función matemática simple, tal como una línea recta. A primera vista, una línea recta podría ser un buen punto de partida para describir resumidamente la nube de puntos de la figura 18.1. Puesto que una línea recta posee una fórmula muy simple, Yi = B 0 + B 1 X (^) i

340 Capítulo 18

con mejor ajuste a la nube de puntos. Pero en una nube de puntos más realista (como la de las figuras 18.1 y 18.2) es posible trazar muchas rectas diferentes. Obviamente, no todas ellas se ajustarán igualmente bien a la nube de puntos. Se trata de encontrar la recta capaz de conver- tirse en el mejor representante del conjunto total de puntos. Existen diferentes procedimientos para ajustar una función simple, cada uno de los cuales intenta minimizar una medida diferente del grado de ajuste. La elección preferida ha sido, tradi- cionalmente, la recta que hace mínima la suma de los cuadrados de las distancias verticales entre cada punto y la recta. Esto significa que, de todas las rectas posibles, existe una y sólo una que consigue que las distancias verticales entre cada punto y la recta sean mínimas (las dis- tancias se elevan al cuadrado porque, de lo contrario, al ser unas positivas y otras negativas, se anularían unas con otras al sumarlas).

Bondad de ajuste

Además de acompañar la recta con su fórmula, podría resultar útil disponer de alguna indica- ción precisa del grado en el que la recta se ajusta a la nube de puntos. De hecho, la mejor recta posible no tiene por qué ser buena. Imaginemos una situación como la presentada en el diagrama de la figura 18.3, en el que la recta consigue un ajuste bastante más pobre que en el caso de la figura 18.2. Ahora hemos representado el porcentaje de alcohol de las cervezas (eje horizontal) y el precio de las mismas (eje vertical). Y no parece existir la misma pauta de asociación detectada entre las variables de la situación anterior. Así pues, aunque siempre resulta posible, cualquiera que sea la nube de puntos, obtener la recta mínimo-cuadrática, necesitamos información adicional para determinar el grado de fi- delidad con que esa recta describe la pauta de relación existente en los datos.

Figura 18.3. Diagrama de dispersión, recta de regresión y ajuste ( % de alcohol por precio ).

¿Cómo podemos cuantificar ese mejor o peor ajuste de la recta? Hay muchas formas de resumir el grado en el que una recta se ajusta a una nube de puntos. Podríamos utilizar la media de los residuos, o la media de los residuos en valor absoluto, o las medianas de alguna de esas medi- das, o alguna función ponderada de esas medidas, etc.

Análisis de regresión lineal 341

Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es el coeficiente de determinación R^2 : el cuadrado del coeficiente de correlación múltiple. Se trata de una medida estandarizada que toma valores entre 0 y 1 (0 cuando las va- riables son independientes y 1 cuando entre ellas existe relación perfecta). Este coeficiente posee una interpretación muy intuitiva: representa el grado de ganancia que podemos obtener al predecir una variable basándonos en el conocimiento que tenemos de otra u otras variables. Si queremos, por ejemplo, pronosticar el número de calorías de una cer- veza sin el conocimiento de otras variables, utilizaríamos la media del número de calorías. Pero si tenemos información sobre otra variable y del grado de relación entre ambas, es posible mejorar nuestro pronóstico. El valor R^2 del diagrama de la figura 18.2 vale 0,83, lo que indica que si conocemos el porcentaje de alcohol de una cerveza, podemos mejorar en un 83 % nues- tros pronósticos sobre su número de calorías si, en lugar de utilizar como pronóstico el número medio de calorías, basamos nuestro pronóstico en el porcentaje de alcohol. Comparando este resultado con el correspondiente al diagrama de la figura 18.3 (donde R^2 vale 0,06) compren- deremos el valor informativo de R^2 : en este segundo caso, el conocimiento del contenido de alcohol de una cerveza sólo nos permite mejorar nuestros pronósticos del precio en un 6 %, lo cual nos está indicando, además de que nuestros pronósticos no mejoran de forma importante, que existe un mal ajuste de la recta a la nube de puntos. Parece evidente, sin tener todavía otro tipo de información, que el porcentaje de alcohol de las cervezas está mas relacionado con el número de calorías que con su precio.

Resumen

En este primer apartado introductorio hemos aprendido que el análisis de regresión lineal es una técnica estadística que permite estudiar la relación entre una variable dependiente (VD) y una o más variables independientes (VI) con el doble propósito de: 1) averiguar en qué medida la VD puede estar explicada por la(s) VI y 2) obtener predicciones en la VD a partir de la(s) VI. El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor expresa la relación entre la VD y la(s) VI y estimar mediante el coeficiente de determinación la calidad de la ecuación de regresión obtenida. Estos dos pasos deben ir acompañados de un chequeo del cumplimiento de las condiciones o supuestos que garantizan la validez del proce- dimiento.

Análisis de regresión lineal simple

Vamos a iniciar nuestro estudio más formal de la regresión con el modelo de regresión lineal simple ( simple = una variable independiente), pero conviene no perder de vista que, puesto que generalmente estaremos interesados en estudiar simultáneamente más de una variable predic- tora, este análisis es sólo un punto de partida en nuestra explicación del análisis de regresión. Vamos a seguir utilizando en todo momento el archivo Datos de empleados que, como ya sabemos, se instala con el programa en el propio directorio del SPSS. Y comenzaremos utili- zando salario (salario actual) como variable dependiente y salini (salario inicial) como variable independiente o predictora.

Análisis de regresión lineal 343

,880 ,775 ,774 $8,115.

Modelo 1

R R cuadrado

R cuadrado corregida

Error típ. de la estimación

106831048750,124 1 106831048750,124 1622,118 , 31085446686,216 472 65858997, 137916495436,340 473

Regresión Residual Total

Modelo 1

Suma de cuadrados gl Media cuadrática F Sig.

la variable dependiente que está explicada por la variable independiente. En nuestro ejemplo (tabla 18.1), R toma un valor muy alto (su máximo es 1); y R^2 nos indica que el 77,5 % de la variación de salario está explicada por salini. Es importante resaltar en este momento que el análisis de regresión no permite afirmar que las relaciones detectadas sean de tipo causal: sólo es posible hablar de grado de relación.

Tabla 18.1. Resumen del modelo.

R cuadrado corregida es una corrección a la baja de R^2 que se basa en el número de casos y de variables independientes:

( p se refiere al número de variables independientes). En una situación con pocos casos y mu- chas variables independientes, R^2 puede ser artificialmente alta. En tal caso, el valor de R^2 co- rregida será sustancialmente más bajo que el de R^2. En nuestro ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R^2 (el corregido y el no corregido) son prácticamente iguales. El error típico de la estimación (al que llamaremos S (^) e ) es la desviación típica de los resi- duos, es decir, la desviación típica de las distancias existentes entre las puntuaciones en la va- riable dependiente ( Yi ) y los pronósticos efectuados con la recta de regresión aunque no

exactamente, pues la suma de las distancias al cuadrado están divididas por n n2:

En realidad, este error típico es la raíz cuadrada de la media cuadrática residual de la tabla 18.2). Representa una medida de la parte de variabilidad de la variable dependiente que no es explicada por la recta de regresión. En general, cuanto mejor es el ajuste, más pequeño es este error típico.

Tabla 18.2. Resumen del ANOVA.

La tabla resumen del ANOVA (tabla 18.2) nos informa sobre si existe o no relación signifi- cativa entre las variables. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero, lo cual, en el modelo de regresión simple, equivale a contrastar la hi- pótesis de que la pendiente de la recta de regresión vale cero. El nivel crítico ( Sig. ) indica que, si suponemos que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R , en esta muestra, tome el valor 0,88. Lo cual implica que R es mayor que cero y que, en con- secuencia, ambas variables están linealmente relacionadas.

344 Capítulo 18

1928,206 888,680 2,170 , 1,909 ,047 ,880 40,276 ,

(Constante) Salario inicial

B Error típ.

Coeficientes no estandarizados Beta

Coeficientes estandarizados t Sig.

Ecuación de regresión

La tabla 18.3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coefi- cientes no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas.

Tabla 18.3. Coeficientes de regresión parcial.

El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo que he- mos llamado B 0 ):

Y el coeficiente correspondiente a Salario inicial es la pendiente de la recta de regresión (lo que hemos llamado B 1 ):

B 1 indica el cambio medio que corresponde a la variable dependiente ( salario ) por cada unidad de cambio de la variable independiente ( salini ). Según esto, la ecuación de regresión queda de la siguiente manera:

Pronóstico en salario = 1928,206 + 1,909 salini A cada valor de salini le corresponde un pronóstico en salario basado en un incremento cons- tante (1928,206) más 1,909 veces el valor de salini.

Coeficientes de regresión estandarizados

Los coeficientes Beta (coeficientes de regresión parcial estandarizados) son los coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables ori- ginales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la siguiente manera: En el análisis de regresión simple, el coeficiente de regresión estandarizado correspon- diente a la única variable independiente presente en la ecuación coincide exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según veremos, los coeficientes de regresión estandarizados permiten valorar la importancia relativa de cada variable indepen- diente dentro de la ecuación.

346 Capítulo 18

Figura 18.5. Diagrama de dispersión de salario sobre salini y expprev.

Con una variable dependiente y dos independientes, necesitamos tres ejes para poder repre- sentar el correspondiente diagrama de dispersión. Y si en lugar de dos variables independientes utilizáramos tres, sería necesario un espacio de cuatro dimensiones para poder construir el dia- grama de dispersión. Y un espacio de cinco dimensiones para poder construir el diagrama co- rrespondiente a cuatro variables independientes. Etc. Por tanto, con más de una variable independiente, la representación gráfica de las rela- ciones presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útil. Es más fácil y práctico partir de la ecuación del modelo de regresión lineal:

De acuerdo con este modelo o ecuación, la variable dependiente ( Y ) se interpreta como una combinación lineal de un conjunto de K variables independientes ( X (^) k ), cada una de las cuales va acompañada de un coeficiente (β k ) que indica el peso relativo de esa variable en la ecuación. La ecuación incluye además una constante (β 0 ) y un componente aleatorio (los residuos: ε) que recoge todo lo que las variables independientes no son capaces de explicar. Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de su- puestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que estu- diaremos en detalle en el siguiente apartado. La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los coe- ficientes beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que las diferencias al cuadrado entre los valores observados ( Y ) y los pronosticados ( ) sean mínimas:

Análisis de regresión lineal 347

,895 ,802 ,800 $7,631.

Modelo 1

R

R cuadrado

R cuadrado corregida

Error típ. de la estimación

Modelo: 1

110540801465,350 3 36846933821,783 632,607 , 27375693970,990 470 58246157, 137916495436,340 473

Regresión Residual Total

Suma de cuadrados gl Media cuadrática F Sig.

Regresión múltiple

Al igual que en el análisis de regresión simple del apartado anterior, vamos a seguir utilizando salario (salario actual) como variable dependiente. Pero ahora vamos a incluir 3 variables independientes en el modelo: salini (salario inicial), expprev (experiencia previa) y educ (nivel educativo). Para llevar a cabo un análisis de regresión múltiple con las especificaciones que el progra- ma tiene establecidas por defecto:

| Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro

de diálogo Regresión lineal que muestra la figura 18.4.

| Seleccionar la variable salario en la lista de variables del archivo de datos y trasladarla

al cuadro Dependiente.

| Seleccionar las variables salini , expprev y educ y trasladarlas a la lista Indepen-

dientes.

Con estas especificaciones mínimas, al pulsar el botón Aceptar el Visor ofrece la información que muestran las tablas 18.4 a la 18.6.

Bondad de ajuste

Tomadas juntas (ver tabla 18.4), las tres variables independientes incluidas en el análisis ex- plican un 80 % de la varianza de la variable dependiente, pues R^2 corregida = 0,80. Además, el error típico de los residuos (8.115,36 en el análisis de regresión simple) ha disminuido algo (7.631,92 en el análisis de regresión múltiple), lo que indica una pequeña mejora en el ajuste. De nuevo, el valor corregido de R^2 es casi idéntico al valor no corregido.

Tabla 18.4. Resumen del modelo.

El estadístico F (ver tabla 18.5) contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, nos permite decidir si existe relación lineal significativa entre la variable de- pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico Sig. = 0,000 indica que sí existe relación lineal significativa. Podemos afirmar, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos.

Tabla 18.5. Resumen del ANOVA.

Análisis de regresión lineal 349

peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coefi- ciente de regresión estandarizado. Observando los coeficientes Beta de la tabla 18.6 vemos que la variable salini es la más importante; después, educ ; por último, expprev. Lo ya dicho sobre la no independencia de los coeficientes de regresión parcial no estandarizados también vale aquí.

Pruebas de significación

Las pruebas t y sus niveles críticos (últimas dos columnas de la tabla 18.6: t y Sig. ) sirven para contrastar la hipótesis nula de que un coeficiente de regresión vale cero en la población. Nive- les críticos ( Sig. ) muy pequeños (generalmente menores que 0,05) indican que debemos recha- zar esa hipótesis nula. Un coeficiente de cero indica ausencia de relación lineal, de modo que los coeficientes significativamente distintos de cero nos informan sobre qué variables son relevantes en la ecuación de regresión. Observando el nivel crítico asociado a cada prueba t (tabla 18.6), vemos que las tres variables utilizadas poseen coeficientes significativamente distintos de cero (en todas, Sig. = 0,000). Todas ellas, por tanto, contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente.

Información complementaria

Además de la ecuación de regresión y de la calidad de su ajuste, un análisis de regresión no debe renunciar a la obtención de algunos estadísticos descriptivos elementales como la matriz de correlaciones, la media y la desviación típica de cada variable y el número de casos con el que se está trabajando, etc. Para obtener estos estadísticos:

| Pulsar el botón Estadísticos... del cuadro de diálogo Regresión lineal (ver figura 18.4)

para acceder al subcuadro de diálogo Regresión lineal: Estadísticos que muestra la figura 18.6.

Figura 18.6. Subcuadro de diálogo Regresión lineal: Estadísticos.

350 Capítulo 18

Modelo: 1

-3661,5 1935,490 -1,892 ,059 -7464,803 141, 1,749 ,060 ,806 29,198 ,000 1,631 1, -16,730 3,605 -,102 -4,641 ,000 -23,814 -9, 735,956 168,689 ,124 4,363 ,000 404,477 1067,

(Constante) Salario inicial Experiencia previa Nivel educativo

B

Error típ.

Coeficientes no estandarizados Beta

Coeficientes estandarizados t Sig.

Límite inferior

Límite superior

Intervalo de confianza para B al 95%

Entre las opciones que ofrece este subcuadro de diálogo, existen dos que se encuentran mar- cadas por defecto. Estas dos opciones ya marcadas son precisamente las que permiten obtener la información que recogen las tablas 18.1 a la 18.6 cuando pulsamos el botón Aceptar del cuadro de diálogo Regresión lineal (ver figura 18.4) sin hacer otra cosa que seleccionar la variable dependiente y la independiente:

G Estimaciones. Ofrece las estimaciones de los coeficientes de regresión parcial no estan-

darizados ( B ) y estandarizados ( Beta ), junto con las pruebas de significación t individuales para contrastar las hipótesis de que el valor poblacional de esos coeficientes es cero (ver tablas 18.3 y 18.6).

G Ajuste del modelo. Muestra el coeficiente de correlación múltiple, su cuadrado corregido

y no corregido, y el error típico de los residuos (ver tablas 18.1 y 18.4: R , R^2 , R^2 corregida y error típico de la estimación ). Esta opción también incluye la tabla resumen del ANO- VA, la cual contiene el estadístico F para contrastar la hipótesis R = 0 (ver tablas 18.2 y 18.4).

Al margen de las dos opciones, que se encuentran activas por defecto, el subcuadro de diálogo Regresión lineal: Estadísticos (figura 18.6) contiene varias opciones muy interesantes en un análisis de regresión:

G Intervalos de confianza. Esta opción, situada en el recuadro Coeficientes de regresión ,

hace que, además de una estimación puntual de los coeficientes de regresión parcial (que ya obtenemos con la opción Estimaciones ), podamos obtener el intervalo de confianza para esos coeficientes (ver tabla 18.7). Estos intervalos nos informan sobre los límites entre los que podemos esperar que se encuentre el valor poblacional de cada coeficiente de regresión. Los límites se obtienen su- mando y restando 1,96 errores típicos al valor del correspondiente coeficiente de regresión (decimos 1,96 porque el SPSS trabaja, por defecto, con un nivel de confianza de 0,95). Intervalos de confianza muy amplios indican que las estimaciones obtenidas son poco precisas y, probablemente, inestables (cosa que suele ocurrir, por ejemplo, cuando existen problemas de colinealidad; estudiaremos esta cuestión más adelante, en el apartado dedi- cado a los supuestos del modelo de regresión).

Tabla 18.7. Coeficientes de regresión parcial, incluyendo los Intervalos de confianza.

G Matriz de covarianza. Muestra una matriz con las covarianzas y correlaciones existentes

entre los coeficientes de regresión parcial (tabla 18.8). Vemos que, efectivamente, los coeficientes de regresión parcial no son independientes entre sí.

352 Capítulo 18

Modelo: 1

-3661,517 1935,490 -1,892 , 1,749 ,060 ,806 29,198 ,000 ,880 ,803 , -16,730 3,605 -,102 -4,641 ,000 -,097 -,209 -, 735,956 168,689 ,124 4,363 ,000 ,661 ,197 ,

(Constante) Salario inicial Experiencia previa Nivel educativo

B

Error típ.

Coeficientes no estandarizados

Beta

Coeficientes estandarizados

t Sig.

Orden cero Parcial

Semi- parcial

Correlaciones

Un coeficiente de correlación parcial expresa el grado de relación existente entre dos va- riables tras eliminar de ambas el efecto debido a terceras variables (ver capítulo 17). En el contexto del análisis de regresión, los coeficientes de correlación parcial expresan el grado de relación existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuación. Un coeficiente de correlación semiparcial expresa el grado de relación existente entre dos variables tras eliminar de una de ellas el efecto debido a terceras variables. En el con- texto del análisis de regresión, estos coeficientes expresan el grado de relación existente entre la variable dependiente y la parte de cada variable independiente que no está explica- da por el resto de variables independientes. Seleccionando la opción Correlaciones parcial y semiparcial , la tabla de coeficientes de regresión (tabla 18.6, ya vista) incluye la información adicional que muestra la tabla 18.11.

Tabla 18.11. Coeficientes de regresión parcial y coeficientes de correlación parcial y semiparcial.

Junto con los coeficientes de correlación parcial y semiparcial, aparecen las correlaciones de orden cero , es decir, los coeficientes de correlación calculados sin tener en cuenta la presencia de terceras variables (se trata de los mismos coeficientes que aparecen en la tabla 18.10). Comparando entre sí estos coeficientes (de orden cero, parcial y semiparcial) pue- den encontrarse pautas de relación interesantes. En los datos de la tabla 18.11 ocurre, por ejemplo, que la relación entre la variable dependiente salario actual y la variable indepen- diente nivel educativo vale 0,661. Sin embargo, al eliminar de salario actual y de nivel educativo el efecto atribuible al resto de variables independientes ( salario inicial y expe- riencia previa ), la relación baja hasta 0,197 (parcial); y cuando el efecto atribuible a sa- lario inicial y experiencia previa se elimina sólo de salario actual , la relación baja hasta 0,090 (semiparcial). Lo cual está indicando que la relación entre estas dos últimas variables podría ser espúrea, pues puede explicarse casi por completo recurriendo a las otras dos variables independientes.

El resto de opciones del subcuadro de diálogo Regresión lineal: Estadísticos (ver figura 18.6) tienen que ver con los supuestos del modelo de regresión lineal ( estadísticos de colinealidad, residuos ) y con el análisis de regresión por pasos ( cambio en R cuadrado ). Todas estas opcio- nes se tratan más adelante.

Análisis de regresión lineal 353

Supuestos del modelo de regresión lineal

Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de regre- sión, nos veremos en la necesidad de examinar muchos de estos supuestos.

  1. Linealidad. La ecuación de regresión adopta una forma particular. En concreto, la variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combi- nación lineal de variables independientes o predictoras y los residuos. El incumplimiento del supuesto de linealidad suele denominarse error de especificación. Algunos ejemplos son: omisión de variables independientes importantes, inclusión de variables independien- tes irrelevantes, no linealidad (la relación entre las variables independientes y la depen- diente no es lineal), parámetros cambiantes (los parámetros no permanecen constantes du- rante el tiempo que dura la recogida de datos), no aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra variable independiente), etc.
  2. Independencia. Los residuos son independientes entre sí, es decir, los residuos constituyen una variable aleatoria (recordemos que los residuos son las diferencias entre los valores observados y los pronosticados). Es frecuente encontrarse con residuos autocorrelacio- nados cuando se trabaja con series temporales.
  3. Homocedasticidad. Para cada valor de la variable independiente (o combinación de va- lores de las variables independientes), la varianza de los residuos es constante.
  4. Normalidad. Para cada valor de la variable independiente (o combinación de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.
  5. No-colinealidad. No existe relación lineal exacta entre ninguna de las variables indepen- dientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad.

Sobre el cumplimiento del primer supuesto puede obtenerse información a partir de una ins- pección del diagrama de dispersión: si tenemos intención de utilizar el modelo de regresión lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea de tipo lineal (veremos que existen gráficos parciales que permiten obtener una representación de la relación neta existente entre dos variables). El quinto supuesto, no-colinealidad , no tiene sentido en regresión simple, pues es imprescindible la presencia de más de una variable inde- pendiente. Veremos que existen diferentes formas de diagnosticar la presencia de colinealidad. El resto de los supuestos, independencia , homocedasticidad y normalidad , están estrechamente asociados al comportamiento de los residuos. Por tanto, un análisis cuidadoso de los residuos puede informarnos sobre el cumplimiento de los mismos.

Análisis de los residuos

Llamamos residuos a las diferencias entre los valores observados y los pronosticados:. Pueden obtenerse marcando la opción No tipificados dentro del recuadro Residuos en el sub- cuadro de diálogo Regresión lineal: Guardar nuevas variables (ver figura 18.12, más adelan- te).

Análisis de regresión lineal 355

$12,382.90 $146,851.63 $34,419.57 $15,287.30 474 -$28,852.99 $48,701.20 $.00 $7,607.68 474 -1,442 7,355 ,000 1,000 474 -3,781 6,381 ,000 ,997 474

Pronóstico Residuo Pronóstico tipificado Residuo tipificado

Mínimo Máximo Media Desviación típ. N

Los residuos tipificados (residuos divididos por su error típico) tienen una media de 0 y una desviación típica de 1. La tabla recoge los casos con residuos que se alejan de su media (cero) más de 3 desviaciones típicas. Si estos residuos están normalmente distribuidos (cosa que asumimos en el análisis de regresión), cabe esperar que el 95% de ellos se encuentre en el

rango [n1,96, +1,96]. Y el 99,9%, en el rango [n3, +3]. Es fácil, por tanto, identificar los

casos que poseen residuos grandes. En la práctica, los casos con residuos grandes deben ser examinados para averiguar si las puntuaciones que tienen asignadas son o no correctas. Si, a pesar de tener asociados residuos grandes, las puntuaciones asignadas son correctas, conviene estudiar esos casos detenidamente para averiguar si difieren de algún modo y de forma sistemática del resto de los casos. Esto últi- mo es fácil de hacer en el SPSS pues, según veremos más adelante, es posible salvar los resi- duos correspondientes a cada caso como una variable más del archivo de datos. Además de la tabla de Diagnósticos por caso , el Visor ofrece una tabla resumen con infor- mación sobre el valor máximo y mínimo, y la media y la desviación típica de los pronósticos, de los residuos, de los pronósticos tipificados y de los residuos tipificados (ver tabla 18.13). Especialmente importante es señalar que la media de los residuos vale cero.

Tabla 18.13. Estadísticos sobre los residuos.

Independencia

El verdadero interés de los residuos hay que buscarlo en el hecho de que el análisis de los mis- mos nos proporciona información crucial sobre el cumplimiento de varios supuestos del mode- lo de regresión lineal: independencia, homocedasticidad, normalidad y linealidad. Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los residuos (supuesto éste particularmente relevante cuando los datos se han recogido siguien- do una secuencia temporal). El estadístico de Durbin-Watson (1951) proporciona información sobre el grado de independencia existente entre ellos:

( e (^) i se refiere a los residuos: ). El estadístico DW oscila entre 0 y 4, y toma el valor 2 cuando los residuos son independientes. Los valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando DW toma valores entre 1,5 y 2,5.

356 Capítulo 18

Modelo: 1

,895 ,802 ,800 $7,631.92 1,

R

R cuadrado

R cuadrado corregida

Error típ. de la estimación Durbin-Watson

Para obtener el estadístico de Durbin-Watson :

| Seleccionar la opción de Durbin-Watson del cuadro de diálogo Regresión lineal: Es-

tadísticos (ver figura 18.6.bis). Esta elección permite obtener en la tabla 18.4 (ya vista) la información adicional que recoge la tabla 18.14.

Tabla 18.14. Resumen del modelo.

Puesto que el valor DW = 1,579 se encuentra entre 1,5 y 2,5, podemos asumir que los residuos son independientes.

Homocedasticidad

El procedimiento Regresión lineal dispone de una serie de gráficos que permiten, entre otras cosas, obtener información sobre el grado de cumplimiento de los supuestos de homocedas- ticidad y normalidad de los residuos. Para utilizar estos gráficos:

| Pulsar el botón Gráficos... del cuadro de diálogo Regresión lineal (ver figura 18.4) para

acceder al subcuadro de diálogo Regresión lineal: Gráficos que muestra la figura 18.7.

Figura 18.7. Subcuadro de diálogo Regresión lineal: Gráficos.

Las variables listadas permiten obtener diferentes gráficos de dispersión. Las variables pre- cedidas por un asterisco son variables creadas por el SPSS; todas ellas pueden crearse en el Editor de datos marcando las opciones pertinentes del recuadro Residuos del subcuadro de diálogo Regresión lineal: Guardar nuevas variables (ver figura 18.12 más adelante):

DEPENDENT : variable dependiente de la ecuación de regresión. ZPRED (pronósticos típificados): pronósticos divididos por su desviación típica. Son pro- nósticos transformados en puntuaciones z (con media 0 y desviación típica 1).