




Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Definicion y pruebas para detectar multicolinealidad
Tipo: Apuntes
1 / 8
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





Una de las hipótesis del modelo de regresión lineal múltiple establece que no existe relación lineal exacta entre los regresores, o, en otras palabras, establece que no existe multicolinealidad perfecta en el modelo. Esta hipótesis es necesaria para el cálculo del vector de estimadores mínimo cuadráticos, ya que en caso contrario la matriz X ' X será no singular. La multicolinealidad perfecta no se suele presentar en la práctica, salvo que se diseñe mal el modelo como veremos en el epígrafe siguiente. En cambio, sí es frecuente que entre los regresores exista una relación aproximadamente lineal, en cuyo caso los estimadores que se obtengan serán en general poco precisos, aunque siguen conservando la propiedad de lineales, insesgados y óptimos. En otras palabras, la relación entre regresores hace que sea difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, lo que determina que las varianzas de los estimadores sean elevadas. Cuando se presenta una relación aproximadamente lineal entre los regresores, se dice que existe multicolinealidad no perfecta. Es importante señalar que el problema de multicolinealidad, en mayor o menor grado, se plantea porque no existe información suficiente para conseguir una estimación precisa de los parámetros del modelo.
El problema de la multicolinealidad hace referencia, en concreto, a la existencia de relaciones aproximadamente lineales entre los regresores del modelo, cuando los estimadores obtenidos y la precisión de éstos se ven seriamente afectados.
Para analizar este problema, vamos a examinar la varianza de un estimador. En el modelo de regresión lineal múltiple, el estimador de la
de la siguiente forma:
n 2 2 2
var( ) (1 ) j T R (^) j Sj
donde
2 R (^) j es el coeficiente de determinación obtenido al efectuar la regresión de Xj
sobre el resto de los regresores del modelo.
2 S (^) j es la varianza muestral del regresor Xj
Como se deduce de la expresión anterior, el estimador de la varianza viene afectado por los siguientes factores:
a) Cuanto mayor es σˆ 2 , es decir, cuanto mayor es la dispersión de los datos en modelo ajustado, mayor será la varianza del estimador (Figura 1).
b) Al aumentar el tamaño de la muestra se reduce la varianza del estimador.
c) Cuanto menor sea la varianza muestral del regresor, es decir, cuanto menor sea la variabilidad muestral del regresor, mayor será la varianza del correspondiente coeficiente. (Figura 2)
d) Cuanto mayor sea R^2 (^) j , cuanto mayor sea la correlación del regresor con el resto de los regresores mayor será la varianza de βˆ (^) j.
FIGURA 1. Influencia de σ^2 sobre el estimador de la varianza.
Y
X
Y
ˆ 2 X σ grande σˆ^2 pequeña
FIGURA 2. Influencia de Sj sobre el estimador de la varianza. Y t
S (^) j pequeño Xt Sj grande
Yt
Xt
De los cuatro factores señalados es el factor d) el que se refiere a la multicolinealidad. Cuando se presenta multicolinealidad de una cierta
gravedad, es decir cuando uno o más de los R^2 j se aproximan a 1, se presentan
los siguientes problemas al realizar inferencias con el modelo:
a) Las varianzas de los estimadores son muy grandes.
b) Se puede aceptar con frecuencia la hipótesis nula de que un parámetro es cero, aun cuando la correspondiente variable sea relevante.
c) Los coeficientes estimados serán muy sensibles ante pequeños cambios en los datos.
Fue planteado inicialmente por Rachudel (1971) y desarrollado posteriormente por Belsley et al .(1980), y Belsley (1982).
El número de condición, κ ( X ), es igual a la raíz cuadrada de la razón
entre la raíz característica más grande ( λmax ) y la raíz característica más
max min
λ κ λ
Como la matriz X X ′ es de dimensión k × k se obtienen k raíces características, pudiéndose calcular para cada una de ellas un índice de condición definido de la siguiente forma:
( ) max i i
ic λ λ λ
El número de condición mide la sensibilidad de las estimaciones mínimo- cuadráticas ante pequeños cambios en los datos. De acuerdo con los estudios realizados por Belsley y otros (op. cit.), y Belsley (op. cit.), tanto con datos observados como con datos simulados, el problema de la multicolinealidad es grave cuando el número de condición toma un valor entre 20 y 30. Naturalmente, si este indicador superase el valor de 30, el problema sería ya manifiestamente grave. Estos valores vienen generalmente referidos a regresores medidos con escala de longitud unidad (es decir, con los regresores divididos por la raíz cuadrada de la suma de los valores de las observaciones), pero no centrados. Parece que no es conveniente centrar los datos (es decir, restarles sus correspondientes medias), ya que esta operación oscurece cualquier dependencia lineal que implique al término independiente.
Una información de interés para identificar el origen de la multicolinealidad es la proporción que tiene cada raíz característica en cada uno de los regresores, según veremos más adelante.
CASO 1 Analizando la multicolinealidad en el caso del absentismo laboral
En el cuadro 1 se han recogido los resultados de la regresión del programa SPSS en la que la variable endógena es ABSEN y los regresores son, aparte del término independiente o constante, factores que hipotéticamente podrían explicar el absentismo. En concreto, las variables explicativas son EDAD, ANTIGUE y SALARIO (Véase el caso 3.7 de Econometría Aplicada ).
C UADRO 1. Resultados de la regresión en el caso 1. Coeficientes no estandarizados B Error típ.
Coeficientes estandarizados Beta
t Sig.
(Constante) 14,4133 1,6030 8,9913 0, EDAD -0,0960 0,0478 -0,3453 -2,0060 0, ANTIGUE -0,0776 0,0672 -0,2098 -1,1544 0, SALARIO -0,0364 0,0073 -0,4661 -4,9658 0, Variable dependiente: ABSEN
Las dos primeras columnas del cuadro 1 se refieren a conceptos con los que ya estamos familiarizados: coeficientes no estandarizados beta (es decir, los obtenidos directamente al aplicar al modelo MC) y los correspondientes errores típicos (o desviaciones típicas). La tercera columna presenta los coeficientes estandarizados beta , cuyo significado vamos a examinar a continuación. Previamente señalaremos que la interpretación de los coeficientes no estandarizados es la misma que se dio al coeficiente de la variable explicativa en la regresión lineal simple, aunque aquí al interpretar cada coeficiente habría que añadir la expresión “manteniéndose constantes las demás variables” al tratarse de un modelo de regresión múltiple. Si a uno le preguntaran cuál es la variable explicativa que tiene mayor influencia (en valor absoluto) sobre la variable endógena podría estar tentado de responder que la EDAD, ya que su coeficiente (-0,0960) es el mayor en valor absoluto. Sin embargo, hay que tener en cuenta que el valor que toman los coeficientes viene condicionado por las escalas en que vienen medidas las variables del modelo. Los coeficientes estandarizados beta no están afectados por este problema y se calculan según la siguiente fórmula:
ˆ ESj ˆ (^) j Xj Y
β = β (6)
donde S (^) Xj y SY son las desviaciones típicas muestrales de las variables Xj e Y respectivamente.
De acuerdo con (6) el coeficiente estandarizado βˆ^ ESj refleja el incremento en la variable Y (medido en desviaciones típicas de Y ) producido por un incremento de una desviación típica de la variable Xj.
Como puede verse en la columna de coeficientes estandarizados del cuadro 8.4 no es la EDAD sino el SALARIO la variable con mayor influencia en el absentismo. Las dos últimas columnas de este cuadro se examinarán más adelante al tratar los contrastes de significación.
Veamos ahora si la relación estimada está o no afectada por el problema de la multicolinealidad. Si en el programa SPSS se solicitan, en Estadísticos , los Diagnósticos de colinealidad , la salida del programa ofrece la información del cuadro 3, y, además, en la tabla de los coeficientes aparecen dos nuevas columnas que son las que se muestran en el cuadro 2.
solución es que los estimadores del nuevo modelo serán sesgados en el caso de que el modelo original fuera el correcto. Sobre esta cuestión conviene hacer la siguiente reflexión.
El investigador está interesado en que un estimador sea preciso (es decir, que no tenga sesgo o que este sea muy pequeño) y con una varianza reducida. El error cuadrático medio ( ECM ) recoge ambos tipos de factores.
Así para el estimador βˆ^ j , el ECM se define de la siguiente manera:
ECM ( β j ) = ^ sesgo ( β j ) + Var ( β j ) (7)
Si un regresor es eliminado del modelo, el estimador de un regresor
que se mantiene (por ejemplo, βˆ (^) j ) será sesgado, pero, sin embargo, su ECM
puede ser menor que el correspondiente al modelo original, debido a que la omisión de una variable puede hacer disminuir suficientemente la varianza del estimador. En resumen, aunque la eliminación de una variable no es una práctica que en principio sea aconsejable, en ciertas circunstancias puede tener su justificación cuando contribuye a disminuir el ECM.
Aumento del tamaño de la muestra
Teniendo en cuenta que un cierto grado de multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza.
Existen dos vías: por un lado, se puede aumentar la variabilidad a lo largo de la muestra de los regresores colineales introduciendo observaciones adicionales. Esta solución no siempre es viable, puesto que los datos utilizados en las contrastaciones empíricas proceden generalmente de fuentes estadísticas diversas, interviniendo en contadas ocasiones el investigador en la recogida de información.
Por otro lado, cuando se trate de diseños experimentales, se podrá incrementar directamente la variabilidad de los regresores sin necesidad de incrementar el tamaño de la muestra.
Finalmente, conviene no olvidar que el término de perturbación no debe contener ningún factor que sea realmente relevante para la explicación de las variaciones del regresando, con el fin de reducir todo lo posible la varianza del término de perturbación.
Utilización de información extramuestral
Otra posibilidad es la utilización de información extramuestral, bien estableciendo restricciones sobre los parámetros del modelo, bien aprovechando estimadores procedentes de otros estudios.
El establecimiento de restricciones sobre los parámetros del modelo reduce el número de parámetros a estimar y, por tanto, palia las posibles deficiencias de la información muestral. En cualquier caso, para que estas
restricciones sean útiles deben estar inspiradas en el propio modelo teórico o, al menos, tener un significado económico.
En general, un inconveniente de esta forma de proceder es que el significado atribuible al estimador obtenido con datos de corte transversal es muy diferente del obtenido con datos temporales. A veces, estos estimadores pueden resultar realmente «extraños» o ajenos al objeto de estudio. Por otra parte, al estimar las varianzas de los estimadores obtenidos en la segunda regresión hay que tener en cuenta la estimación previa.
Utilización de ratios
Si en lugar del regresando y de los regresores del modelo original se utilizan ratios con respecto al regresor que tenga mayor colinealidad, puede hacer que la correlación entre los regresores del modelo disminuya. Una solución de este tipo resulta muy atractiva, por su sencillez de aplicación. Sin embargo, las transformaciones de las variables originales del modelo utilizando ratios pueden provocar otro tipo de problemas. Suponiendo admisibles las hipótesis básicas con respecto a las perturbaciones originales del modelo, esta transformación modificaría implícitamente las propiedades del modelo, de tal manera que las perturbaciones del modelo transformado utilizando ratios ya no serían perturbaciones homoscedásticas, sino heteroscedásticas.