Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Multicolinealidad concepto y pruebas, Apuntes de Econometría

Definicion y pruebas para detectar multicolinealidad

Tipo: Apuntes

2019/2020

Subido el 26/02/2020

Francisco_MG_21
Francisco_MG_21 🇲🇽

1 documento

1 / 8

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
III-1
Multicolinealidad
1 Planteamiento
Una de las hipótesis del modelo de regresión lineal múltiple establece
que no existe relación lineal exacta entre los regresores, o, en otras palabras,
establece que no existe multicolinealidad perfecta en el modelo. Esta hipótesis
es necesaria para el cálculo del vector de estimadores mínimo cuadráticos, ya
que en caso contrario la matriz X'X será no singular. La multicolinealidad
perfecta no se suele presentar en la práctica, salvo que se diseñe mal el modelo
como veremos en el epígrafe siguiente. En cambio, sí es frecuente que entre
los regresores exista una relación aproximadamente lineal, en cuyo caso los
estimadores que se obtengan serán en general poco precisos, aunque siguen
conservando la propiedad de lineales, insesgados y óptimos. En otras palabras,
la relación entre regresores hace que sea difícil cuantificar con precisión el
efecto que cada regresor ejerce sobre el regresando, lo que determina que las
varianzas de los estimadores sean elevadas. Cuando se presenta una relación
aproximadamente lineal entre los regresores, se dice que existe
multicolinealidad no perfecta. Es importante señalar que el problema de
multicolinealidad, en mayor o menor grado, se plantea porque no existe
información suficiente para conseguir una estimación precisa de los
parámetros del modelo.
El problema de la multicolinealidad hace referencia, en concreto, a la
existencia de relaciones aproximadamente lineales entre los regresores del
modelo, cuando los estimadores obtenidos y la precisión de éstos se ven
seriamente afectados.
Para analizar este problema, vamos a examinar la varianza de un
estimador. En el modelo de regresión lineal múltiple, el estimador de la
varianza de un coeficiente cualquiera – por ejemplo, de ˆj
β
- se puede formular
de la siguiente forma:
n
2
22
ˆ
ˆ
var( ) (1 )
j
jj
TRS
σ
β
= (1)
donde
2
j
R
es el coeficiente de determinación obtenido al efectuar la regresión de Xj
sobre el resto de los regresores del modelo.
2
j
S es la varianza muestral del regresor Xj
Como se deduce de la expresión anterior, el estimador de la varianza
viene afectado por los siguientes factores:
a) Cuanto mayor es 2
ˆ
σ
, es decir, cuanto mayor es la dispersión
de los datos en modelo ajustado, mayor será la varianza del
estimador (Figura 1).
pf3
pf4
pf5
pf8

Vista previa parcial del texto

¡Descarga Multicolinealidad concepto y pruebas y más Apuntes en PDF de Econometría solo en Docsity!

Multicolinealidad

1 Planteamiento

Una de las hipótesis del modelo de regresión lineal múltiple establece que no existe relación lineal exacta entre los regresores, o, en otras palabras, establece que no existe multicolinealidad perfecta en el modelo. Esta hipótesis es necesaria para el cálculo del vector de estimadores mínimo cuadráticos, ya que en caso contrario la matriz X ' X será no singular. La multicolinealidad perfecta no se suele presentar en la práctica, salvo que se diseñe mal el modelo como veremos en el epígrafe siguiente. En cambio, sí es frecuente que entre los regresores exista una relación aproximadamente lineal, en cuyo caso los estimadores que se obtengan serán en general poco precisos, aunque siguen conservando la propiedad de lineales, insesgados y óptimos. En otras palabras, la relación entre regresores hace que sea difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, lo que determina que las varianzas de los estimadores sean elevadas. Cuando se presenta una relación aproximadamente lineal entre los regresores, se dice que existe multicolinealidad no perfecta. Es importante señalar que el problema de multicolinealidad, en mayor o menor grado, se plantea porque no existe información suficiente para conseguir una estimación precisa de los parámetros del modelo.

El problema de la multicolinealidad hace referencia, en concreto, a la existencia de relaciones aproximadamente lineales entre los regresores del modelo, cuando los estimadores obtenidos y la precisión de éstos se ven seriamente afectados.

Para analizar este problema, vamos a examinar la varianza de un estimador. En el modelo de regresión lineal múltiple, el estimador de la

varianza de un coeficiente cualquiera – por ejemplo, de βˆ^ j - se puede formular

de la siguiente forma:

n 2 2 2

var( ) (1 ) j T R (^) j Sj

donde

2 R (^) j es el coeficiente de determinación obtenido al efectuar la regresión de Xj

sobre el resto de los regresores del modelo.

2 S (^) j es la varianza muestral del regresor Xj

Como se deduce de la expresión anterior, el estimador de la varianza viene afectado por los siguientes factores:

a) Cuanto mayor es σˆ 2 , es decir, cuanto mayor es la dispersión de los datos en modelo ajustado, mayor será la varianza del estimador (Figura 1).

b) Al aumentar el tamaño de la muestra se reduce la varianza del estimador.

c) Cuanto menor sea la varianza muestral del regresor, es decir, cuanto menor sea la variabilidad muestral del regresor, mayor será la varianza del correspondiente coeficiente. (Figura 2)

d) Cuanto mayor sea R^2 (^) j , cuanto mayor sea la correlación del regresor con el resto de los regresores mayor será la varianza de βˆ (^) j.

FIGURA 1. Influencia de σ^2 sobre el estimador de la varianza.

Y

X

Y

ˆ 2 X σ grande σˆ^2 pequeña

FIGURA 2. Influencia de Sj sobre el estimador de la varianza. Y t

S (^) j pequeño Xt Sj grande

Yt

Xt

De los cuatro factores señalados es el factor d) el que se refiere a la multicolinealidad. Cuando se presenta multicolinealidad de una cierta

gravedad, es decir cuando uno o más de los R^2 j se aproximan a 1, se presentan

los siguientes problemas al realizar inferencias con el modelo:

a) Las varianzas de los estimadores son muy grandes.

b) Se puede aceptar con frecuencia la hipótesis nula de que un parámetro es cero, aun cuando la correspondiente variable sea relevante.

c) Los coeficientes estimados serán muy sensibles ante pequeños cambios en los datos.

Fue planteado inicialmente por Rachudel (1971) y desarrollado posteriormente por Belsley et al .(1980), y Belsley (1982).

El número de condición, κ ( X ), es igual a la raíz cuadrada de la razón

entre la raíz característica más grande ( λmax ) y la raíz característica más

pequeña ( λmin ) de la matriz X X ′ , es decir,

max min

( X )

λ κ λ

Como la matriz X X ′ es de dimensión k × k se obtienen k raíces características, pudiéndose calcular para cada una de ellas un índice de condición definido de la siguiente forma:

( ) max i i

ic λ λ λ

El número de condición mide la sensibilidad de las estimaciones mínimo- cuadráticas ante pequeños cambios en los datos. De acuerdo con los estudios realizados por Belsley y otros (op. cit.), y Belsley (op. cit.), tanto con datos observados como con datos simulados, el problema de la multicolinealidad es grave cuando el número de condición toma un valor entre 20 y 30. Naturalmente, si este indicador superase el valor de 30, el problema sería ya manifiestamente grave. Estos valores vienen generalmente referidos a regresores medidos con escala de longitud unidad (es decir, con los regresores divididos por la raíz cuadrada de la suma de los valores de las observaciones), pero no centrados. Parece que no es conveniente centrar los datos (es decir, restarles sus correspondientes medias), ya que esta operación oscurece cualquier dependencia lineal que implique al término independiente.

Una información de interés para identificar el origen de la multicolinealidad es la proporción que tiene cada raíz característica en cada uno de los regresores, según veremos más adelante.

CASO 1 Analizando la multicolinealidad en el caso del absentismo laboral

En el cuadro 1 se han recogido los resultados de la regresión del programa SPSS en la que la variable endógena es ABSEN y los regresores son, aparte del término independiente o constante, factores que hipotéticamente podrían explicar el absentismo. En concreto, las variables explicativas son EDAD, ANTIGUE y SALARIO (Véase el caso 3.7 de Econometría Aplicada ).

C UADRO 1. Resultados de la regresión en el caso 1. Coeficientes no estandarizados B Error típ.

Coeficientes estandarizados Beta

t Sig.

(Constante) 14,4133 1,6030 8,9913 0, EDAD -0,0960 0,0478 -0,3453 -2,0060 0, ANTIGUE -0,0776 0,0672 -0,2098 -1,1544 0, SALARIO -0,0364 0,0073 -0,4661 -4,9658 0, Variable dependiente: ABSEN

Las dos primeras columnas del cuadro 1 se refieren a conceptos con los que ya estamos familiarizados: coeficientes no estandarizados beta (es decir, los obtenidos directamente al aplicar al modelo MC) y los correspondientes errores típicos (o desviaciones típicas). La tercera columna presenta los coeficientes estandarizados beta , cuyo significado vamos a examinar a continuación. Previamente señalaremos que la interpretación de los coeficientes no estandarizados es la misma que se dio al coeficiente de la variable explicativa en la regresión lineal simple, aunque aquí al interpretar cada coeficiente habría que añadir la expresión “manteniéndose constantes las demás variables” al tratarse de un modelo de regresión múltiple. Si a uno le preguntaran cuál es la variable explicativa que tiene mayor influencia (en valor absoluto) sobre la variable endógena podría estar tentado de responder que la EDAD, ya que su coeficiente (-0,0960) es el mayor en valor absoluto. Sin embargo, hay que tener en cuenta que el valor que toman los coeficientes viene condicionado por las escalas en que vienen medidas las variables del modelo. Los coeficientes estandarizados beta no están afectados por este problema y se calculan según la siguiente fórmula:

ˆ ESj ˆ (^) j Xj Y

S

S

β = β (6)

donde S (^) Xj y SY son las desviaciones típicas muestrales de las variables Xj e Y respectivamente.

De acuerdo con (6) el coeficiente estandarizado βˆ^ ESj refleja el incremento en la variable Y (medido en desviaciones típicas de Y ) producido por un incremento de una desviación típica de la variable Xj.

Como puede verse en la columna de coeficientes estandarizados del cuadro 8.4 no es la EDAD sino el SALARIO la variable con mayor influencia en el absentismo. Las dos últimas columnas de este cuadro se examinarán más adelante al tratar los contrastes de significación.

Veamos ahora si la relación estimada está o no afectada por el problema de la multicolinealidad. Si en el programa SPSS se solicitan, en Estadísticos , los Diagnósticos de colinealidad , la salida del programa ofrece la información del cuadro 3, y, además, en la tabla de los coeficientes aparecen dos nuevas columnas que son las que se muestran en el cuadro 2.

solución es que los estimadores del nuevo modelo serán sesgados en el caso de que el modelo original fuera el correcto. Sobre esta cuestión conviene hacer la siguiente reflexión.

El investigador está interesado en que un estimador sea preciso (es decir, que no tenga sesgo o que este sea muy pequeño) y con una varianza reducida. El error cuadrático medio ( ECM ) recoge ambos tipos de factores.

Así para el estimador βˆ^ j , el ECM se define de la siguiente manera:

ECM ( β j ) = ^ sesgo ( β j )  + Var ( β j ) (7)

Si un regresor es eliminado del modelo, el estimador de un regresor

que se mantiene (por ejemplo, βˆ (^) j ) será sesgado, pero, sin embargo, su ECM

puede ser menor que el correspondiente al modelo original, debido a que la omisión de una variable puede hacer disminuir suficientemente la varianza del estimador. En resumen, aunque la eliminación de una variable no es una práctica que en principio sea aconsejable, en ciertas circunstancias puede tener su justificación cuando contribuye a disminuir el ECM.

Aumento del tamaño de la muestra

Teniendo en cuenta que un cierto grado de multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza.

Existen dos vías: por un lado, se puede aumentar la variabilidad a lo largo de la muestra de los regresores colineales introduciendo observaciones adicionales. Esta solución no siempre es viable, puesto que los datos utilizados en las contrastaciones empíricas proceden generalmente de fuentes estadísticas diversas, interviniendo en contadas ocasiones el investigador en la recogida de información.

Por otro lado, cuando se trate de diseños experimentales, se podrá incrementar directamente la variabilidad de los regresores sin necesidad de incrementar el tamaño de la muestra.

Finalmente, conviene no olvidar que el término de perturbación no debe contener ningún factor que sea realmente relevante para la explicación de las variaciones del regresando, con el fin de reducir todo lo posible la varianza del término de perturbación.

Utilización de información extramuestral

Otra posibilidad es la utilización de información extramuestral, bien estableciendo restricciones sobre los parámetros del modelo, bien aprovechando estimadores procedentes de otros estudios.

El establecimiento de restricciones sobre los parámetros del modelo reduce el número de parámetros a estimar y, por tanto, palia las posibles deficiencias de la información muestral. En cualquier caso, para que estas

restricciones sean útiles deben estar inspiradas en el propio modelo teórico o, al menos, tener un significado económico.

En general, un inconveniente de esta forma de proceder es que el significado atribuible al estimador obtenido con datos de corte transversal es muy diferente del obtenido con datos temporales. A veces, estos estimadores pueden resultar realmente «extraños» o ajenos al objeto de estudio. Por otra parte, al estimar las varianzas de los estimadores obtenidos en la segunda regresión hay que tener en cuenta la estimación previa.

Utilización de ratios

Si en lugar del regresando y de los regresores del modelo original se utilizan ratios con respecto al regresor que tenga mayor colinealidad, puede hacer que la correlación entre los regresores del modelo disminuya. Una solución de este tipo resulta muy atractiva, por su sencillez de aplicación. Sin embargo, las transformaciones de las variables originales del modelo utilizando ratios pueden provocar otro tipo de problemas. Suponiendo admisibles las hipótesis básicas con respecto a las perturbaciones originales del modelo, esta transformación modificaría implícitamente las propiedades del modelo, de tal manera que las perturbaciones del modelo transformado utilizando ratios ya no serían perturbaciones homoscedásticas, sino heteroscedásticas.