Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Regresión Lineal General: Métodos de Estimación y Selección de Modelos, Apuntes de Microeconomía

Los métodos para estimar los coeficientes de un modelo de regresión lineal general: mínimos cuadrados ordinarios y máxima verosimilitud. Además, se derivan las propiedades del estimador de mínimos cuadrados ordinarios y se obtiene la expresión general para la construcción de intervalos de confianza de un coeficiente del modelo. Se incluye una discusión sobre la descomposición de observaciones y el cálculo de sumas de cuadrados total, explicada, residual y por variables explicativas. Se presentan los criterios de selección de modelos y se compara el coeficiente de determinación corregido con criterios de información como aic y sbic.

Tipo: Apuntes

2018/2019

Subido el 15/04/2019

luzmaarquez
luzmaarquez 🇪🇸

4.6

(5)

16 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Econometría I GADE
Profesoras: Mª Dolores García Crespo y Mª Luz González Álvarez
Departamento de Estadística y Econometría
Universidad de Málaga
Tema 3
Modelo de Regresión Lineal General (II)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Análisis de Regresión Lineal General: Métodos de Estimación y Selección de Modelos y más Apuntes en PDF de Microeconomía solo en Docsity!

Econometría I GADE

Profesoras: Mª Dolores García Crespo y Mª Luz González Álvarez

Departamento de Estadística y Econometría

Universidad de Málaga

Tema 3

Modelo de Regresión Lineal General (II)

Tema 3

El modelo de regresiÛn lineal

general (II)

3.1 IntroducciÛn

En el tema 2 nos hemos centrado en la estimaciÛn del MRLG. En partic- ular, hemos visto dos mÈtodos para estimar los coeÖcientes del modelo de regresiÛn lineal general: mÌnimos cuadrados ordinarios y m·xima verosimil- itud. Adem·s, hemos comprobado que coinciden las expresiones de ambos estimadores, b^ M CO = b^ M V. TambiÈn hemos derivado las propiedades del b (^) M CO, que es ELIO en muestras pequeÒas. Y, por ˙ltimo, hemos obtenido

la expresiÛn general para la construcciÛn de intervalos de conÖanza para un coeÖciente del modelo. Ahora vamos a dirigir la atenciÛn a las siguientes cuestiones:

 ValoraciÛn de la calidad del modelo ajustado (3.2)

 øCÛmo seleccionar entre modelos alternativos explicativos de y? (3.3)

 øCÛmo aÖrmar en tÈrminos estadÌsticos que un regresor o un conjunto de regresores ináuyen sobre y? (3.4-3.5)

 øCÛmo predecir y para unos determinados valores de las variables ex- plicativas? (3.6)

Es decir, en este tema nos centramos en evaluar el modelo estimado, en realizar constrastes de hipÛtesis que nos permitan generalizar los resulta- dos de la muestra a la poblaciÛn y en realizar predicciones de la variable dependiente.

 SCT =
P

(yi y)^2 : Suma de cuadrados total o suma de cuadrados de y:

 SCE =

P

(byi y)^2 : Suma de cuadrados explicada por el modelo o por las X:

 SCR =

P

e^2 i : Suma de cuadrados de los residuos.

la expresiÛn anterior (3.2) se puede escribir como:

SCT = SCE + SCR (3.3)

A las expresiones (3.2) y (3.3) se les denomina descomposiciÛn de la suma de cuadrados total y establecen que la suma de cuadrados total (SCT ) tiene una parte explicada por el modelo (SCE) y otra residual (SCR). En deÖnitiva, la variabilidad de y tiene una parte explicada por las variables del modelo y otra residual. A partir de (3.3) se deÖne el coeÖciente de determinaciÛn por cualquiera de las siguientes expresiones:

R^2 =
SCE
SCT
Û R^2 = 1
SCR
SCT

Alternativamente, dividiendo la expresiÛn (3.2) por n, quedarÌa: P (yi y)^2 n

P

(byi y)^2 n

P

e^2 i n

donde cada tÈrmino, como vemos, es una varianza (recordemos que by = y). Por tanto, podemos expresar la anterior ecuaciÛn como:

S^2 y = Sy^2 b + S^2 e (3.6)

siendo:

y, de ahÌ, quedarÌa: (^) X (yi y)^2 =

X (byi y)^2 +

X e^2 i

puesto que el tercer sumatorio de la ecuaciÛn (3.1) es cero. DemostrÈmoslo: X (ybi y)ei =

X ybiei y

X ei = 0 0 = 0

donde hemos utilizado los conocidos resultados de P^ ei = 0 y P byiei = 0 [que es igual que by^0 e = 0]:

 S^2 y : Varianza de y:

 S^2 by : Varianza de by o varianza explicada por el modelo (por las X).

 S^2 e : Varianza no explicada por el modelo o varianza residual.

A las expresiones (3.5) y (3.6) se les denomina descomposiciÛn de la varianza y establecen que la S y^2 se divide en una parte explicada por el modelo (S^2 by ) y otra residual (S e^2 ): A partir de (3.6), el coeÖciente de determinaciÛn tambiÈn se puede deÖnir como:

R^2 =

S by^2 S y^2

S e^2 S y^2 Es obvio que, dado que R^2 se deÖne como un cociente entre cantidades expresadas en iguales unidades, ser· un coeÖciente adimensional y solo podr· tomar valores entre cero y uno: 0  R^2  1. No obstante, se puede demostrar que si no hubiera tÈrmino constante en el modelo, R^2 podrÌa ser negativo. La interpretaciÛn de sus valores extremos es la siguiente:

 R^2 = 0 si S by^2 = 0, es decir, cuando S^2 y = S e^2. Es decir, el valor 0 del coeÖciente indica que el modelo ajustado (una recta en el caso m·s simple) no explica a y; esto es, los regresores no explican el com- portamiento observado de y. Diremos que el ajuste es nulo y que la representatividad del modelo ajustado es nula. SerÌa la peor situaciÛn posible. No ocurre en la realidad.

 R^2 = 1 si S^2 e = 0, es decir, cuando S by^2 = S^2 y. En este caso, la S y^2 se explica totalmente por X. La varianza residual es cero, por tanto, no se generan residuos. DirÌamos que el ajuste es perfecto y que la representatividad del modelo ajustado es total. Tampoco esto es real. Con datos reales R^2 oscilar· entre esos dos valores extremos.

Por tanto, el coeÖciente de determinaciÛn tendr· una doble interpretaciÛn:

 Como la parte de la S^2 y explicada por X.

 Como medida de la bondad del ajuste realizado.

No obstante, si multiplicamos R^2 por 100 la interpretaciÛn ser· a˙n m·s f·cil:

 Criterios de informaciÛn:

ñ Criterio de informaciÛn de Akaike (AIC) ñ Criterio de informaciÛn de Schwarz (SBIC)

3.3.1 CoeÖciente de determinaciÛn corregido (R

2

El coeÖciente R 2 se deÖne como:

R^2 = 1

SCR=(n k) SCT =(n 1)

Las caracterÌsticas que presenta son las siguientes:

 R^2 2 (1; 1]. Es decir, puede ser negativo incluso aunque haya tÈr- mino independiente en el modelo. No obstante, cuanto m·s prÛximo a 1, mejor modelo.

 R 2  R^2. Siempre es menor o igual que el R^2 :

 R 2 penaliza por la pÈrdida de grados de libertad al incluir variables in- dependientes adicionales. En efecto, al aÒadir regresores a la ecuaciÛn, este coeÖciente recoge los dos fenÛmenos contrarios que se producen. El resultado Önal sobre R^2 depende de cada caso concreto, de forma que este coeÖciente solo aumentar· si el descenso que se produce en la SCR al aÒadir una o m·s variables compensa la simult·nea reducciÛn que se producen en los grados de libertad del modelo. El criterio ser·, pues, el elegir el modelo con R 2 m·s alto.

3.3.2 Criterios de informaciÛn

Se basan en la estimaciÛn por MV del modelo y se deÖnen a partir del logaritmo de la funciÛn de verosimilitud (lnL). Son los siguientes:

Criterio de informaciÛn de Akaike (AIC):

Akaike = 2 lnL + 2k

Criterio de informaciÛn de Schwarz (SBIC):

SBIC = 2 lnL + k ln n

donde ln L es el valor obtenido al estimar el modelo por MV. Con ambos criterios, el mejor modelo es el que tiene Akaike y SBIC m·s bajo. Nor- malmente, se mueven en el mismo sentido, es decir, que con ambos criterios elegirÌamos el mismo modelo como el mejor modelo. No obstante, en caso de que lleg·ramos a modelos distintos aplicando estos criterios, suele recomen- darse SBIC porque Akaike tiende al sobreajuste, es decir, a elegir modelos con demasiadas variables. No obstante, a la hora de aplicar los tres criterios anteriores, hemos de tener presente dos cuestiones:

 La primera es que no se deben aplicar para compar modelos en los que unos cumplen todas las hipÛtesis del MRLG y otros no.

 La segunda es que en econometrÌa siempre se persigue el modelo m·s simple. Este criterio se denomina principio de parsimonia (ëless is better í): buscamos explicar el m·ximo de y con el menor n˙mero de regresores posibles y con la forma funcional m·s simple. Se busca la menor complejidad posible.

3.4 Test general de restricciones lineales (TGRL)

Dado el modelo poblacional (desconocido) y = X + u, la ˙nica informaciÛn de la que dispondremos de Èl es la estimaciÛn de a partir del estimador b (^) y una muestra de tamaÒo n. Con objeto de generalizar los resultados

obtenidos para la muestra, contenidos en b^ ; a toda la poblaciÛn, realizamos contrastes de hipÛtesis. Antes de seguir, recordemos los elementos de un contraste:

 HipÛtesis nula (H 0 ) y alternativa (H 1 ).

 EstadÌstico de contraste

 Criterio para rechazar H 0

La hipÛtesis nula recoge una aÖrmaciÛn acerca de la poblaciÛn de la que proceden los datos. Esta aÖrmaciÛn implica una restricciÛn en el campo de valores que pueden tomar todos o algunos de los par·metros (^) j del modelo. El contraste nos permite decidir si la muestra apoya la aÖrmaciÛn contenida

 En el segundo caso, el razonamiento serÌa igual, pero aplicado a x 3 i. Al igual que antes, este contraste se denomina contraste de signiÖcaciÛn individual.

 Si aceptamos H 0 en el tercer caso, estamos aceptando que, conjun- tamente consideradas, los regresores no explican a yi. Decimos que el modelo no explica a y. Por el contrario, si rechazamo H 0 , acepta- mos que el modelo es explicativo de y. Este contraste se denomina constraste de signiÖcaciÛn del modelo en su conjunto.

 Si aceptamos H 0 en el cuarto caso, estarÌamos aceptando que un sub- conjunto de coeÖcientes vale cero. Por tanto, dirÌamos que, conjun- tamente consideradas, x 2 i y x 3 i no explican a yi. Este contraste se denomina contraste de un subconjunto de coeÖcientes.

 Por ˙ltimo, en el quinto caso, aceptar la hipÛtesis nula signiÖcarÌa suponer que son ciertas las relaciones formuladas en ella.

3.4.2 EstadÌstico del TGRL

La expresiÛn del estadÌstico que nos va a permitir veriÖcar cualquier conjunto de relaciones lineales es la siguiente:

(SCRCR SCRSR)=q SCRSR=(n kSR)  Fq; nkSR (3.9)

siendo:

 SCRCR = Suma de cuadrados de residuos del modelo estimado im- poniendo las restricciones contenidas en la H 0 :

 SCRSR = Suma de cuadrados de residuos del modelo estimado sin imponer restricciones.

 q = n˙mero de restricciones contenidas en H 0.

 kSR = No^ de par·metros en el modelo sin restricciones

AplicaciÛn:  Si F o^ > F c^ , F o^2 RC! Rechazamos la hipÛtesis nula al nivel de signiÖcaciÛn del %, es decir, diremos que la evidencia muestral no nos permite aceptar como cierta la hipÛtesis nula. O, lo que es lo mismo, diremos que los datos no proceden de una poblaciÛn con las caracterÌsticas expresadas en H 0. De forma equivalente, diremos que las restricciones poblacionales no tienen respaldo muestral, no son compatibles con los datos. Recordad que F o^ representa al valor ob- servado o muestral del estadÌstico y F c^ representa al valor crÌtico. En particular, el crÌtico deja un 0,05 de probabilidad a su derecha, es decir: F c^ = F (^) q^0 ;; 05 nkSR  Si F o^ < F c^ , F o^2 = RC , F o^2 RA! Aceptamos la hipÛtesis nula al nivel de signiÖcaciÛn del %, es decir, la evidencia muestral nos lleva a aceptar como ciertas las restricciones establecidas en la hipÛtesis nula. Diremos que las restricciones son compatibles con los datos.

Para entender los conceptos anteriores imaginemos el siguiente modelo poblacional:

yi = 1 + 2 x 2 i + 3 x 3 i + 4 x 4 i + 5 x 5 i + ui (3.10) en el que queremos veriÖcar si los regresores x 2 i y x 4 i ináuyen, si- mult·neamente, en y. Para ello, en primer lugar, formulamos las hipÛtesis:

H 0 : 2 = 4 = 0 H 1 : H 0 no cierta

Ejercicio propuesto: Imagine que en el modelo de la ecuaciÛn (3.10) se desea veriÖcar si la ináuencia parcial de x 3 i sobre yi es igual a la que ejerce x 5 i sobre yi. Plantee las hipÛtesis nula y alternativa e indique cu·les serÌan los modelos con y sin restricciones.

3.4.3 Casos particulares

  1. Contraste de un coeÖciente (q=1)

En este caso, la hipÛtesis nula que contrastaremos siempre establece que el par·metro (^) j toma un determinado valor 0 La hipÛtesis alternativa, en cambio, puede tomar una de las tres formas siguientes:

  1. Contraste unilateral (con la cola de la derecha)

H 0 : (^) j = 0 j = 2; :::; k H 1 : (^) j > 0

  1. Contraste unilateral (con la cola de la izquierda)

H 0 : (^) j = 0 H 1 : (^) j < 0

  1. Contraste bilateral (con dos colas)

H 0 : (^) j = 0 H 1 : (^) j 6 = 0

siendo 0 un determinado valor (0, 1, -0.4,...). Para veriÖcar cualquiera de las hipÛtesis nulas anteriores, se puede demostrar que el estadÌstico F del TGRL se simpliÖca enormemente y queda de la siguiente forma:

b (^) j 0 Sbj

 tnk (3.15)

de manera que una vez obtenido el valor observado del estadÌstico (to), a partir de los datos muestrales se compara con el correspondiente valor crÌtico (tc) y se adopta una decisiÛn. Para un nivel de signiÖcaciÛn del 5% ( = 0; 05), los criterios que utilizamos para cada uno de los tres contrastes planteados, son los siguientes:

  1. Si to^ > t^0 n;^05 k =) Rechazamos H 0 al nivel de signiÖcaciÛn del 5%:
  2. Si to^ < t^0 n;^05 k =) Rechazamos H 0 al nivel de signiÖcaciÛn del 5%:
  3. Si jtoj > jt^0 n;^025 k j =) Rechazamos H 0 al nivel de signiÖcaciÛn del 5%:

Podemos homogeneizar los dos casos primeros y resumir el criterio en el siguiente^4 :

 Si jtoj > j  t^0 n;^05 kj =) Rechazamos H 0 al nivel de signiÖcaciÛn del 5% y aceptamos la alternativa.

A˙n m·s resumido, el criterio general es:

 Si jtoj > jtcj =) Rechazamos H 0 al nivel de signiÖcaciÛn del 5%: Es decir, la evidencia muestral disponible no apoyarÌa la aÖrmaciÛn contenida en H 0 :

Por otro lado, es muy frecuente veriÖcar la hipÛtesis nula que establece el cero como posible valor del par·metro (^) j frente a cualquiera de las tres alter- nativas siguientes. Por ejemplo, en el caso del contraste bilateral quedarÌa:

H 0 : (^) j = 0 H 1 : (^) j 6 = 0 (3.16)

de forma que, en este caso, el estadÌstico de prueba se simpliÖcarÌa y quedarÌa como: b (^) j Sbj

 tnk (3.17)

bajo H 0 cierta. Los valores crÌticos serÌan los mismos que los anteriormente indicados, luego los criterios para rechazar H 0 son los mismos (jtoj > jtcj implica rechazar la H 0 ). Observad las implicaciones derivadas de las posibles conclusiones tras aplicar el test anterior:

 Aceptar la hipÛtesis que establece H 0 : (^) j = 0 implicarÌa aceptar que el regresor xj no explica (verdaderamente) a la variable dependiente en la poblaciÛn. Es decir, xji no ináuye en yi. Diremos que xji no es explicativa. (^4) El valor t^0 n;^05 k es un valor crÌtico que deja un 5% de probabilidad a la derecha. Igual-

mente, el valor t^0 n;^025 k deja un 2,5% de probabilidad a su derecha.

Formalmente, imaginemos que tenemos datos desde t = 1 hasta t = T. No obstante, se sospecha que se ha producido un cambio estructural durante el periodo muestral, en concreto, en T 1 , una fecha intermedia. Eso signiÖca que podemos distinguir dos periodos temporales, antes y despuÈs de ese momento:

 t = 1; :::; T 1  t = T 1 + 1; :::; T

Con eso en mente, el planteamiento que hacemos es que tenemos los dos posibles modelos teÛricos siguientes:

  1. Un ˙nico modelo para toda la muestra:

yt = 1 + 2 x 2 t + ::: + (^) kxkt + ut; t = 1; :::; T (3.18)

  1. Un modelo formado por dos ecuaciones, una para cada subperiodo:

(I) : yt = (1) 1 + (1) 2 x 2 t + ::: + (1) k xkt + ut; t = 1; :::; T 1 (3.19)

(II): yt = (2) 1 + (2) 2 x 2 t +:::+ (2) k xkt +ut; t = T 1 +1; :::; T (3.20)

 El primer modelo (ecuaciÛn 3.18) representa estabilidad estructural: una ˙nica ecuaciÛn poblacional compatible con la muestra observada.

 El segundo modelo, formado por las ecuaciones (3.19) y (3.20) implica un cambio estructural: dos ecuaciones poblacionales, una para antes y otra para despuÈs del cambio estructural.

En este caso, las hipÛtesis a contrastar son las siguientes:

H 0 :

(1) 1 =^

(2) 1 ::: (1) k =^

(2) k

H 1 : H 0 no cierta

donde est· claro que q = no^ de restricciones. El estadÌstico para el contraste es un caso particular de la expresiÛn del T GRL, que quedarÌa de la siguiente forma:

(SCRCR SCRSR)=q SCRSR=(n kSR)

 Fq;nkSR (3.22)

donde:

 SCRCR : Es la SCR al estimar un ˙nico modelo para toda la muestra.

 SCRSR = SCRI + SCRII. Es decir, es la suma de dos SCR, las resultantes al estimar para cada una de las dos submuestras.

En este contraste, la H 0 equivale a ausencia de cambio estructural. El criterio para tomar una decisiÛn es, de nuevo, el mismo:

si F o^ > F (^) q^0 ;;n^05 kSR =) Rechazamos H 0 al 5%

es decir, rechazamos la igualdad de coeÖcientes para las dos submuestras, rechazamos la ausencia de cambio estructural. Por tanto, rechazamos la ecuaciÛn (3.18) para representar los datos y aceptamos las ecuaciones (3. y 3.20) como m·s adecuadas. Diremos, pues, que ha habido un cambio estructural en el periodo analizado.

3.5 Otros tests de restricciones

El T GRL permite veriÖcar cualquier restricciÛn lineal sobre el MGRL. No obstante, existen otros tests m·s generales que permiten veriÖcar cualquier tipo de restriciÛn, lineal o no y que tienen, adem·s, las siguientes caracterÌs- ticas:

 Se basan en la funciÛn de verosimilitud de la muestra, es decir, en el mÈtodo de estimaciÛn por MV.

 Son v·lidos asintÛticamente, es decir, en muestras grandes.

 Son equivalentes asintÛticamente, es decir, en muestras grandes.

Se trata de los tres tests siguientes: Test de Wald, Test de la razÛn de verosimilitudes y Test del multiplicador de Lagrange. Vemos solo el segundo.

Test de la RazÛn de Verosimilitudes (RV)

Se realiza comparando los valores de la funciÛn de verosimilitud del modelo con y sin las restricciones contenidas en la H 0. Su expresiÛn es la siguiente:

RV = 2(ln LCR ln LSR) a^ ^2 q

donde:

La predicciÛn puntual de yp es:

byp = c^0 b

y se denomina predictor minimocuadr·tico de c^0 : Es decir:

byp = b^1 + b^2 x 2 p + ::: + b^ kxkp = c^0 b

en realidad, como vemos, es el predictor de su valor medio.

(ii) PredicciÛn por intervalos de yp (intervalo de predicciÛn) A partir de la predicciÛn puntual anterior, vamos a construir un intervalo de predicciÛn para yp, equivalente al intervalo de conÖanza para :

P (bypt (^) n=^2 kSe

p (1 + c^0 (X^0 X)^1 c  yp  ybp+t (^) n=^2 kSe

p (1 + c^0 (X^0 X)^1 c) = 1

Es decir:

yp 2

h ybp t (^) n=^2 kSe

p (1 + c^0 (X^0 X)^1 c; ybp + t (^) n=^2 kSe

p (1 + c^0 (X^0 X)^1 c

i

con una probabilidad del (1 )%:

Fiabilidad de la predicciÛn:

 Se puede demostrar que la amplitud del intervalo de predicciÛn es mÌnima cuando xjp = xj ; j = 2; :::k

 Cuando xjp 2 Rxj la predicciÛn se denomina interpolaciÛn. La ampli- tud del intervalo ser· menor y la predicciÛn ser· m·s Öable.

 Cuando xjp 2 = Rxj la predicciÛn se denomina extrapolaciÛn. La ampli- tud del intervalo ser· mayor y la predicciÛn ser· menos Öable, tanto menos Öable cuanto m·s se aleje xjp del recorrido de la variable.

 Bajo la ausencia de cambio estructural en la poblaciÛn.

 Depende de :

 Depende del error de estimaciÛn, es decir, de Se.