Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


tema III econometria, Apuntes de Econometría

Asignatura: Econometria 1, Profesor: Desconocido Ni Idea, Carrera: Economía, Universidad: UMA

Tipo: Apuntes

2015/2016

Subido el 05/02/2016

angelamgg
angelamgg 🇪🇸

4

(56)

14 documentos

1 / 20

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
GRADO EN ECONOMIA
ECONOMETRÍA I
CURSO 2015-2016
TEMA 3:
MODELO DE REGRESIÓN LINEAL GENERAL:
VERIFICACION DE HIPOTESIS
Francisco Trujillo Aranda
Catedrático de Economía Aplicada (Econometría)
Departamento de Estadística y Econometría
Facultad de Ciencias Económicas y Empresariales
Universidad de Málaga
Octubre de 2015
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Vista previa parcial del texto

¡Descarga tema III econometria y más Apuntes en PDF de Econometría solo en Docsity!

GRADO EN ECONOMIA

ECONOMETRÍA I

CURSO 2015-

TEMA 3: MODELO DE REGRESIÓN LINEAL GENERAL: VERIFICACION DE HIPOTESIS

Francisco Trujillo Aranda

Catedrático de Economía Aplicada (Econometría)

Departamento de Estadística y Econometría

Facultad de Ciencias Económicas y Empresariales

Universidad de Málaga

Octubre de 2015

Introducción

En el tema 2 se han tratado las hipótesis del Modelo de Regresión Lineal General (MRLG), su estimación y la medición de la bondad del ajuste. En este tema se aborda el contraste de hipótesis relativas a los parámetros del modelo y la realización de predicciones, tanto puntuales como por intervalos, la valoración de la capacidad predictiva del modelo y se introduce la problemática relativa a la selección de modelos.

3.1.- Verificación de hipótesis sobre un coeficiente del modelo. Intervalos

de confianza

En general, sea z un vector ( n x1) de v.a., tal que z  N ( 0 , ^2 z I ) y A una matriz ( n x n )

de constantes, idempotente, con ( A ) = r  n , se verifica que:

 z^2

z' Az  2

r

En el caso del modelo de regresión lineal general tenemos que:

u  NIID ( 0 , ^2 u I ),

e’e = u’Mu , M ( n x n ) idempotente, ( M ) = n – k , y e' e ( n  k )· Se^2 , por tanto

u u u^2 e

(n k)S

2 2 2

u' Mue'e     n (^2)  k. [1]

Además, ya se ha establecido que:

β ˆ^  N ( , ^2 u ( X’X ) -1^ ), [2]

y se puede demostrar que e’e y β ˆ^ son independientes. De todo ello resulta que, para

cualquiera de los estimadores  ˆ^ i , ( i = 1, 2,…, k ), se verifica que

u ii

i i

 a

  ˆ^   N (0, 1), [3]

siendo aii el elemento i -ésimo de la matriz ( X’X ) -1^ y  (^) u aii el error estánda r de  ˆ i^. El

problema es que  u es desconocida y si se sustituye por su estimador, Se , el cociente [3]

deja de distribuirse como una Normal tipificada, con lo que deja de tener utilidad para

H 1 :  i  0

En este caso el estadístico del contraste se reduce a

S a S i t i e ii

i

ˆ

__*  . [4bis]

Si no se rechaza H 0 implica que la variable exógena Xi no es relevante en el modelo y se puede eliminar del mismo supuesto que no hay problemas que invaliden el contraste.

La distribución t (^) n-k del estadístico muestral, véase [4], también permite construir

intervalos de confianza al (1- ) por ciento para cualquier  i , ( i = 1, 2,...., k ), en la forma:

( β ˆ i^  tε 2 Se aii ). [5]

En [5] t  2 denota el valor de una t n-k que define una región crítica de tamaño  / 2 en cada cola

de la distribución. Los intervalos de confianza proporcionan una probabilidad "fiduciaria" o

derivada de que el valor de  i se encontrará contenido dentro de dicho intervalo. Esto es, si

pudiésemos construir L intervalos de confianza para  i , a partir de L muestras de tamaño n ,

el (1- ) por ciento de ellos contendrían el verdadero valor del parámetro poblacional  i. En

la práctica sólo se construye un intervalo, con la única muestra disponible, y se "confía" en

que contendrá el valor de  i con un grado de confianza del (1- ) por ciento.

3.2.- Test general de restricciones lineales. Algunos casos particulares

En determinadas circunstancias es preciso contrastar hipótesis que afectan, conjuntamente, a más de un parámetro poblacional. Si la hipótesis en cuestión se puede expresar como restricciones lineales que afectan a un subconjunto de parámetros poblacionales se podrá aplicar el Test General de Restricciones Lineales.

Dado el modelo de regresión lineal general,

yi =  1 +  2 x 2 i +  3 x 3 i +....+  k xki + ui ; i = 1, 2,....., n ,

se puede estar interesado en contrastar, por ejemplo, hipótesis del tipo:

1) H 0 :  2 +  3 = 1

2) H 0 :  2 =  4

3) H 0 :  2 =  4 ;  3 + 2·  4 +  5 = 1.

En el caso 1) se trata de una restricción lineal que afecta a dos parámetros estableciendo que su suma es la unidad, en el caso 2) se establece la igualdad de dos parámetros (una restricción lineal), en el caso 3) se establecen dos restricciones lineales que afectan a un subconjunto de cuatro parámetros.

En general las restricciones se expresan matricialmente como

R  = r , [6]

donde:  R es una matriz ( q x k ), siendo q el número de restricciones lineales que se

establecen en la H 0 , de manera que q  k y ( R ) = q. Sus elementos son las

constantes que multiplican a los parámetros en las q restricciones.

  es el vector ( k x1) de parámetros poblacionales.

r es el vector ( q x1) de constantes que constituyen los términos independientes de las q restricciones.

En los tres ejemplos antes citados la composición de R y r es la siguiente:

1) H 0 :  2 +  3 = 1,

R = [0 1 1 0....0];









k

3

2

1 β ; r = [1].

2) H 0 :  2 =  4   2 -  4 = 0,

R = [0 1 0 -1 0....0];













k

3

2

1 β ; r = [0].

3) H 0 :  2 =  4 ;  3 + 2·  4 +  5 = 1,

n k F q       e' e/

  • (^ ^ ˆ r )'[ R ( X'X )^1 R ']^1 ( ˆ r ) /Fq,n-k. [8]

Alternativamente, se demuestra que el estadístico de contraste también se puede escribir como:

SCRn k

SCR q n k F q   

e'e/

* (^ e'rer e'e)/^ ^  Fq,n-k , [9]

donde:

e' (^) r e r denota la Suma de Cuadrados de Errores del modelo restringido, e (^) ry ˆ*. e' e denota la Suma de Cuadrados de Errores del modelo no restringido, ey ˆ.

 SCR = SCRr - SCR , denota el incremento de la suma de cuadrados de los errores

(residuos) que se produce al estimar por MCr ( SCRr = e'r er ) respecto a la estimación por MCO ( SCR = e' e ). Si las estimaciones por ambos procedimientos coincidieran

 SCR = 0. Si no coinciden  SCR > 0, dado que al estimar con restricciones la suma

de cuadrados de los residuos aumenta respecto a la de la estimación no restringida. _F_* denota el valor del estadístico del TGRL.

Si F^  q,n-k denota el valor que, en una distribución F de Snedecor (Fisher) con q grados

de libertad en el numerador y n-k g. de l. en el denominador, define una región crítica de

tamaño  en la cola derecha, se tendrá que:

  • Si _F < F_^  q,n-k  No rechazar H 0 : R  = r , esto es, no rechazar que el conjunto de restricciones lineales incluidas en la hipótesis nula sean ciertas. - Si _F > F_^  q,n-k  Rechazar H 0 : R  = r , esto es, rechazar que el conjunto de restricciones lineales incluidas en la hipótesis nula sean ciertas.

Casos particulares del TGRL:  1.- Contraste del modelo en su conjunto Sea el modelo de regresión lineal general, con las hipótesis habituales y las siguientes q restricciones lineales expresadas en la H 0 ,

yi =  1 +  2 x 2 i +  3 x 3 i + ....+  k xki + ui ; i = 1, 2, ....., n ,

H 0 :  2 =  3 = .... =  k = 0.  q = k - 1.

El modelo restringido será, en este caso,

yi =  1 + ui ; i = 1, 2, ....., n ,

en el que E ( yi ) =  1 ; V ( yi ) = ^2 u.

Aplicando MCO al modelo restringido resulta β ˆ 1 *^^  y ,  yiβ ˆ 1 *eri ,  e (^) riyiβ ˆ 1 *yiy , por tanto,

n i i

n i i

n i i

n i i

n r (^) i r SCR ei y y y n y n y 1

2 1

2 1

2 2 1 1

e' (^) r er^2 ( )^1 ( ) y'y^1 ( ) [10]

Estimando por MCO el modelo no restringido resulta yi = β ˆ 1 + β ˆ 2 x 2 i + β ˆ 3 x 3 i + ....+ β ˆ k^ xki + ei , i = 1, 2, ....., n ,

 e' e   y'y  βˆ'X' y

n i i

SCR e 1

Aplicando el TGRL particularizado para este caso resulta

[ ] ( )

( ) {[^1 ( ] [ ]} (^1 )

1

2

n k

n y k n k F q

n i i  

y'y βˆ'X'y /

y'y ) y'y βˆ'X'y / e'e/

_ e'_*^ rer e'e /

[ ] ( )

[ 1 ( ) ] ( 1 )

1

2

n k

n y k

n i i  

y'y βˆ'X'y /

βˆ'X'y /F ( k- 1),( n-k ). [11]

Si F^  ( k- 1) , ( n-k ) denota el valor que, en una distribución F de Snedecor (Fisher) con k- 1

grados de libertad en el numerador y n-k g. de l. en el denominador, define una región crítica

de tamaño  en la cola derecha, se tendrá que:

yi =  1 +  2 x 2 i +  3 x 3 i + ....+  j xji + ui ; i = 1, 2, ....., n ,

Aplicando MCO al modelo no restringido se obtendría SCR y aplicándolos al modelo restringido se obtendría SCRr. El contraste se realiza aplicando el TGRL, dado en [9], particularizado para este caso:

SCR n k

SCR k j n k F k j

e'e/ /

e'r er e'e/  (^)  F ( k-j ) , ( n-k ). [14]

3.3.- Análisis de la variancia

En el contexto del modelo de regresión lineal general se denomina Análisis de la Variancia a la descomposición de las sumas de cuadrados total, en ajustada y residual, y al papel que desempeñan dichas sumas de cuadrados en el contraste de significación conjunta del modelo, tal como se ha tratado en el epígrafe anterior. En la tabla adjunta se sintetizan los elementos que integran el Análisis de la Variancia y la expresión del contraste de significación conjunta del modelo.

Tabla del Análisis de la Variancia en el Modelo de Regresión Lineal General Fuente de Variación Suma de Cuadrados^ g. de l.^ Contraste/Cociente x 2 i , x 3 i , .... , xki i = 1, 2,..., n

βˆ'^ X' y 

n i i^ n ( y ) 1

(^1 2) k - (^1) y

i =^  1 +^  2 x 2 i +^  3 x 3 i + ....+^  k xki +^ ui

H 0 :  2 =  3 = .... =  k = 0

F* [ ] ( )

[ 1 ( )] ( 1 )

1

2

n k

n y k

n i i  

y'y βˆ'X'y /

βˆ'X'y /F ( k- 1),( n-k ).

e 1 , e 2 , .... , en y' yβˆ'X'y n - k

y 1 , y 2 , .... , yn 

n i i^ n ( y) 1

y' y^12 n - 1

3.4.- Predicción por puntos y por intervalos

Sea el modelo de regresión lineal general, con las hipótesis habituales,

yi =  1 +  2 x 2 i +  3 x 3 i + ....+  k xki + ui ; i = 1, 2, ....., n ,

que se ha estimado por MCO, resultando

yi = β ˆ 1 + β ˆ 2 x 2 i + β ˆ 3 x 3 i + ....+ β ˆ k^ xki + ei , i = 1, 2, ....., n.

Si ahora se dispone de un conjunto de observaciones extramuestrales de las variables exógenas, denotadas x = {1 x 2, n +1 x 3, n +1 ...... xk , n +1 },

la predicción consiste en contestar a las siguientes preguntas: ¿a cuánto ascendería el valor de la endógena, yn +1 , o el valor esperado de la endógena, E ( yn +1), dados los valores de las

exógenas? Esto es, determinar con el modelo estimado el valor extramuestral de la endógena, o su valor esperado, que correspondería a los valores extramuestrales de las exógenas. Nótese que la respuesta del modelo a la pregunta es única:

y ˆ (^) n (^)  1 = β ˆ 1 + β ˆ 2 x 2, n+ 1 + β ˆ 3 x 3, n+ 1 + ....+ β ˆ k^ xk , n+ 1 , [15]

de manera que y ˆ (^) n  1 es el predictor de yn+ 1 y de E( yn+ 1 ) por MCO.

Alternativamente, el problema se puede formular de la siguiente manera, ¿pertenece el vector { yn +1 x 2, n +1 x 3, n +1 ......^ xk , n +1 } a la misma población que ha generado^ yi ,^ xji ;^ i^ = 1, 2,

....., n ; j = 1, 2, ....., k?

Si los valores de todas las exógenas { x 2, n +1 x 3, n +1 ...... xk , n +1 } están incluidos dentro

del recorrido de las variables en la muestra, se estaría realizando un ejercicio de interpolación , mientras que en caso contrario se estaría realizando una extrapolación , pues se estaría operando con datos "fuera de la muestra". En general se utiliza el término predicción para referirse a la extrapolación.

Predicción de E ( yn +1 ) Dado que,

yn+ 1 =  1 +  2 x 2, n+ 1 +  3 x 3, n+ 1 + ....+  k xk , n+ 1 + un+ 1 ,

c' X'X c

c' β 1

1 ( )

u

yn

c' X'X c

c' β 1

(^21) ( )

 ^ 

e

n u

e S

y (n k)

(n k)S

t n-k. [20]

Donde S (^) e c' ( X'X )^1 c es el estimador mínimocuadrático del error estándar de la

predicción.

A partir de [20] se construye el intervalo de predicción al (1- ) por ciento para

E ( yn+ 1 ) = c’  como:

[ y ˆ n  1  t  2 Se c' ( X'X )^1 c ]. [21]

El intervalo así construido tiene una probabilidad "fiducial" o derivada del (1- ) por ciento,

esto es, si se pudiesen construir L intervalos de predicción para E ( yn+ 1 ), a partir de L

conjuntos de valores extramuestrales de las exógenas, el (1- ) por ciento de esos intervalos

contendrían a E ( yn+ 1 ). En la práctica sólo se construye un intervalo de predicción y se

"confía" en que contendrá a E ( yn+ 1 ) con un grado de confianza del (1- ) por ciento.

Predicción de yn + Como ya se ha comentado, el predictor puntual de yn+ 1 también es ˆ y (^) n (^)  1  c' β ˆ. El

error de predicción, diferencia entre el valor observado y el predicho, es

en  1 =^ yn+ 1 –^ ˆ y^ n  1 =^ c'^ ^ +^ un+ 1 –^ c' β ˆ^ =^ un  1  c' ( β ˆ β ).^ [22]

Es fácil comprobar que

E ( en  1 ) 0  c' ( E ( β ˆ) β ) 0 , [23]

y se puede demostrar 2 que

V ( en  1 ) E [( un  1  c' ( β ˆ β ))( un  1  c' ( β ˆ β )) ' ]  (^) u^2 [ 1  c' ( X'X )^1 c ].^ [24]

El error de predicción, en (^)  1 , es una combinación lineal de v.a. normales, luego:

en (^)  1  N ( 0 ,  (^) u^2 [ 1  c' ( X'X )^1 c )]. [24]

De nuevo el cociente entre una N (0,1) y la raíz cuadrada de una  n^2  k corregida de la pérdida

de g. de l., independientes entre sí, se distribuye como una t (^) n-k. Por tanto,

(^2) Es preciso que u (^) n+ 1 y el vector de perturbaciones u sean ortogonales.

c' X'X c c' X'X^1 c

1 1 1

1 1 ( )

  

 

 (^) e

n n e

n S

y y S

e (^)  t n-k. [25]

El intervalo de predicción para yn+ 1 viene dado por

[ y ˆ n  1  t  2 Se 1  c' ( X'X )^1 c ]. [59]

Nótese que:

  • La diferencia entre los intervalos de predicción de E ( yn+ 1 ) y de yn+ 1 radica en que

en el segundo la incertidumbre se hace mayor al estar incluida un+ 1 en el valor a predecir,

por eso la varianza de la predicción es mayor en ese caso.

  • La amplitud del intervalo de predicción, que mide su precisión, depende del nivel de confianza elegido, t  (^) 2 , de la capacidad de ajuste del modelo, S (^) e , y de la discrepancia

entre los valores extramuestrales { x 2, n +1 x 3, n +1 ...... xk , n +1 } y los valores muestrales de las

exógenas que intervienen en la estimación del modelo^3.

Si las observaciones de las variables son temporales se pueden considerar diferentes tipos de predicciones/simulaciones , tal como se esquematiza en la figura adjunta^4.

(^3) Dados los otros dos factores, la amplitud del intervalo de predicción es mínima si los valores extramuestrales de las exógenas coincidiesen con sus medias muestrales. En ese caso se estaría realizando una interpolación y no una predicción propiamente dicha. 4 Figura tomada de Otero (1993): Econometría: Series temporales y predicción. Ed. AC. 1993

3.5.- Evaluación de la capacidad predictiva de los modelos

No cabe esperar que un modelo, por muy adecuado y completo que sea, simule o prediga sin error los valores futuros de la endógena. Ello se debe a que toda predicción/simulación está afectada por algunas de las denominadas “ fuentes de error ”, entre ellas:  En la simulación histórica las fuentes de error que pueden estar presentes son:  Factores aleatorios: E ( ui ) = 0 pero, en general, ui  0.  Error de muestreo: βˆ^  β.  Errores de especificación del modelo.  En los modelos dinámicos los errores son acumulativos. En los modelos multiecuacionales una ecuación puede provocar errores de predicción/simulación, aunque las restantes estén bien especificadas y el ajuste sea adecuado.  En la predicción ex post , a los errores ya señalados se añade la posibilidad de que se produzca un cambio estructural que afecte a la relación entre endógena y exógenas durante el período de predicción.  En la predicción ex ante , a los errores ya señalados se añaden los derivados de:  Operar con valores predichos de las variables exógenas, que a su vez implican errores.  En el caso de los modelos dinámicos operar con valores predichos de la endógena retardada.

Finalmente, conviene señalar que a medida que el horizonte de predicción es más lejano, se tiene mayor incertidumbre y mayor probabilidad de error, lo que se traduce en intervalos de predicción cada vez más amplios. Como se deduce de la relación de las fuentes de error de la predicción, un modelo con alta capacidad de ajuste no implica necesariamente una alta capacidad predictiva.

Ajustado un modelo de regresión lineal con datos del período t = 1, 2,…., T ,

denotando Y^ ˆ T^  l la predicción de YT (^)  l , l = 1, 2,…, h , en el período de predicción ex post ,

las medidas de valoración de la capacidad predictiva más usuales son:

Raíz del Error Cuadrático Medio (RECM):

RECM =

2 1

T h ( ˆ t t ) t T

Y Y

h

  

que se expresa en la misma unidad de medida de la variable.

Error Absoluto Medio (EAM):

EAM = 1

T h ˆ t t t T

Y Y

h

  

que se expresa en la misma unidad de medida de la variable.

Error Absoluto Medio Porcentual (EAMP):

EAMP = 1

T h t t t T (^) t

Y Y (^) h Y

  

 ^ 

que es una medida adimensional, se expresa en porcentajes.

Coeficiente de Desigualdad de Theil:

U =

2 1 2 2 1 1

T h t T t^ t T h T h t T t^ t T t

Y Y h

Y h Y h

        

que es una medida adimensional. U = 0 indica que las predicciones son perfectas, coinciden con los valores observados, U =1 indica que el modelo predice muy mal (igual que un modelo “naif” en el que las predicciones se obtienen con la siguiente regla: Y ˆ tYt (^)  1 ,  t ).

Por tanto, cuanto más próximo a cero esté U , mayor capacidad predictiva tiene el modelo, cuanto más próxima a 1 más se asemeja a la capacidad predictiva de un modelo “naif”, si fuese mayor que 1 implicaría menos capacidad predictiva que el modelo “naif”.

En el numerador de U figura la RECM de la predicción, por lo que se puede descomponer aditivamente en la suma de tres componentes que cuantifican el sesgo, la varianza y covariancia de las predicciones:

la forma funcional de la relación entre las variables. Este proceso se repetía hasta que se llegaba a una especificación que, una vez estimada, superaba los contrastes de “mala especificación” (los que indican que algo falla en la especificación, pero no proporcionan una guía para modificarla convenientemente). Esta forma de proceder tenía graves limitaciones, con un riesgo elevado de terminar el proceso dando por buena una especificación incorrecta del modelo.

A partir de los años 80 del siglo pasado se ha desarrollado una nueva estrategia de especificación de modelos, denominada de lo General a lo Particular, que implica la elección entre modelos alternativos. Esta estrategia se puede resumir en los siguientes pasos: 1.- Dada la información que aportan la Teoría y los trabajos de modelización previos, y teniendo en cuenta los datos disponibles sobre las variables que integran el modelo, se especifica inicialmente un modelo general (incluye todas las variables potencialmente relevantes y sus retardos). 2.- Estimado el modelo inicial, se somete a los contrastes de mala especificación, con objeto de detectar si se incumplen algunas de las hipótesis relativas a la perturbación, las variables, los parámetros o la forma funcional. 3.- El modelo inicial se simplifica paulatinamente eliminando las variables y los retardos que no son relevantes, siempre que ello no implique que no se superen los contrastes de mala especificación. En ocasiones se transforma el modelo, por ejemplo, expresando las variables en incrementos o tomando logaritmos neperianos. El objetivo es llegar a un modelo lo más simple posible que, siendo congruente con los datos y con la Teoría, supere los contrastes de especificación. 4.- El proceso de simplificación implica elegir entre modelos anidados (dos modelos están anidados cuando uno es un caso particular del otro), para ello se utilizan los siguientes instrumentos:

  • Los contrastes t y F de significación individual y conjunta de los parámetros del modelo.
  • La capacidad de ajuste de los modelos teniendo en cuenta el número de variables exógenas y los grados de libertad: R^2 y criterios de Akaike, Schwarz y Hannan-Quinn.
  • La capacidad predictiva de los modelos: RECM, EAM, EAMP y Theil.

5.- Habiendo seleccionado finalmente el modelo simple , éste se debe comparar con otros modelos rivales no anidados para determinar si los abarca (los supera en el sentido de que explica todo lo que explican los modelos rivales y algo más), para ello se utilizan contrastes de abarcamiento, como el de Mizon y Richard, y el contraste J de Davidson y Mackinnon.

En el tema 2 se han expuesto los criterios para valorar la capacidad de ajuste de un modelo y en este tema los contrastes de significación individual ( t ) y conjunta ( F ) de los parámetros del modelo así como los indicadores de la capacidad predictiva. En el tema 5 se expondrán los contrastes para detectar multicolinealidad, error de especificación, autocorrelación de las perturbaciones, heteroscedasticidad, normalidad de las perturbaciones, cambio estructural y elección entre modelos rivales. Como ya se ha comentado, todos estos contrates y criterios se aplican en la selección de modelos.