Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


regresión lineal multiple, Apuntes de Estadística

Asignatura: Estadistica, Profesor: , Carrera: Economia+Estadística, Universidad: UB

Tipo: Apuntes

2016/2017

Subido el 28/12/2017

rayarla
rayarla 🇪🇸

1 documento

1 / 38

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
3 Regresión lineal múltiple: estimación y propiedades
Ezequiel Uriel
Universidad de Valencia
Versión 09-2013
3.1 El modelo de regresión lineal múltiple 1
3.1.1 Modelo de regresión poblacional y función de regresión poblacional 2
3.1.2 Función de regresión muestral 4
3.2 Obtención de estimaciones de mínimos cuadrados, interpretación de los coeficientes, y otras
características 4
3.2.1 Obtención de estimadores MCO 4
3.2.2 Interpretación de los coeficientes 6
3.2.3 Implicaciones algebraicas de la estimación 10
3.3 Supuestos y propiedades estadísticas de los estimadores de MCO 11
3.3.1 Supuestos estadísticos del MLC en la regresión lineal múltiple 12
3.3.2 Propiedades estadísticas del estimador de MCO 13
3.4 Más sobre formas funcionales 17
3.4.1 Utilización de logaritmos en los modelos econométricos 18
3.4.2 Funciones polinomiales 18
3.5 Bondad del ajuste y selección de regresores 20
3.5.1 Coeficiente de determinación 20
3.5.2 R cuadrado ajustado 21
3.5.3 Criterio de información de Akaike (AIC) y criterio de Schwarz (SC) 22
Ejercicios 25
Apéndices 33
Apéndice 3.1 Demostración del Teorema de Gauss-Markov 33
Apéndice 3.2 Demostración: 2
es un estimador insesgado de la varianza de la perturbación 34
Apéndice 3.3 La consistencia del estimador de MCO 35
3.1 El modelo de regresión lineal múltiple
El modelo de regresión lineal simple no es adecuado para modelizar muchos
fenómenos económicos, ya que para explicar una variable económica se requiere en
general tener en cuenta más de un factor. Veamos algunos ejemplos.
En la función keynesiana clásica el consumo se hace depender de la renta
disponible como única variable relevante:
12
cons renta u
 (3-1)
Sin embargo, hay otros factores que pueden considerarse relevantes en el
comportamiento del consumidor. Uno de esos factores podrían ser la riqueza. Con la
inclusión de este factor se tendrá un modelo con dos variables explicativas:
12 3
cons inc riqueza u

 (3-2)
En el análisis de la producción se utilizan a menudo las funciones potenciales,
que con una especificación adecuada pueden ser transformadas (tomando logaritmos
naturales, en este caso) en modelos lineales en los parámetros. Utilizando un solo input
(trabajo), un modelo para explicar el output se especifica del siguiente modo:
12
ln( ) ln( )output trabajo u
 (3-3)
El modelo anterior es claramente insuficiente para el análisis económico. Sería
mejor utilizar el conocido modelo de Cobb-Douglas, en el que se consideran dos inputs
primarios (trabajo y capital):
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26

Vista previa parcial del texto

¡Descarga regresión lineal multiple y más Apuntes en PDF de Estadística solo en Docsity!

3 Regresión lineal múltiple: estimación y propiedades

Ezequiel Uriel Universidad de Valencia Versión 09-

3.1 El modelo de regresión lineal múltiple 1 3.1.1 Modelo de regresión poblacional y función de regresión poblacional 2 3.1.2 Función de regresión muestral 4 3.2 Obtención de estimaciones de mínimos cuadrados, interpretación de los coeficientes, y otras características 4 3.2.1 Obtención de estimadores MCO 4 3.2.2 Interpretación de los coeficientes 6 3.2.3 Implicaciones algebraicas de la estimación 10 3.3 Supuestos y propiedades estadísticas de los estimadores de MCO 11 3.3.1 Supuestos estadísticos del MLC en la regresión lineal múltiple 12 3.3.2 Propiedades estadísticas del estimador de MCO 13 3.4 Más sobre formas funcionales 17 3.4.1 Utilización de logaritmos en los modelos econométricos 18 3.4.2 Funciones polinomiales 18 3.5 Bondad del ajuste y selección de regresores 20 3.5.1 Coeficiente de determinación 20 3.5.2 R cuadrado ajustado 21 3.5.3 Criterio de información de Akaike ( AIC ) y criterio de Schwarz ( SC ) 22 Ejercicios 25 Apéndices 33 Apéndice 3.1 Demostración del Teorema de Gauss-Markov 33 Apéndice 3.2 Demostración: ^2

es un estimador insesgado de la varianza de la perturbación 34 Apéndice 3.3 La consistencia del estimador de MCO 35

3.1 El modelo de regresión lineal múltiple

El modelo de regresión lineal simple no es adecuado para modelizar muchos fenómenos económicos, ya que para explicar una variable económica se requiere en general tener en cuenta más de un factor. Veamos algunos ejemplos.

En la función keynesiana clásica el consumo se hace depender de la renta disponible como única variable relevante:

cons   1   2 renta  u (3-1)

Sin embargo, hay otros factores que pueden considerarse relevantes en el comportamiento del consumidor. Uno de esos factores podrían ser la riqueza. Con la inclusión de este factor se tendrá un modelo con dos variables explicativas:

cons   1   2 inc   3 riqueza  u (3-2)

En el análisis de la producción se utilizan a menudo las funciones potenciales, que con una especificación adecuada pueden ser transformadas (tomando logaritmos naturales, en este caso) en modelos lineales en los parámetros. Utilizando un solo input ( trabajo ), un modelo para explicar el output se especifica del siguiente modo:

ln( output )   1   2 ln( trabajo )  u (3-3)

El modelo anterior es claramente insuficiente para el análisis económico. Sería mejor utilizar el conocido modelo de Cobb-Douglas, en el que se consideran dos inputs primarios ( trabajo y capita l):

ln( output )   1   2 ln( trabajo )   3 ln( capital ) u (3-4)

De acuerdo con la teoría microeconómica, los costes totales ( costot ) se expresan como una función de la cantidad producida ( cantprod ). Una primera aproximación para explicar el coste total podría ser un modelo con un único regresor:

costot   1   2 cantprod  u (3-5)

Sin embargo, es muy restrictivo considerar que, como sería el caso del modelo anterior, el coste marginal permanece constante, independientemente de la cantidad producida. En la teoría económica se propone, una función cúbica, lo que conduce al siguiente modelo econométrico:

2 3

costot   1   2 cantprod   3 cantprod   4 cantprod  u (3-6)

En este caso, a diferencia de los anteriores, en el modelo sólo hay una variable explicativa, pero que da lugar a tres regresores.

Los salarios se determinan por diferentes factores. Un modelo relativamente simple para explicar los salarios en función de los años de educación y de los años de experiencia es el siguiente:

salarios   1   2 educ   3 exper  u (3-7)

De todos modos, otros factores importantes para explicar los salarios pueden ser variables cuantitativas tales como el tiempo de formación y la edad, o variables cualitativas, como el sexo, la rama de actividad, etc.

Por último, para explicar los gastos en consumo de pescado los factores relevantes pueden ser su precio, el precio de un producto sustitutivo como la carne, y la renta disponible. Es decir:

gastopescado   1   2 preciopescado   3 preciocarne   4 renta  u (3-8)

Por lo tanto, los ejemplos anteriores han puesto de relieve la necesidad de utilizar modelos de regresión múltiple. El tratamiento econométrico del modelo de regresión lineal simple se hizo utilizando álgebra ordinaria. El tratamiento de un modelo econométrico de dos variables explicativas mediante el uso de álgebra ordinaria es tedioso y engorroso; por otra parte, un modelo con tres variables explicativas es prácticamente intratable con esta herramienta. Por esta razón, el modelo de regresión se va a presentar utilizando álgebra matricial.

3.1.1 Modelo de regresión poblacional y función de regresión poblacional

En el modelo de regresión lineal múltiple, el regresando -que puede ser la variable endógena o una transformación de las variables endógenas-, es una función lineal de k regresores correspondientes a las variables explicativas -o a transformaciones de las mismas- y una perturbación aleatoria o error. El modelo también incluye un término independiente. Si designamos por y al regresando, por x 2 , x 3 ,..., x (^) k a los regresores y por u al error o perturbación aleatoria, el modelo poblacional de regresión lineal múltiple vendrá dado por la siguiente expresión:

y   1   2 x 2   3 x 3    k xk + u (3-9)

Los parámetros  1 ,  2 ,  3 , ,  k son fijos y desconocidos.

donde, de acuerdo con la notación utilizada, y es un vector n  1 , X es una matriz nk ,  es un vector k  1 y u es un vector n  1.

3.1.2 Función de regresión muestral

La idea básica de la regresión consiste en estimar los parámetros poblacionales

 1 ,  2 ,  3 ,  ,  k , a partir de una muestra dada.

La función de regresión muestral ( FRM ) es la contrapartida de la función de regresión poblacional ( FRP ). Dado que FRM se obtiene de una muestra dada, una nueva muestra generará diferentes estimaciones.

La FRM , que es una estimación de la FRP , que viene dada por

y ˆ i  ˆ 1  ˆ 2 x 2 i  ˆ 3 x 3 i    ˆ k xki i 1, 2, , n (3-14)

nos permite calcular el valor ajustado ( ˆ yi ) correspondiente a cada yi. En la FRM,

1 2 3

     k son los estimadores de los parámetros  1 ,  2 ,  3 , ,  k.

Se denomina residuo a la diferencia entre e. Esto es

1 2 2 3 3

ˆ ˆ ˆ^ ˆ^ ˆ^ ˆ

ui  yi  yi  yi     x i   x i    k xki (3-15)

En otras palabras, el residuo u ˆ i es la diferencia entre un valor muestral y su

correspondiente valor ajustado.

El sistema de ecuaciones (3-14) puede expresarse de una forma más compacta utilizando notación matricial. Así, vamos a denotar

1 2

ˆ n

y y

y

 ^ 

y

1 2 3

k

 ^ 

1 2

ˆ n

u u

u

 ^ 

u

El modelo ajustado correspondiente, para todas las observaciones de la muestra, será el siguiente:

y = X ˆ ˆ (^) (3-16)

El vector de los residuos es igual a la diferencia entre el vector de valores observados y el vector de valores ajustados, es decir,

u ˆ  y - y = y - X ˆ ˆ (^) (3-17)

3.2 Obtención de estimaciones de mínimos cuadrados, interpretación de los

coeficientes, y otras características

3.2.1 Obtención de estimadores MCO

Denominando S a la suma de los cuadrados de los residuos,

y i y ˆ i

2 2 1 2 2 3 3 1 1

ˆ ˆ^ ˆ^ ˆ^ ˆ

n n i i i i k ki i i

S u y   x  x  x

 

  ^      

   ^  (3-18)

para aplicar el criterio de mínimos cuadrados en el modelo de regresión lineal múltiple,

calculamos la primera derivada de S con respecto a cada ˆ j en la expresión (3-18):

1 2 2 3 3 1 1

1 2 2 3 3 2 2 1

1 2 2 3 3 3 3 1

2 ˆ^ ˆ^ ˆ^ ˆ 1

2 ˆ^ ˆ^ ˆ^ ˆ

2 ˆ^ ˆ^ ˆ^ ˆ

n i i i k ki i n i i i k ki i i n i i i k ki i i

S

y x x x

S

y x x x x

S

y x x x x

1 2 2 3 3 ^ 

1

2 ˆ^ ˆ^ ˆ^ ˆ

n i i i k ki ki k i

S

y   x  x  x x

Los estimadores de mínimos cuadráticos se obtienen al igualar a 0 las derivadas anteriores:

1 2 2 3 3 1

1 2 2 3 3 2 1

1 2 2 3 3 3 1

1 2 2

n i i i k ki i n i i i k ki i i n i i i k ki i i

i i

y x x x

y x x x x

y x x x x

y x

3 3 1

n i k ki ki i

 x  x x

o, con notación matricial,

X X  ˆ  X y  (3-21)

Al sistema anterior se le denomina genéricamente sistema de ecuaciones normales del hiperplano.

En notación matricial ampliada, el sistema de ecuaciones normales es el siguiente:

2 1 1 1 1 2 2 2 2 2 2 1 1 1 1

2 2 1 1 1 1

n n n i ki i i i i n n n n i i i ki i i i i i i

n n n (^) k n ki ki i ki ki i i i i i

n x x y

x x x x x y

x x x x x y

  

   

   

  ^   

  ^   

  ^   

  ^   

  ^   

 y ˆ^  ˆ j  x j (3-27)

Si xk se incrementa en una unidad, tenemos

ˆ ˆ for 1

 y   j  x j  (3-28)

En consecuencia, el coeficiente ˆ j mide el cambio en y cuando xj aumenta en 1

unidad, manteniendo fijos los regresores (^) x 2 (^) , x 3 (^) ,  , x (^) j  1 , x (^) j  1 ,  , xk. Es muy importante

en la interpretación de los coeficientes tener en cuenta esta cláusula ceteris paribus.

Esta interpretación no es válida, por supuesto, para el término independiente.

EJEMPLO 3.1 Cuantificando la influencia de la edad y del salario sobre el absentismo en la empresa Buenosaires Buenosaires es una empresa dedicada a la fabricación de ventiladores, habiendo tenido resultados relativamente aceptables en los últimos años. Los directivos consideran, sin embargo, que los resultados habrían sido mejores si el absentismo en la empresa no fuera tan alto. Para este propósito, el modelo que se propone es el siguiente: absent   1   2 age   3 tenure   4 wageu

donde la ausencia, absent, se mide en días por año, el salario, wage, en miles de euros al año; los años trabajados en la empresa, tenure, y la edad, age , se expresan en años. Utilizando una muestra de tamaño 48 (fichero absent ), se ha estimado la siguiente ecuación:  absent = 14.413(1.603) - 0.096(0.048) age - 0.078(0.067 ) tenure - 0.036(0.007 ) wage

R^2 =0.694^ n^ = La interpretación de ˆ 2 es la siguiente: manteniendo fijo el salario y los años trabajados en la empresa, si la edad se incrementa en un año, el absentismo laboral se reducirá en 0.096 días al año. La interpretación de ˆ 3 es como sigue: manteniendo fijo el salario y la edad, si los años trabajados en la empresa se incrementan en un año, el absentismo laboral se reducirá en 0.078 días al año. Finalmente, la interpretación de ˆ 4 es la siguiente: manteniendo fija la edad y los años trabajados en la empresa, si el salario se incrementa en 1000 euros al año, el absentismo laboral se reducirá en 0.036 días por año.

EJEMPLO 3.2 Demanda de servicios hoteleros

Para explicar la demanda de servicios hoteleros se formuló el siguiente modelo: ln ( hostel (^) )  b 1 (^) + b 2 (^) ln( inc ) + b 3 hhsize + u (3-29)

donde hostel es el gasto en servicios hoteleros e inc es la renta disponible; ambas variables están expresadas en euros por mes. La variable hhize es el número de miembros del hogar.

La ecuación estimada con una muestra de 40 hogares, utilizando el fichero hostel , es la siguiente: ln(^  hosteli )  - 27.36 + 4.442 ln( inci ) - 0.523 hhsizei

R^2 =0.738 n = A la vista de estos resultados, podemos decir que los servicios hoteleros son un bien de lujo, ya que la elasticidad de la demanda/renta para este bien es muy alta (4.44). Esto significa que si la renta se incrementa en un 1%, el gasto en servicios hoteleros se incrementará un 4.44%, manteniendo fijo el tamaño de la familia. Por otro lado, si el tamaño del hogar aumenta en un miembro, entonces el gasto en servicios hoteleros disminuirá en un 52%.

EJEMPLO 3.3 Una regresión hedónica para coches El modelo hedónico de medición de precios se basa en el supuesto de que el valor de un bien depende del valor de sus diferentes características. Así, el precio de un coche dependerá del valor que el comprador asigne a sus atributos: cualitativos (por ejemplo, cambio automático, potencia, diesel, dirección asistida, aire acondicionado), y cuantitativos (por ejemplo, consumo de combustible, peso, etc.).

La base de datos para este ejercicio es el fichero hedcarsp (precios hedónicos de los coches en España) y cubre los años 2004 y 2005. Un primer modelo basado sólo en atributos cuantitativos es el siguiente: ln( price )   1   2 volume   3 fueleffu

donde volume es longitud×anchura×altura en m^3 y fueleff es la ratio litros por 100 km/caballos de vapor expresada en porcentaje. La ecuación estimada con una muestra de 214 observaciones es la siguiente:  ln( price ) (^) i 14.97(0.151) + 0.0956(0.009) volumei - 0.1608(0.010) fueleffi

R^2 =0.765 n = La interpretación de ˆ 2 y ˆ 3 es la siguiente. Manteniendo fueleff fijo, si aumenta volume en 1 m^3 , el precio de los coches se incrementarán en un 9.56%. Manteniendo fijo volume , si la ratio litros por 100 km/caballos de vapor aumenta en un punto porcentual, el precio de los automóviles se reducirá en un 16,08%.

EJEMPLO 3.4. Ventas y publicidad: el caso de Lydia E. Pinkham

En este caso se va a estimar un modelo con datos de series temporales con objeto de medir el efecto que puedan tener los gastos de publicidad, realizados a lo largo de distintos períodos de tiempo, sobre las ventas del momento actual. Designando por Vt y Pt a las ventas y a los gastos en publicidad, realizados en el momento t , el modelo planteado inicialmente para explicar las ventas, en función de los gastos en publicidad presentes y pasados, es el siguiente:

Vt     1 Pt   2 Pt  1   3 Pt  2    ut (3-30) En la expresión anterior los puntos suspensivos indican que los gastos en publicidad realizados en el pasado siguen ejerciendo influencia de forma indefinida, aunque, se supone, que con un impacto decreciente sobre las ventas del momento actual. Naturalmente, el modelo anterior no es operativo, ya que tiene un número indefinido de coeficientes. Para solucionar el problema se pueden adoptar, en principio, dos enfoques. El primer enfoque consiste en fijar a priori el número máximo de períodos durante los cuales la publicidad mantiene sus efectos sobre las ventas. En el segundo enfoque, se postula que los coeficientes se comportan de acuerdo con alguna ley que permite determinar su valor en función de un número reducido de parámetros, posibilitando además una ulterior simplificación.

En el primer enfoque el problema que surge es que en general no existen criterios precisos e información suficiente que permitan la fijación a priori del número máximo de períodos. Por esta razón, vamos a ver un caso particular del segundo enfoque que tiene gran interés por la plausibilidad del supuesto y su fácil aplicación. El caso que vamos a considerar consiste en establecer que los coeficientes  i disminuyen de forma geométrica a medida que nos alejamos hacia atrás en el tiempo según el esquema:

1 0 1 ii (^)     i   (3-31) A la anterior transformación se le denomina transformación de Koyck, ya que fue este autor el que la introdujo en 1954 para el estudio de la inversión.

Sustituyendo (3-31) en (3-30), se obtiene que 2 Vt     1 Pt    1 Pt  1    1 Pt  2    ut (3-32) El modelo anterior sigue teniendo infinitos términos, pero sólo tres parámetros y además se puede simplificar. En efecto, si expresamos la ecuación (3-32) para el período t -1 y multiplicamos ambos miembros por  se obtiene que 2 3  V (^) t (^)  1      1 Pt  1    1 Pt  2    1 Pt  3    ut  1 (3-33)

Restando miembro a miembro (3-33) de (3-32), y teniendo en cuenta que los factores  i^ tienden a 0 al tender i a infinito, se llega al siguiente resultado:

Vt   (1   )  1 Pt   Vt (^)  1  ut   ut  1 (3-34) El modelo ha quedado simplificado de forma que solamente tiene tres regresores, aunque, a cambio, se ha pasado a un término de perturbación compuesto. Antes de ver la aplicación de este modelo

alimenticios y los medicamentos) le acusó de publicidad engañosa por lo que tuvo que cambiar sus mensajes publicitarios. También la Internal Revenue (oficina de impuestos) le amenazó con aplicarle una tasa sobre bebidas alcohólicas, ya que el contenido alcohólico del producto era del 18%. Por todos estos motivos se produjeron cambios en la presentación y contenido durante el período 1915-1925. En 1925 la Food and Drug Administration prohibió que el producto se anunciara como medicina, pasando a distribuirse como bebida tónica. En el período 1926-1940 se incrementaron considerablemente los gastos en publicidad para después decaer.

La estimación del modelo (3-34) con datos desde 1907 a 1960, recogidos en el fichero pinkham , es la siguiente:

 (^1) ventast = 138.7(95.7) + 0.3288(0.156) gpubt +0.7593(0.0915) ventast (^) -

R^2 =0.877 n = La suma de los efectos acumulados de los gastos en publicidad sobre las ventas se obtiene aplicando la fórmula (3-37):

ˆ 1 0.3288 (^) 1. 1 ˆ^1 0.

 

    De acuerdo con dicho resultado, por cada unidad monetaria adicional gastada en publicidad se obtiene un efecto acumulado total en las ventas de 1.366 unidades monetarias. Dado que es importante no solo determinar el efecto total, sino también como se distribuyen estos efectos a lo largo del tiempo, vamos a contestar ahora a la siguiente pregunta: ¿Cuantos períodos de tiempo se requieren para alcanzar la mitad de los efectos totales? Aplicando la fórmula (3-39) para el caso de p =0,5, se obtiene el siguiente resultado:

ˆ(0.5) ln(1^ 0.5) 2. ln(0.7593)

h   

3.2.3 Implicaciones algebraicas de la estimación

Las implicaciones algebraicas de la estimación se derivan exclusivamente de la aplicación del método de MCO al modelo de regresión lineal múltiple:

  1. La suma de los residuos de MCO es igual a 0 :

1

n i i

u

De la definición de residuos

u ˆ^ i  yi  y ˆ^ i  yi  ˆ 1  ˆ 2 x 2 i    ˆ k xki i 1, 2, , n (3-41)

Si sumamos para las n observaciones, obtenemos:

1 2 2 1 1 1 1

ˆ ˆ^ ˆ^ ˆ

n n n n i i i k ki i i i i

u y n   x  x

   

 ^  ^ ^  ^ ^   (3-42)

Por otro lado, la primera ecuación del sistema de ecuaciones normales (3-20) es igual a

1 2 2 1 1 1

n n n i i k ki i i i

y n   x  x

  

 ^ ^  ^ ^ ^   (3-43)

Si comparamos (3-42) y (3-43), llegamos a la conclusión de que (3-40) se cumple.

Tenga en cuenta que, si (3-40) se cumple, esto implica que

1 1

n n i i i

y y  

y, dividiendo (3-40) y (3-44) por n, obtenemos

u ˆ^  0 yy ˆ (3-45)

  1. El hiperplano MCO pasa siempre a través del punto de medias muestrales

 y x ,^2^ ,^ ,^ xk .

En efecto, dividiendo la ecuación (3-43) por n se tiene que:

1 2 2

y     x    k xk (3-46)

3. El producto cruzado muestral entre cada uno de los regresores y los residuos MCO es cero.

Es decir,

1

n ji i i

x u j k

 =^  ^ (3-47)

Utilizando las últimas k ecuaciones normales (3-20) y teniendo en cuenta que,

por definición u ˆ í  yi  ˆ 1  ˆ 2 x 2 i  ˆ 3 x 3 i   ˆ k xki , podemos ver que

2 1

3 1

1

n i i i n i i i

n i ki i

u x

u x

u x

  1. El producto cruzado muestral entre los valores ajustados ( y ˆ ) y los residuos

MCO es cero.

Es decir,

1

n i í i

y u

Teniendo en cuenta (3-40) y (3-48), obtenemos

1 2 2 1 2 2 1 1 1 1 1 1 2

ˆ ˆ ( ˆ^ ˆ^ ˆ^ )ˆ ˆ^ ˆ ˆ^ ˆ ˆ ˆ

n n n n n i í i k ki í í i í k ki í i i i i i k

y u   x  x u  u  x u  x u

    

  ^    

3.3 Supuestos y propiedades estadísticas de los estimadores de MCO

Antes de estudiar las propiedades estadísticas de los estimadores de MCO en el modelo de regresión lineal múltiple , necesitamos formular un conjunto de supuestos estadísticos. Específicamente, al conjunto de supuestos que vamos a formular se les denomina supuestos del modelo lineal clásico ( MLC ). Es importante destacar que los

E u ( (^) i )  0, i  1, 2,3, , n o E ( ) u0 (3-54)

7) Las perturbaciones tienen una varianza constante (supuesto de homoscedasticidad) :

( ) 2 1, 2,

var ui   i   n (3-55)

8) Las perturbaciones con diferentes subíndices no están correlacionadas entre sí (supuesto de no autocorrelación) :

E u u ( (^) i j )  0 ij (3-56)

La formulación de los supuestos de homoscedasticidad y no autocorrelación permite especificar la matriz de covarianzas del vector de perturbaciones:

2 (^1 1 1 2 ) 2 (^2 2 1 2 ) 1 2 2 1 2 2 1 1 2 1 2 2 1 2 2

1

n n n

n (^) n n n

n n

n

E E E E E

u (^) u u u u u u (^) u u u u u E u u u E

u (^) u u u u u

E u E u u E u u E u u E u E u u

E u u E

 (^) uu uu   (^)   (^) u0 u0   (^)   (^) u u         (^)       (^)       ^ ^  ^  ^   (^)       (^)       (^)     

2 2

2 2 2

u un ) E u ( (^) n ) 0 0

Para obtener la última igualdad se ha tenido en cuenta que la varianza de cada

elemento es constante e igual a  2 , de acuerdo con (3-55), y que la covarianza entre cada par de elementos es 0, de acuerdo con (3-56).

El resultado anterior puede expresarse de forma compacta del siguiente modo:

E ( uu   ) ^2 I

A la matriz dada en (3-58) se le denomina matriz e scalar , puesto que es un

escalar ( ^2 , en este caso) multiplicado por la matriz identidad.

9) La perturbación u tiene una distribución normal Teniendo en cuenta los supuestos 6 a 9, tenemos que

~ (0 2 ) 1, 2, , ui NID ,i   n o

u ~ N ( 0, ^2 I ) (3-59)

donde el NID significa que la perturbación está normal e independiente distribuida.

3.3.2 Propiedades estadísticas del estimador de MCO

Bajo los supuestos del MLC , el estimador de MCO poseen buenas propiedades. En las demostraciones de este apartado implícitamente se tendrán en cuenta siempre los supuestos 3, 4 y 5.

Linealidad e insesgadez del estimador de MCO

Ahora, vamos a demostrar que el estimador de MCO es linealmente insesgado.

En primer lugar expresaremos β ˆ como una función del vector u , utilizando el supuesto

1, de acuerdo con (3-52):

-1 -1 - β = X X ^ X y = X X ^ ^ X ^ Xβ + u = β + X X ^ X u ^ (3-60)

El estimador de MCO puede expresarse del siguiente modo con el fin de ver de forma más clara la propiedad de linealidad:

- β = β + X XX u =β + Au (3-61)

donde  

- A = X X ^ X ^ es fija bajo el supuesto 2. Así pues, β ˆ es una función lineal de u

y, consecuentemente, es un estimador lineal.

Tomando las esperanzas en (3-60) y aplicando el supuesto 6, se obtiene

E ˆ   E  

-    β (^) = β + X X  (^) Xu = β (3-62)

Por lo tanto, β ˆ es un estimador insesgado.

Varianza del estimador de MCO

Para calcular la matriz de covarianzas de β ˆ son necesarios los supuestos 7 y 8,

además de los 6 primeros:

2 2

var( )ˆ^ ˆ^ ( )ˆ^ ˆ^ ( )ˆ^ ˆ^ ˆ^ ˆ^ ˆ

( )

( )

E E E E

E E

E

-1 -1 -1 -

-1 -1 -

β = β β β β = β β β β

= X X X uu X X X = X X X uu X X X

= X X X  I X X X =  X X

En el tercer paso de la demostración anterior se ha tenido en cuenta que, de

acuerdo con (3-60), ˆ^  

- ββ = X XX u . El supuesto 2 se ha tenido en cuenta en el

cuarto paso. Finalmente, los supuestos 7 y 8 se han utilizado en el último paso.

Por lo tanto, var( )ˆ 2  

- β   X X  es la matriz de covarianzas del vector β ˆ. En

esta matriz de covarianzas, la varianza de cada elemento ˆ j aparece en la diagonal

principal, mientras que las covarianzas entre cada par de elementos se encuentran fuera

de la diagonal principal. Específicamente, la varianza de ˆ j (para j =2,3,…, k ) es igual a

^2 multiplicada por el elemento correspondiente de la diagonal principal de  

- X X ^.

Después de operar, la varianza de ˆ j puede expresarse como

2 2 2 var( ˆ) (1 ) j nS (^) j Rj

   

donde R^2^ j es el^ R^ cuadrado de la regresión de cada^ xj sobre el resto de regresores,^ n^ es el

tamaño de la muestra y S^2 j es la varianza muestral del regresor xj.

2 2 1

n i i

u

n k

Bajo los supuestos 1 a 8, se obtiene que

E (  ˆ 2 ) ^2 (3-68)

Véase el apéndice 3.2 para la demostración. A la raíz cuadrada de (3-67), ˆ se le denomina error estándar de la regresión y

es un estimador de. 

Estimadores de la varianzas de β ˆ y del coeficiente de pendiente ˆ j

El estimador de la matriz de covarianzas de β ˆ viene dado por

       

   

 

1 1 2 1 1 2 1 2 2 2 2 1 1 2

1 2

var( ˆ^ ) ( ˆ^ , ˆ^ ) ( ˆ^ , ˆ^ ) ( ˆ^ , ˆ) ( ˆ^ , ˆ^ ) var( ˆ^ ) ( ˆ^ , ˆ^ ) ( ˆ^ , ˆ)

( )ˆ^ ˆ ( ˆ^ , ˆ^ ) ( ˆ^ , ˆ^ ) var( ˆ^ ) ( ˆ^ , ˆ)

( ˆ^ , ˆ^ ) ( ˆ^ , ˆ^ ) ( ˆ,

j k j k

j j j j k

k k k

Cov Cov Cov Cov Cov Cov

Var Cov Cov Cov

Cov Cov Cov

             

       

    

X X   

                  

ˆ (^) ) var( ˆ)  jk

                      

La varianza del coeficiente de la pendiente ˆ j , dada en (3-64), es una función

del parámetro desconocido  2. Cuando  2 se sustituye por su estimador ˆ 2 , se obtiene

un estimador de la varianza de ˆ j :

2 2

var( ) j nS (^) j (1 Rj )

   

De acuerdo con la expresión anterior, el estimador de la varianza de ˆ j viene

afectado por los siguientes factores:

a) Cuanto mayor es ˆ 2 , mayor es la varianza del estimador. Esto no es sorprendente en absoluto: cuanto más "ruido" exista en la ecuación, y, en consecuencia, más grande será (^) ˆ 2 , con lo que será más difícil estimar con precisión el efecto parcial de cualquier regresor sobre y. (Véase figura 3.1). b) A medida que se incrementa el tamaño de la muestra, la varianza del estimador se reduce. c) Cuanto más pequeña sea la varianza muestral de un regresor, mayor es la variación del coeficiente correspondiente. Manteniendo los demás

factores igual, para estimar  j es preferible que la variación muestral de

xj sea lo más grande posible, tal como se ilustra en la figura 3.2. Como se puede ver hay muchas líneas hipotéticas que podrían ajustarse a los datos cuando la varianza muestral de xj , ( S^2 j ), es pequeña como puede

verse en la parte a) de la figura. En cualquier caso, no está permitido por el supuesto 4 que S^2 j =0.

d) Cuanto mayor sea R^2 j , (es decir, cuanto mayor sea la correlación del regresor j -ésimo con el resto de los regresores), mayor será la varianza

de ˆ j.

a) s ˆ^2 grande b) s ˆ^2 pequeña FIGURA 3.1. Influencia de s ˆ^2 sobre el estimador de la varianza.

a) S^2 j pequeño b) S^2 (^) j grande FIGURA 3.2. Influencia de S^^2 j sobre el estimador de la varianza.

A la raíz cuadrada de (3-70) se le denomina error estándar ( ee ) de ˆ j :

2 2

j j j

ee nS R

Otras propiedades de los estimadores MCO

Bajo los supuestos 1 a 6 del MLC , el estimador de MCO, β ˆ , es consistente,

como puede verse en el apéndice 3.3, asintótica y normalmente distribuido, y también asintóticamente eficiente dentro de la clase de los estimadores consistentes y asintóticamente normales.

Bajo los supuestos 1 a 9 del MLC , el estimador MCO es también el estimador de máxima verosimilitud ( MV ), como se prueba en el apéndice 3.4, y es el estimador de mínima varianza insesgado ( EMVI ). Esto último significa que el estimador de MCO tiene la menor varianza entre todos los estimadores insesgados, sean lineales o no.

3.4 Más sobre formas funcionales

En este apartado vamos a examinar dos temas sobre formas funcionales: el uso de los logaritmos en modelos econométricos y las funciones polinomiales.

xj xj

y y

y y

xj xj

Ejemplo 3.5 Salarios y años de antigüedad en la empresa

Utilizando los datos de ceosal2 para estudiar el tipo de relación entre el salario ( salary) de los consejeros delegados (CEO) en Estados Unidos y los años de permanencia en la empresa como CEO de la compañía ( ceoten ), se estimó el siguiente modelo:

 2 ln( salary )  6.246(0.086)  0.0006(0.0001) profits  0.0440(0.0156) ceoten 0.0012(0.00052) ceoten

R^2 =0.1976 n =

donde los beneficios de las compañías ( profits ) están expresados en millones de dólares y el salario es la remuneración anual expresada en miles de dólares.

El efecto marginal de ceoten sobre salary expresado en porcentaje es el siguiente: em^  salario ceoten (^) / %  4.40  2 0.12 ceoten Así, para un consejero delegado con 10 años en su compañía, si está un año más en la empresa, su salario se incrementará en un 2%. Igualando a cero la expresión anterior y despejando ceoten , nos encontramos con que el efecto máximo de permanencia como consejero delegado sobre el salario se alcanza a los 18 años. Es decir, hasta los 18 años como CEO el efecto marginal del salario con respecto a los años de permanencia en la compañía es positivo. Por el contrario, desde los 18 años en adelante, este efecto marginal es negativo.

Funciones cúbicas

Otro caso interesante es la función cúbica o función polinomial de tercer grado. Si en el modelo hay sólo regresores correspondientes a la función cúbica, tenemos un modelo cúbico :

2 3 y   1   2 x   3 x   4 xu (3-76)

Los modelos cúbicos se utilizan muy a menudo en economía aplicada para captar variaciones en los efectos marginales, particularmente en las funciones de costes. El efecto marginal ( em ) de x sobre y , que depende, según una forma cuadrática, del valor de x , será el siguiente:

em dy 2 2 3 x 3 4 x^2 dx

El mínimo de em se producirá cuando

2 3 6 4 0

dem x dx

Por lo tanto, 3 min (^34)

em

En un modelo cúbico de una función de costes, debe cumplirse la restricción

 3 2  3   4 2 para garantizar que em

mi sea positivo. Otras restricciones que la función de

costes debe cumplir son las siguientes:  1 ,  2 , and  4 >0; y  3 <0.

Ejemplo 3.6 Efecto marginal en una función de costes Utilizando los datos de 11 empresas de plantas de celulosa (fichero costfunc ) para estudiar la función de costes, se estimó el siguiente modelo:  2 3 cost  29.16(1.602)  2.316(0.2167) output  0.0914(0.0081) output (0.000086)0.0013 output

R^2 =0.9984 n =

donde output es la producción de pasta de papel en miles de toneladas y cost es el coste total en millones de euros. El coste marginal es el siguiente: marcost^ ^  2.316  2  0.0914 output  3 0.0013 output^2 Por lo tanto, en una empresa con una producción de 30 mil toneladas de pasta de papel, si la empresa aumenta la producción de celulosa en mil de toneladas, el coste se incrementará en 0. millones de euros. Calculando el mínimo de la expresión anterior y resolviendo para el output , nos encontramos con que el coste marginal mínimo es igual a una producción de 23222 toneladas de pasta de papel.

3.5 Bondad del ajuste y selección de regresores

Una vez que se han aplicado los mínimos cuadrados, es conveniente tener alguna medida de la bondad del ajuste del modelo a los datos. En el caso de que se hayan estimado varios modelos alternativos, las medidas de la bondad del ajuste podrían ser utilizadas para seleccionar el modelo más apropiado.

En la literatura econométrica existen numerosas medidas de bondad del ajuste. La más popular es el coeficiente de determinación, que se designa por R^2 o R -cuadrado, y el coeficiente de determinación ajustado, que se designa por R^2 o R -cuadrado ajustado. Dado que estas medidas tienen algunas limitaciones, nos referiremos también al criterio de información de Akaike ( AIC ) y al criterio de Schwarz ( SC ).

3.5.1 Coeficiente de determinación

Como vimos en el capítulo 2, el coeficiente de determinación se basa en la siguiente descomposición:

SCTSCTSCR (3-80)

donde SCT es la suma de cuadrado s totales , SCE es la suma de cuadrados explicados y SCR es la suma de cuadrados residual.

Basándose en esta ecuación, el coeficiente de determinación se define como:

R^2 SCE SCT

Alternativamente, y de una forma equivalente, el coeficiente de determinación se puede definir como

R^2 SCR SCT

Los valores extremos del coeficiente de determinación son: 0, cuando la varianza explicada es cero, y 1, cuando la varianza residual es cero, es decir, cuando el ajuste es perfecto. Por lo tanto,

0 £ R^2 £ (^1) (3-83)

Un R^2 pequeño implica que la varianza de la perturbación ( ^2 ) es grande en

relación a la variación de y , lo que significa que  j no puede ser estimada con precisión.

Pero hay que recordar, que una varianza de la perturbación grande puede compensarse con un tamaño muestral elevado, de forma que si n es suficientemente grande, podemos ser capaces de estimar los coeficientes con precisión a pesar de que no se hayan controlado muchos de los factores no observados.