Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Estadístico de la Recta de Regresión: Coeficientes y Ecuaciones Normales, Apuntes de Administración de Empresas

Una explicación detallada sobre la hipótesis cuarta del modelo de regresión lineal simple, incluyendo su notación compacta y las características del modelo derivadas de las hipótesis básicas anteriores. Se discuten las ecuaciones normales de la recta de regresión y se ofrecen varios estadísticos relacionados.

Tipo: Apuntes

2015/2016

Subido el 13/10/2016

reich121
reich121 🇪🇸

4.1

(14)

16 documentos

1 / 20

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 2 Copyright Bernardí Cabrer Borrás
1
Apuntes: Tema 2
MODELO LINEAL SIMPLE
(Versión preliminar)
Bernardí Cabrer Borrás
Valencia septiembre 2016
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Vista previa parcial del texto

¡Descarga Análisis Estadístico de la Recta de Regresión: Coeficientes y Ecuaciones Normales y más Apuntes en PDF de Administración de Empresas solo en Docsity!

Apuntes: Tema 2

MODELO LINEAL SIMPLE

(Versión preliminar)

Bernardí Cabrer Borrás

Valencia septiembre 2016

TEMA 2: MODELO LINEAL SIMPLE

2.1. Introducción.

Desde el punto de vista económico, la variable Yi viene explicada por la variable X2i a través de la siguiente ecuación:

Yi = f ( X 2 i ) (1.1)

Por ejemplo, según la Teoría Económica se puede establecer una relación causal entre los salarios (W (^) i ) y la productividad, de forma que se tendría la siguiente ecuación: Wi = f (Pr oductividad 2 i )

La ecuación (1.1) se considera un modelo económico que para transformarlo en un modelo econométrico se ha de especificar su forma funcional, es decir, el tipo de función, por ejemplo: lineal, logarítmica, semilogarítmica, etc. Si se supone que la forma funcional que relaciona las dos variables es lineal, se tiene:

Yi =β 1 + β 2 X 2 i

Ahora bien, según la ecuación anterior la relación entre las variables Yi y X2i es determinista y esto no es realista desde el punto de vista económico. Las relaciones entre las variables económicas generalmente son inexactas por lo que el modelo econométrico se expresa a través de una ecuación de comportamiento que queda especificada al añadir un término de perturbación que recoge la aleatoriedad existente en la relación:

Yi = β 1 + β 2 X 2 i + u i (2.1)

  1. No existe cambio estructural. Esto implica que los parámetros o coeficientes de

regresión β 1 y β 2 se mantienen constantes a lo largo del periodo muestral para

una muestra determinada (para otra muestra o para otros datos los valores de los parámetros pueden ser distintos).

  1. La variable aleatoria o perturbación aleatoria u (^) i se distribuye según una normal independiente e idénticamente distribuida (NII). Es decir, se trata de una variable aleatoria normal que reúne las siguientes características:  (^) u (^) i es una variable o perturbación aleatoria que se distribuye normal.  Su esperanza es nula. Es decir: E (u (^) i) = 0 (2.2.a)Hipótesis de homocedasticidad (no heterocedasticidad) es decir que la varianza se mantiene constante a lo largo de todo el periodo muestral. Analíticamente se tiene: var ( u (^) i ) = E ( u (^) iE ( ui )) 2 = E ( u (^) i )^2 = σ^2 (2.2.b)Hipótesis de no correlación. Consistente en que las covarianzas (y por consiguiente la correlación) entre las perturbaciones son nulas. Estadísticamente se tiene: cov ( u (^) i uj ) = E { ( u (^) iE ( ui ))( u (^) jE ( uj )) } = E ( u (^) iuj ) = 0 (2.2.c)  Estadísticamente la hipótesis cuarta se puede escribir de forma compacta a

través de la siguiente notación: u i → N ( 0 , σ^2 ) (2.2.d)

De las hipótesis básicas anteriores se deducen las siguientes características del modelo:  El número de parámetros que definen el modelo son los dos coeficientes de

regresión y la varianza de las perturbaciones: β 1 ; β 2 y σ^2

 La covarianza entre las variables exógenas y la perturbación aleatoria del modelo X (^) 2 i y u (^) i (la covarianza entre la parte sistemática y la parte no sistemática del modelo) es nula ya que: E ( X 2 i ui )= X (^) 2 i E ( ui )=

 El coeficiente β 2 cuantifica el incremento de la variable Yi ante un incremento

unitario de la variable X (^) 2 i.

A partir de las hipótesis básicas se deduce las siguientes características sobre la

variable endógena Yi del modelo:

 Dado que el modelo es lineal y que la variable X (^) 2 i es fija en el muestreo, la variable endógena Yi es una variable aleatoria que sigue la misma distribución que la variable aleatoria u (^) i. (2.2.e)  La esperanza de la variable endógena es igual a:

E ( Yi )= E ( β 1 + β 2 X 2 i + u i ) =

= β 1 + β 2 X 2 i + E ( ui )= β 1 + β 2 X 2 i (2.2.f)

( que es la parte determinista del modelo (2.1) )  La varianza de la variable endógena es igual a:

var( Yi )=^ E ( Yi − E ( Yi ))^2 =^ E^ (^ ui )^2 =^ σ^2 (2.2.g)

 En definitiva, la variable Yi sigue una distribución probabilística normal

cuya esperanza es igual a β 1 + β 2 X 2 i y su varianza σ 2. Estadísticamente

se puede escribir forma compacta a través de la siguiente notación:

Y i → N ( β 1 + β 2 X 2 i ; σ^2 ) (2.2.h)

2.3. Estimadores MCO de los coeficientes de regresión β 1 y β 2.

Existen diferentes métodos para obtener la estimación de los coeficientes de regresión, pudiendo citar, entre otros, los tres métodos o procedimientos siguientes: 1º) Estimadores Mínimo Cuadrados Ordinarios (MCO o LS) 2º) Estimadores Máximo Verosímiles (MV) 3º) Método de los Momentos (MM)

A continuación se va a desarrollar el método de estimación de los Mínimos Cuadrados Ordinarios (MCO). La idea parte de que disponemos de una muestra de tamaño

n (Es decir i = 1, 2, 3, …., n ), y se supone que los estimadores de β 1 y β 2 son βˆ 1 y βˆ 2.

elevando al cuadrado dicha relación se obtiene:

u ˆ^ i^2^ = [ Yi −(β ˆ 1 + βˆ 2 X 2 i ) ] 2

y extendiendo sumatorio para todo el periodo de la muestra (se supone que el número de observaciones es n ) tenemos:

n i 1

u ˆ i^2 = ∑

=

n i 1

[ Yi −( βˆ 1 + βˆ 2 X 2 i ) ] 2

El criterio para estimar los parámetros se basa en minimizar la función definida por el sumatorio^3 de los errores elevados al cuadrado. Para ello se obtiene las primeras

derivadas parciales de la función ∑ u ˆ i^2 respecto a βˆ 1 y βˆ 2. Es decir:

( i i )

i Y X

u 1 2 2 1

2 2 ˆ ˆ ˆ

i^ (^ i i )

i X Y X

u 2 1 2 2 2

2 ˆ^2 ˆ ˆ

β β β

La condición de mínimo o de primer orden se obtiene igualando a cero las primeras derivadas parciales de la función:

∑ ( Y^ i −βˆ 1 −^ βˆ 2 X 2 i )^ =^0 ⇒^ ˆ^0

1

∑^ =

=

n i i

u (2.4.a)

∑ X 2 i^ ( Y^ i −βˆ 1 −^ βˆ 2 X 2 i )^ =^0 ⇒^ ∑

=

n i i^ i

X u 1 2

ˆ (^0) (2.5.a)

A las ecuaciones (2.4.a) y (2.4.b) se les denomina ecuaciones normales de la recta de regresión.

(^3) Algunas características y propiedades que se deducen del operador sumatorio:

∑ (^ X^ 2 i −^ X 2 )=^0.

∑ (^ X^ 2 i −^ X 2 ) X 2 = X 2 ∑ ( X 2 i − X 2 )=^0.

∑ (^ X^ 2 i −^ X 2 )^2 =∑ X 22 i − nX 22.

∑ ( X^ 2 i −^ X 2 )^2 =∑ ( X 2 i − X 2 ) X 2 i.

∑ (^ X^ 2 i −^ X 2 )( Yi − Y )=∑ X 2 iYi − nX 2^ Y.

Primera ecuación normal De la ecuación (2.4.a) se obtiene: ∑ Yi^ =^ n^^ βˆ^1 +^ βˆ^2 ∑ X^ 2 i (2.4.b) o bien dividiendo la ecuación por el número el número de observaciones de la muestra ( n=I ) se obtiene la expresión:

Y = βˆ 1 + βˆ 2 X 2 (2.4.c)

Segunda ecuación normal De la ecuación (2.5.a) operando se obtiene:

∑ Y^ i X 2 i=^ βˆ 1 ∑ X^ 2 i +^ βˆ^2 ∑ X 22 i (2.5.b)

Formula del estimador^4 βˆ 2

Sustituyendo (2.4.b) en la ecuación (2.5.b) se obtiene:

∑ Yi^ X 2 i=^ ( Y^ −^ βˆ 2 X 2 )∑ X^ 2 i +^ βˆ^2 ∑ X 22 i

operando se tiene:

X^ 2 i ( Y^ iY^ )=βˆ 2 ∑ X 2 i (^ X 2 iX 2 )

despejando βˆ 2 se obtiene:

∑ ∑

∑ −

2 2 2

2 2 2 2 2 2 2 ( )

X X
X X Y Y
X X X
X Y Y

i

i i i i

β i i (2.6)

Resumen de las relaciones entre variables y sumatorios a partir del modelo y de las ecuaciones normales de la recta de regresión****..

Relación entre las variables en la población Yi = β 1 + β 2 X 2 i + ui

Relación entre las variables en la muestra Y ˆ i^ = βˆ 1 + βˆ 2 X 2 i

Algunos estadísticos: Yi = Y ˆ i^ + u ˆ i^ u ˆ^ i = Yi - Y ˆ i

u ˆ i^ = 0^ ∑ Yi^ =^ ∑ Y ˆ i^ Y^ = Y ˆ ∑ X^ 2 i u ˆ i = 0^ ∑ Y ˆ i^^ u ˆ i = 0^ Y^ =^ βˆ 1 +^ βˆ 2 X 2

(^4) Nótese la diferencia entre estimador (que hace referencia a la fórmula o método) y estimación (que hace referencia al valor numérico del estimador para una muestra en concreto).

( )

∑(^ )

∑ −

2 2 1

mod

exp mod

n Y^ Y

n Y Y Varianzatotaldel elo R Varianza licadaporel elo i

i (2.7.a)

Se puede simplificar la ecuación (2.7.a) multiplicando su numerador y su denominador por el número de observaciones de la muestra y se obtiene:

( ) ( − ) = =

Sumadecuadradosrespectoalamediadeltotaldel elo

Sumadecuadradosrespectoalamedia licadaporel elo Y Y

R Y Y

i

i mod

ˆ exp mod 2 2 2

o bien:

= ∑

∑ −

2 2

ˆ^22

Y n Y

Y nY i

i i = ∑

∑ −

( )^2
Y Y
Y Y Y Y

i

i i (2.7.b)

El coeficiente de determinación tiene dos limitaciones. La primera nace del número de observaciones de la muestra. Así, cuantas más observaciones tiene la muestra más pequeño es el coeficiente de determinación. La otra limitación nace del número de variables que tiene el modelo. Así, al aumentar el número de variables mayor es el coeficiente de determinación. Para superar estas limitaciones se utiliza el coeficiente de

determinación corregido R^2 que se definirá más adelante.

Descomposición de la varianza. Con el fin de relacionar la varianza total del modelo con la varianza explicada y la varianza no explicada se va a proceder de la siguiente forma. Se parte de la relación:

Yi = Y ˆ i^ + u ˆ i

A continuación se le resta a ambos miembros de la ecuación (^) Y obteniendo:

( Y (^) iY ) =( Y ˆ i^ − Y ) + u ˆ i

elevando al cuadrado ambos miembros de la ecuación y extendiendo el operador sumatorio se consigue:

∑ ( Y^ i^ −^ Y )^2 =∑ ( Y^ ˆ i^ − Y )^2 +∑ u ˆ i^2 +^2 ∑( Y^ ˆ iY )^ u ˆ i (2.8.a)

Se puede comprobar que el término del doble producto del segundo miembro es cero, aplicando las propiedades de las ecuaciones normales de la recta de regresión. En efecto:

∑ ( Y^ ˆ i^ −^ Y ) u^ ˆ i =∑ Y ˆ iu ˆ i − Y ∑ u ˆ i =∑ Y ˆ iu ˆ i =

ya que ∑ u ˆ i = 0 , y sustituyendo Y ˆ i^ por su valor y operando se obtiene:

= ∑ (β ˆ^1 +βˆ 2 X 2 i ) u ˆ i =βˆ 1 ∑ u ˆ i + βˆ 2 ∑ X 2 iu ˆ i = 0

ya que ∑ u ˆ i = 0 y ∑ X 2 i u ˆ i = 0 por (2.4.a) y (2.5.a), respectivamente.

Por lo tanto, a partir de la ecuación (2.8.a) y teniendo en cuenta la relación anterior se obtiene:

∑ ( Y^ i^ −^ Y )^2 =∑ ( Y^ ˆ i^ − Y )^2 +∑ u ˆ i^2 (2.8.b)

Es decir, la ecuación (2.8.b) indica que: _Suma de los cuadrados respecto a la media total del modelo = = Suma de cuadrados respecto a la media explicada por el modelo+

  • Suma de cuadrados no explicada por el modelo_

Si ahora se divide la ecuación (2.8.b) por el número de observaciones ( n=I ) se obtiene:

1 n ∑ ( Y i − Y ) 2 = 1 n ∑ ( Y ˆ i − Y )^2 + 1 n ∑ u ˆ i 2 (2.9)

esto es: Varianza total = Varianza explicada + Varianza no explicada

A partir de la ecuación ( 2.7.b ) y teniendo en cuenta la relación ( 2.8.b ) se puede redefinir el coeficiente de determinación a través del estadístico:

2

2 2

2 2 2

Y Y

u Y Y

Y Y u Y Y

R Y Y

i

i i

i i i

i (^) ( 2.7.c )

EJEMPLO 2.

Con la información de la tabla adjunta un economista quiere obtener los valores de de la variable Yi. Se conoce la media de la variable Y = 3 ¿Es posible?

Observación (^) YiY 1 - 2 - 3 0 4 3 5 * Sí, dado que existe una combinación lineal entre los valores de la variable Y (^) i − Y ya que (^) ∑ ( Y (^) iY )= 0_. Esta restricción nos permite obtener el valor de_ ( Y 5 −Y )= 0. A partir de los valores ( Y (^) iY ) y la media de la variable pueden obtener todos los valores de la variable original Yi.

2.5. Propiedades de los estimadores de los coeficientes de regresión.

Estimador lineal ( EL )

A partir de la ecuación ( 2.6 ) se puede comprobar que el estimador βˆ 2 es una

función lineal de Yi y por consiguiente de la perturbación aleatoria u (^) i ya que la variable

X (^) 2 i es fija en el muestreo. En efecto: ( )( ) ( )

( ) ( )

2 2 2

2 2 2 2 2

2 2 2

X X

X X Y

X X

ˆ X X Y Y

i

i i i

β i i

sustituyendoY i por su valor de (2.1), se obtiene:

= (^ )(^ ) ( )

2 2

2 2 1 2 2

X X

X X X u

i

i β^ β i i

operando y simplificando obtenemos:

( ) ( )

( ) ( )

( ) ( )

2 2 2

2 2 2 2 2

2 2 2 2 2 2 2

1 2 2

X X

X X u

X X

X X

X X

X X

i

i i i

i i

β i β

∑^ (^ )

2 2 2

2 2 2 X X

X X u i

β i i ( 2.11 )

La conclusión a la que podemos llegar es que el estadístico βˆ 2 , al ser una función

lineal de ui , sigue la misma distribución probabilística que la perturbación aleatoria.

Estimador insesgado ( I )

Se dice que un estimador es insesgado cuando la esperanza del estimador coincide con el verdadero valor del parámetro. Es decir, en nuestro caso, se debe cumplir que

E ( βˆ 2 )= β 2. En efecto si se parte de la expresión ( 2.11 ) y se aplica el operador esperanza

se obtiene:

( ) (^ )

( 2 2 )^2

X X

E X X Eu i

i i ( 2.12 )

ya que la variable X (^) 2 i es fija en el muestreo y la esperanza de la perturbación aleatoria es

cero E ( ui )= 0.

En definitiva en ( 2.12 ) se ha comprobado que el estimador βˆ 2 obtenido por MCO

es un estimador insesgado respecto a su verdadero valor β 2.

Estimador óptimo ( O ) Antes de comprobar la propiedad de óptimo, se va a calcular la varianza del

estimador βˆ 2. La definición de la varianza del estimador nos permite escribir:

Var (βˆ 2 )= E (βˆ 2 − E ( βˆ 2 ))^2 =

y teniendo en cuenta la relación ( 2.11 ) se obtiene:

= (^ )

2 2 2 2

2 2 X X

E X X u i

i i

dado que X (^) 2 i es fija en el muestreo y que la varianza de ui es σ 2 , es decir E ( ui )= σ^2 ,

se obtiene:

=

∑ (^2 −^2 )^2

2 X (^) i X

σ (^) ( 2.13 )

Si ahora calculamos la media (aplicando sumatorio ∑ y dividiendo por el número

de observaciones n ) de la ecuación ( 2.15 ) se consigue la expresión:

0 = u − (β ˆ 1 −β 1 ) −(β ˆ 2 − β 2 ) X 2 ( 2.16 )

ya que ∑ u ˆ i = 0 y por consiguiente u ˆ = 0

Restando miembro a miembro de la ecuación ( 2.15 ) la ecuación ( 2.16 ) se tiene:

u ˆ^ i = ( u i − u ) −( βˆ 2 −β 2 )( X 2 i − X 2 )

Elevando al cuadrado ambos miembros tenemos:

u ˆ^ i^2^ = ( u i − u )^2 +(β ˆ 2 −β 2 ) 2 ( X 2 i − X 2 )^2 − 2 ( u i − u ) ( βˆ 2 −β 2 )( X 2 i − X 2 )

Extendiendo sumatorio para toda la muestra se obtiene:

∑ u ˆ^ i^2^ =^ ∑^ ( u^ i − u )^2 +(^ βˆ 2 −β 2 )^2 ∑ (^ X 2 i − X 2 )^2 −^2 (β^ ˆ 2 −^ β 2 )^ ∑ (^ X 2 i − X 2 )( u^ i − u )

Si ahora calculamos su esperanza:

[ ]

( ) (^ )

2 2 2 2

2 2 2 2 2

2 2 22 2 2 2

2 2 2

( 1 ) 2 ( 2 )

n n

X X u X X

X X E X X u X X

E u n i i i

i i i i

i

o bien^8 :

2

2 ˆ^2

n

σ E^ ui ( 2.17 )

Así pues, un estimador insesgado de la varianza del modelo se puede conseguir a través del siguiente estadístico:

ˆ^2 ˆ^2

n σ u^ i ( 2.18 )

(^8) El denominador de la ecuación (2.17) cuantifica el número de grados de libertad del estadístico. Esto es, el

número de normales independientes elevadas al cuadrado que hay en la expresión ∑ uˆ i^2. Se pierden dos

grados de libertad debido a las ecuaciones normales de la recta que imponen dos restricciones sobre lasuˆ i,

ver (2.4.a) y (2.5.a).

EJEMPLO 2.

Un economista despistado ha estimado un modelo de regresión lineal simple por el

método MCO, esto es: Yi = β 1 + β 2 X 2 i + ui.Una vez estimado el modelo pierde parte de

la información de los residuos de la estimación, disponiendo únicamente de la información sobre la variable exógena y de los residuos que se detalla en la tabla adjunta:

X 2 i uˆ i

¿Con la información disponible el economista puede recuperar los valores de los dos residuos que ha perdido?

RESPUESTA. Sí, porque los residuos de un modelo de una sola variable explicativa

cumplen dos restricciones. Que la suma de los residuos es cero ˆ 0 1 ∑^ = =

n i i

u y que la suma

ponderada de los residuos por la variable exógena también es cero (^) ∑

n i i^ i

X u 1 2

ˆ (^0). Con

estas dos restricciones se puede plantear el sistema de dos ecuaciones y dos incógnitas siguiente:

-0.8 + 0.1 + 1 + uˆ 4 + uˆ 5 = 0

1(-0.8) + 20.1 + 31 + 4 uˆ 4 + 5* uˆ 5 = 0

Resolviendo el sistema se obtiene: uˆ 4 =0.9 y uˆ 5 =-1.

Con el fin de estudiar las características probabilísticas de (^) ∑ ( Y ˆ iY )^2 se parte de

la ecuación (2.8.b) en la que se relacionan la suma de cuadrados explicada, la no explicada y la total del modelo. Esto es:

∑ (Y^ i^ −^ Y)^2^ =∑ (Y^ ˆi −Y)^^2 +∑ uˆ i^2 (2. 8.b)

Si ahora dividimos la ecuación (2. 8.b) por σ 2 se obtiene:

( ) ( ) 2

2 2

2 2

2 σ σ σ

∑ Y^ i −^ Y =∑ Yˆi −Y +∑ uˆ i (2. 20.a)

y reordenando términos:

( ) ( ) 2

2 2

2 2

2 σ σ σ

∑ Yˆ^ i −^ Y =∑ Yi −Y −∑ uˆ i (2. 20.b)

El primer miembro de la ecuación anterior es una variable aleatoria que se distribuye según una Chi-cuadrado de un grado de libertad ya que es el resultado de una combinación lineal de dos variables Chi-cuadrado con ( n-1 ) y ( n-2 ) grados de libertad, respectivamente. De forma resumida se pueden presentar los resultados en el Cuadro 2.1.

De forma resumida se presentan los resultados de la descomposición de la varianza así como las distribuciones asociadas de cada término en el Cuadro 2.1.

Cuadro 2.1. Análisis de la varianza del modelo

Fuente de variación

Suma cuadrados Varianza

Distribución χ^2 Grados de

libertad Explicada por el modelo

∑ (Y^ ˆ^ i −^ Y)^2 (^ ) n

∑ Yˆ^ i −^ Y^2 (^ 2 )^2

∑ Yˆ^ i −^ Y = χ 12

1 No explicada por el modelo

∑ uˆ^ i^2

n

∑ uˆ i^2

2

2

∑uˆ^ i = χ n 2 − 2

n-

TOTAL

∑ (Y^ i −^ Y)^2 (^ ) n

∑ Y^ i −^ Y^2 (^ ) 2

2

∑ Y^ i −^ Y = χ n 2 − 1

n-

PALABRAS CLAVE

Coeficiente de correlación Coeficiente de determinación Coeficiente de regresión Condiciones de primer orden Desviación típica de un coeficiente Desviación típica del modelo Descomposición de la varianza Distribución Distribución normal Distribución Chi-Cuadrado Ecuaciones normales de la recta de regresión Eficiencia Error estándar Especificación Esperanza Estimación Estimador Estimador eficiente Estimador ELIO Estimador insesgado Estimador lineal Estimador MCO Estimador óptimo Grados de libertad Hipótesis básicas Método de los MCO Operador esperanza Operador sumatorio Perturbación Perturbación aleatoria Propiedades de la recta de regresión Regresando Regresor Sesgo Variable aleatoria Variable centrada Variable tipificada Variable endógena Variable exógena Varianza Varianza de un coeficiente de regresión Varianza del modelo Varianza explicada Varianza no explicada Varianza total