Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

1.1 Klasyczny Model Regresji Liniowej, Schematy z Analiza regresji

Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem słu- ... Nazwa Metoda najmniejszych kwadratów (MNK) bierze się ze względu na.

Typologia: Schematy

2022/2023

Załadowany 24.02.2023

Helena_84
Helena_84 🇵🇱

4.7

(43)

396 dokumenty

1 / 9

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Paweł Strawiński Notatki do ćwiczeń z ekonometrii
1.1 Klasyczny Model Regresji Liniowej
Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem słu-
żącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem
zależności między wybraną zmienną (nazywaną zmienną zależną lub obja-
śnianą) i jedną lub wieloma zmiennymi nazywanymi zmiennymi niezależnymi
lub objaśniającymi. Termin regresja została zaproponowany przez Francisa
Galtona, który zajmował się genetyką i eugeniką. Badając zależność między
wzrostem dzieci a wzrostem rodziców stwierdził, że wysocy rodzice mają wy-
sokie dzieci, niscy rodzice niskie, ale istnieje tendencja zbieżności wzrostu do
średniej wartości. Tę tendencję nazwał żegresją do przeciętności”.
Budując model zjawiska zachodzącego w populacji posługujemy się infor-
macjami pochodzącymi z próby
y= +ε y =Xb +e(1)
β,ε- wartości pochodzące z populacji,
b,e- wartości pochodzące z próby.
Zjawisko zachodzące w populacji opisać możemy następującym równa-
niem liniowym:
y= +ε(2)
gdzie:
y- wektor wartości zmiennej objaśnianej (zależnej),
X- macierz zmiennych objaśniających (niezależnych),
β- wektor nieznanych parametrów
ε- składnik losowy (czynnik stochastyczny równania).
W ekonomii zazwyczaj zachodzi problem przeidentyfikowania układu rów-
nań. Szukamy rozwiązania wnania, które ma dużo więcej warunków ogra-
niczających (obserwacji) niż jest w równaniu niewiadomych (parametrów
w modelu). W rezultacie bardzo rzadko otrzymujemy dokładne rozwiaza-
nie układu, częściej najlepsze liniowe jego przybliżenie.
y=
y1
y2
...
yn
X=
x11 x21 ... x1k
x21 x22 ... x2k
... ... ... ...
xn1xn2... xnk
β=
β1
β2
...
βk
ε=
ε1
ε2
...
εn
Model zjawiska zapisujemy jako:
1
pf3
pf4
pf5
pf8
pf9

Podgląd częściowego tekstu

Pobierz 1.1 Klasyczny Model Regresji Liniowej i więcej Schematy w PDF z Analiza regresji tylko na Docsity!

1.1 Klasyczny Model Regresji Liniowej

Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem słu- żącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między wybraną zmienną (nazywaną zmienną zależną lub obja- śnianą) i jedną lub wieloma zmiennymi nazywanymi zmiennymi niezależnymi lub objaśniającymi. Termin regresja została zaproponowany przez Francisa Galtona, który zajmował się genetyką i eugeniką. Badając zależność między wzrostem dzieci a wzrostem rodziców stwierdził, że wysocy rodzice mają wy- sokie dzieci, niscy rodzice niskie, ale istnieje tendencja zbieżności wzrostu do średniej wartości. Tę tendencję nazwał żegresją do przeciętności”. Budując model zjawiska zachodzącego w populacji posługujemy się infor- macjami pochodzącymi z próby

y = Xβ + ε y = Xb + e (1)

β, ε - wartości pochodzące z populacji, b, e - wartości pochodzące z próby.

Zjawisko zachodzące w populacji opisać możemy następującym równa- niem liniowym: y = Xβ + ε (2)

gdzie: y - wektor wartości zmiennej objaśnianej (zależnej), X - macierz zmiennych objaśniających (niezależnych), β - wektor nieznanych parametrów ε - składnik losowy (czynnik stochastyczny równania).

W ekonomii zazwyczaj zachodzi problem przeidentyfikowania układu rów- nań. Szukamy rozwiązania równania, które ma dużo więcej warunków ogra- niczających (obserwacji) niż jest w równaniu niewiadomych (parametrów w modelu). W rezultacie bardzo rzadko otrzymujemy dokładne rozwiaza- nie układu, częściej najlepsze liniowe jego przybliżenie.

y =

y 1 y 2 ... yn

 X^ =

x 11 x 21 ... x 1 k x 21 x 22 ... x 2 k ... ... ... ... xn 1 xn 2 ... xnk

 β^ =

β 1 β 2 ... βk

 ε^ =

ε 1 ε 2 ... εn

Model zjawiska zapisujemy jako:

E[y | X] = Xβ (3)

lub alternatywnie: y = Xb + e (4)

Bardzo często przyjmuje się, że model posiada stałą. Wtedy pierwsza ko- lumna macierzy zmiennych objaśniających X wypełniona jest przez wektor l′^ = [1, 1 , .., 1].

Założenia modelu :

  1. Związek pomiędzy y a x 1 ,... , xk jest opisany równaniem y = Xβ + ε. Alternatywnie to założenie definiowane jest jako y = Xβ + ε jest procesem generującym dane.
  2. liniowość. O modelu ekonometrycznym mówimy, że jest liniowy jeśli jest liniowy względem parametrów. Model nie musi być liniowy względem zmiennych. Mogą być one dowolnymi funkcjami od wartości obserwo- wanych.

Przykłady modeli liniowych:

  • y = β 0 + x 1 β 1 + x 2 β 2
  • y = β 0 + x^21 β 1 + x^22 β 2
  • Równanie wyjściowe: y = Axβ^ eε^ po zlogarytmowaniu ma formę liniową: ln y = ln A + β ln x + ε ln e
  • ln y = β 0 + β 1 ln x 1 + β 2 ln x 2 + ε jest to ważny model noszący nazwę modelu logliniowego.
  1. E(ε) = 0. Wartość oczekiwana składnika losowego wynosi 0.
  2. Wariancja składnika losowego jest identyczna dla wszystkich obserwacji (homoscedastyczność). ∀i var(εi) = σ^2
  3. Kowariancja między dwoma różnymi błędami losowymi wynosi zero. ∀i 6 = j cov(εi, εj ).
  4. Składnik losowy ma wielowymiarowy rozkład normalny N (0, σ^2 I), jest homoscedastyczny, oraz występuje brak autokorelacji. E(εε′) = σ^2 I ⇒ var(ε) = E(εε′)

W celu minimalizacji sumy kwadratów błędów liczymy jej pochodna. Po- chodna wektora, to pochodna każdego jego elementu liczona osobno.

∂RSS ∂b

= − 2 X′y + 2X′Xb

∂^2 RSS ∂b∂b′^

= 2X′X

ponieważ macierz X ma pełen rząd kolumnowy, to macierz X′X jest dodatnio określona więc ∂RSS∂b jest szukanym minimum. Zapisujemy warunek pierwszego rzędu:

− 2 X′y + 2X′Xb = 0

X′y = X′Xb

mnożymy obie strony przez macierz (X′X)−^1 z lewej strony. Ponieważ ma- cierz X′X ma pełen rząd kolumnowy i jest dodatnio określona to jest odwra- calna

(X′X)−^1 X′y = (X′X)−^1 X′Xb

b = (X′X)−^1 X′y

Własności algebraiczne metody MNK.

  1. każdy regresor, oraz cała macierz regresorów jest ortogonalna (prosto- padła) względem wektora reszt

X′e = 0

Dowód: Z warunków pierwszego rzędu mamy

X′Xb = X′y

X′y − X′Xb = 0 =⇒ X′^ (y − X′b) ︸ ︷︷ ︸ X′e=

  1. hiperpłaszyzna regresji przechodzi przez punkt średnich ( X,¯ y¯) Dowód: Z warunków pierwszego rzędu mamy

X′Xb = X′y

weźmy pod uwagę jedynie pierwszy wiersz macierzy X′^ zawierający jedynki wówczas: l′Xb = l′y [T, Σx 1 , Σx 2 , ..., Σxk]b = Σy / : T [1, Σx 1 /T, Σx 2 /T, ..., Σxk/T ]b = Σy/T [1, x¯ 1 , x¯ 2 , ..., x¯k]b = ¯y

  1. wektor reszt e jest ortogonalny do wektora wartości dopasowanych yˆ

y ˆ′e = 0

Dowód: wektor wartości dopasowanych yˆ = Xb ⇒ yˆ′^ = b′X′.

y ˆ′e = b′^ ︸︷︷︸X′e 0

Dla modelu ze stałą można pokazać dwie dodatkowe własności

  1. suma reszt jest równa zero. Dowód: Z własności 1 wiadomo, że X′e = 0. Niech X = l. Wówczas:

X′e = l′e =

i

e = 0

  1. średnia wartość teoretyczna jest równa średniej wartości empirycznej (próbkowej) y¯ˆ = ¯y. Dowód: Wiemy, że

y = Xb + e = ˆy + e · /l′

l′y = l′^ yˆ + (^) ︸︷︷︸l′e 0

·/N

l′y N

l′^ ˆy N

= ¯y = y¯ˆ

Podstawową równością analizy wariancji jest zależność

Σ(yi − y¯)^2 = Σ( ˆyi − y¯)^2 + Σ(yi − yˆi)^2 (6)

Suma po lewiej stronie to całkowita suma kwadratów (Total Sum of Squares). Można ją przedstawić jako sumę dwóch komponentów. Pierwszy jej skład- nik po prawej stronie to estymowana suma kwadratów (Estimated Sum of Squares), a drugi to resztowa suma kwardartów (Residual Sum of Squares). Dokonują drobnej manipulacji łatwo można udowodnić poniższy wzór:

Σ( ˆyi − y¯ + yi − yˆi)^2 = Σ( ˆyi − y¯)^2 + Σ(yi − yˆi)^2 + 2Σ(yi − yˆi ︸ ︷︷ ︸ e

)( ˆyi − ¯y)

Wcześniej pokazaliśmy, że wektor reszt jest ortogonalny do yˆ. Ortogonalność y ¯′e wprost wynika z 5 własności MNK. Wobec tego ostatni składnik sumy po prawej stronie jest równy zero.

T SS = ESS + RSS / : T SS

ESS

T SS

RSS

T SS

R^2 =

ESS

T SS

RSS

T SS

Współczynnik R^2 jest miarą dopasowania modelu. Mówi nam ile procent zmienności zmiennej objaśnianej jest wyjaśnione przez model ekonometryczny. Jednak ta miara ma pewne wady. Po pierwsze jest dobrą miarą wyłącz- nie dla modelu liniowego. Po drugie, jeżeli w modelu występuje problem autokorelacji, wysokie R^2 nie zawsze świadczy o dobrym dopasowaniu mo- delu. Kolejnym problemem z tą miarą jest to że dodanie regresora powoduje wzrost współczynnika R^2 nawet gdy nowa zmienna jest słabo skorelowana ze zmienną objaśnianą i w rzeczywistości niewiele wyjaśnia, bowiem:

y ˆ = X i′ β

R^2 = 1 −

Σ(yi − yˆi)^2 Σ(yi − y¯)^2

Σ(yi − Xiβ)^2 Σ(yi − ¯y)^2

Gdy dodamy jedna zmienną do macierzy X, która nie jest dokładnie wspóli- niowa ze zmiennymi już uwzględnionymi, to RSS maleje, wobec tego wartość

statystyki R^2 rośnie. By uniezależnić miarę dopasowania modelu od liczby zmiennych powszechnie używa się skorygowanego współczynnika

R^ ¯^2 = 1 − n^ −^1 n − K

(1 − R^2 ) (8)

Gdzie n jest liczebnością próby, a k liczbą zmiennych uwzględnionych w modelu łącznie ze stałą. Dodatkowo dla różnych modeli wartość współczyn- nika R^2 jest różna. Wynik zależy od typu danych na podstawie których osza- cowano parametry modelu. Dla modelu szacowanego na podstawie szeregów czasowych wartość R^2 jest bliska 1, dla danych przekrojowych R^2 wartość jest silnie uzależniona od liczebności próby. Dla małej próby R^2 równe 0.5 jest wysokie, dla dużej prawidłowy model może mieć współczynnik R^2 bliski war- tości 0. Dla danych panelowych wartość R^2 = 0. 3 należy przyjąć za znaczącą.

Przykład 1. Na podstawie tej samej próby losowej wyestymowano dwa modele ekonome- tryczne: (1) y = α 0 + α 1 x 1 + α 2 x 2 + ε R^2 = 0. 632 (2) ln y = β 0 + β 1 x 1 + β 2 ln x 2 + ψ R^2 = 0. 642

który model jest lepszy? Odpowiedź : Lepszy jest model (2) ponieważ ma wyższy współczynnik R^2_._

Przykład 2. Na podstawie próby zawierającej k + 1 obserwacji oszacowano parametry mo- delu: y = α 0 + α 1 x 1 + α 2 x 2 + ... + αkxk + ε

Jaki będzie współczynnik R^2 tego modelu? Odpowiedź : Współczynnik R^2 modelu będzie bardzo bliski lub równy 1. Ale ponieważ liczba obserwacji k + 1 jest równa liczbie nieznanych parametrów modelu, liczba stopni swobody wynosi 0. Powoduje to że nie jesteśmy w sta- nie oszacować błędów standardowych szukanych parametr’ow. Czyli nic nie wiemy o dopasowaniu modelu.

Przykład 3. Oszacowano model postaci y = Xβ + ε. Następnie przeprowadzono regresję reszt z powyższego modelu na uzyskanych wartościach teoretycznych. Ile będzie wynosiło R^2 w takiej regresji? Odpowiedź : Mamy znaleźć współczynnik R^2 dla modelu:

ε = ˆyγ + ψ (9)