





Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem słu- ... Nazwa Metoda najmniejszych kwadratów (MNK) bierze się ze względu na.
Typologia: Schematy
1 / 9
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem słu- żącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między wybraną zmienną (nazywaną zmienną zależną lub obja- śnianą) i jedną lub wieloma zmiennymi nazywanymi zmiennymi niezależnymi lub objaśniającymi. Termin regresja została zaproponowany przez Francisa Galtona, który zajmował się genetyką i eugeniką. Badając zależność między wzrostem dzieci a wzrostem rodziców stwierdził, że wysocy rodzice mają wy- sokie dzieci, niscy rodzice niskie, ale istnieje tendencja zbieżności wzrostu do średniej wartości. Tę tendencję nazwał żegresją do przeciętności”. Budując model zjawiska zachodzącego w populacji posługujemy się infor- macjami pochodzącymi z próby
y = Xβ + ε y = Xb + e (1)
β, ε - wartości pochodzące z populacji, b, e - wartości pochodzące z próby.
Zjawisko zachodzące w populacji opisać możemy następującym równa- niem liniowym: y = Xβ + ε (2)
gdzie: y - wektor wartości zmiennej objaśnianej (zależnej), X - macierz zmiennych objaśniających (niezależnych), β - wektor nieznanych parametrów ε - składnik losowy (czynnik stochastyczny równania).
W ekonomii zazwyczaj zachodzi problem przeidentyfikowania układu rów- nań. Szukamy rozwiązania równania, które ma dużo więcej warunków ogra- niczających (obserwacji) niż jest w równaniu niewiadomych (parametrów w modelu). W rezultacie bardzo rzadko otrzymujemy dokładne rozwiaza- nie układu, częściej najlepsze liniowe jego przybliżenie.
y =
y 1 y 2 ... yn
x 11 x 21 ... x 1 k x 21 x 22 ... x 2 k ... ... ... ... xn 1 xn 2 ... xnk
β^ =
β 1 β 2 ... βk
ε^ =
ε 1 ε 2 ... εn
Model zjawiska zapisujemy jako:
E[y | X] = Xβ (3)
lub alternatywnie: y = Xb + e (4)
Bardzo często przyjmuje się, że model posiada stałą. Wtedy pierwsza ko- lumna macierzy zmiennych objaśniających X wypełniona jest przez wektor l′^ = [1, 1 , .., 1].
Założenia modelu :
Przykłady modeli liniowych:
W celu minimalizacji sumy kwadratów błędów liczymy jej pochodna. Po- chodna wektora, to pochodna każdego jego elementu liczona osobno.
∂RSS ∂b
= − 2 X′y + 2X′Xb
∂^2 RSS ∂b∂b′^
ponieważ macierz X ma pełen rząd kolumnowy, to macierz X′X jest dodatnio określona więc ∂RSS∂b jest szukanym minimum. Zapisujemy warunek pierwszego rzędu:
− 2 X′y + 2X′Xb = 0
X′y = X′Xb
mnożymy obie strony przez macierz (X′X)−^1 z lewej strony. Ponieważ ma- cierz X′X ma pełen rząd kolumnowy i jest dodatnio określona to jest odwra- calna
(X′X)−^1 X′y = (X′X)−^1 X′Xb
b = (X′X)−^1 X′y
Własności algebraiczne metody MNK.
X′e = 0
Dowód: Z warunków pierwszego rzędu mamy
X′Xb = X′y
X′y − X′Xb = 0 =⇒ X′^ (y − X′b) ︸ ︷︷ ︸ X′e=
X′Xb = X′y
weźmy pod uwagę jedynie pierwszy wiersz macierzy X′^ zawierający jedynki wówczas: l′Xb = l′y [T, Σx 1 , Σx 2 , ..., Σxk]b = Σy / : T [1, Σx 1 /T, Σx 2 /T, ..., Σxk/T ]b = Σy/T [1, x¯ 1 , x¯ 2 , ..., x¯k]b = ¯y
y ˆ′e = 0
Dowód: wektor wartości dopasowanych yˆ = Xb ⇒ yˆ′^ = b′X′.
y ˆ′e = b′^ ︸︷︷︸X′e 0
Dla modelu ze stałą można pokazać dwie dodatkowe własności
X′e = l′e =
i
e = 0
y = Xb + e = ˆy + e · /l′
l′y = l′^ yˆ + (^) ︸︷︷︸l′e 0
l′y N
l′^ ˆy N
= ¯y = y¯ˆ
Podstawową równością analizy wariancji jest zależność
Σ(yi − y¯)^2 = Σ( ˆyi − y¯)^2 + Σ(yi − yˆi)^2 (6)
Suma po lewiej stronie to całkowita suma kwadratów (Total Sum of Squares). Można ją przedstawić jako sumę dwóch komponentów. Pierwszy jej skład- nik po prawej stronie to estymowana suma kwadratów (Estimated Sum of Squares), a drugi to resztowa suma kwardartów (Residual Sum of Squares). Dokonują drobnej manipulacji łatwo można udowodnić poniższy wzór:
Σ( ˆyi − y¯ + yi − yˆi)^2 = Σ( ˆyi − y¯)^2 + Σ(yi − yˆi)^2 + 2Σ(yi − yˆi ︸ ︷︷ ︸ e
)( ˆyi − ¯y)
Wcześniej pokazaliśmy, że wektor reszt jest ortogonalny do yˆ. Ortogonalność y ¯′e wprost wynika z 5 własności MNK. Wobec tego ostatni składnik sumy po prawej stronie jest równy zero.
Współczynnik R^2 jest miarą dopasowania modelu. Mówi nam ile procent zmienności zmiennej objaśnianej jest wyjaśnione przez model ekonometryczny. Jednak ta miara ma pewne wady. Po pierwsze jest dobrą miarą wyłącz- nie dla modelu liniowego. Po drugie, jeżeli w modelu występuje problem autokorelacji, wysokie R^2 nie zawsze świadczy o dobrym dopasowaniu mo- delu. Kolejnym problemem z tą miarą jest to że dodanie regresora powoduje wzrost współczynnika R^2 nawet gdy nowa zmienna jest słabo skorelowana ze zmienną objaśnianą i w rzeczywistości niewiele wyjaśnia, bowiem:
y ˆ = X i′ β
R^2 = 1 −
Σ(yi − yˆi)^2 Σ(yi − y¯)^2
Σ(yi − Xiβ)^2 Σ(yi − ¯y)^2
Gdy dodamy jedna zmienną do macierzy X, która nie jest dokładnie wspóli- niowa ze zmiennymi już uwzględnionymi, to RSS maleje, wobec tego wartość
statystyki R^2 rośnie. By uniezależnić miarę dopasowania modelu od liczby zmiennych powszechnie używa się skorygowanego współczynnika
R^ ¯^2 = 1 − n^ −^1 n − K
Gdzie n jest liczebnością próby, a k liczbą zmiennych uwzględnionych w modelu łącznie ze stałą. Dodatkowo dla różnych modeli wartość współczyn- nika R^2 jest różna. Wynik zależy od typu danych na podstawie których osza- cowano parametry modelu. Dla modelu szacowanego na podstawie szeregów czasowych wartość R^2 jest bliska 1, dla danych przekrojowych R^2 wartość jest silnie uzależniona od liczebności próby. Dla małej próby R^2 równe 0.5 jest wysokie, dla dużej prawidłowy model może mieć współczynnik R^2 bliski war- tości 0. Dla danych panelowych wartość R^2 = 0. 3 należy przyjąć za znaczącą.
Przykład 1. Na podstawie tej samej próby losowej wyestymowano dwa modele ekonome- tryczne: (1) y = α 0 + α 1 x 1 + α 2 x 2 + ε R^2 = 0. 632 (2) ln y = β 0 + β 1 x 1 + β 2 ln x 2 + ψ R^2 = 0. 642
który model jest lepszy? Odpowiedź : Lepszy jest model (2) ponieważ ma wyższy współczynnik R^2_._
Przykład 2. Na podstawie próby zawierającej k + 1 obserwacji oszacowano parametry mo- delu: y = α 0 + α 1 x 1 + α 2 x 2 + ... + αkxk + ε
Jaki będzie współczynnik R^2 tego modelu? Odpowiedź : Współczynnik R^2 modelu będzie bardzo bliski lub równy 1. Ale ponieważ liczba obserwacji k + 1 jest równa liczbie nieznanych parametrów modelu, liczba stopni swobody wynosi 0. Powoduje to że nie jesteśmy w sta- nie oszacować błędów standardowych szukanych parametr’ow. Czyli nic nie wiemy o dopasowaniu modelu.
Przykład 3. Oszacowano model postaci y = Xβ + ε. Następnie przeprowadzono regresję reszt z powyższego modelu na uzyskanych wartościach teoretycznych yˆ. Ile będzie wynosiło R^2 w takiej regresji? Odpowiedź : Mamy znaleźć współczynnik R^2 dla modelu:
ε = ˆyγ + ψ (9)