Pobierz Ekonometria całość przedmiotu i więcej Skrypty w PDF z Econometria tylko na Docsity! Skrypt fo przedmiotu EKONOMETRIA I AUTORZY: Micha l Rubaszek Katarzyna Bech-Wysocka Piotr Dybka Micha l Gradzewicz Karolina Konopczak Jakub Mućk Karol Szafranek Marcin Topolewski Bart lomiej Wísnicki Zuzanna Wośko Redakcja i koordynacja Micha l Rubaszek 2020 Szko la G lówna Handlowa w Warszawie Wst ↪ ep Ten skrypt zawiera materia ly przygotowane przez wyk ladowców Szko ly G lównej Handlowej w War- szawie w celu prowadzenia przedmiotu “Ekonometria I”. Zaj ↪ecia s ↪a prowadzone z wykorzystaniem: • darmowego pakietu ekonometrycznego GRETL: http://gretl.sourceforge.net/ • plików z danymi umieszczonych na stronie przedmiotu: http://web.sgh.waw.pl/~mrubas/ Materia ly te w dużej mierze s ↪a oparte na: • opracowaniu R.C. Hill, W.E. Griffiths i G.C. Lim “Principles of Econometrics” https://www.principlesofeconometrics.com/ • skryptu L. Adkins “Using gretl for Principles of Econometrics” http://www.learneconometrics.com/gretl/index.html Temat 1 Wprowadzenie do ekonometrii Katarzyna Bech-Wysocka i Piotr Dybka • Czym si ↪e zajmuje ekonometria • Model ekonometryczny • Rodzaje danych • Źród la danych • Dzia lania na macierzach • Zmienna losowa • Rozk lad prawdopodobieństwa • Rozk lady statystyczne • Pakiety ekonometryczne: Gretl 1 Model ekonometryczny Etapy budowy modelu ekonometrycznego Postawienie hipotezy badawczej Wybór postaci funkcyjnej 1 2 Zebranie danych3 Estymacja4 Weryfikacja5 Zastosowanie6 Temat 1. Wprowadzenie 4 Specyfikacja liniowego modelu ekonometrycznego Model ekonometryczny: = + + ⋯ + + dla = 1,2, … , zmienna zależna / objaśniana (dependent variable) zmienne niezależne / regresory / zmienne objaśniające (explanatory variables) składnik losowy (error lub disturbance term) (nieznane) parametry strukturalne Indeks dolny wskazuje, że model jest prawdziwy dla każdej obserwacji = 1,2, … , . Model empiryczny (po oszacowaniu parametrów): = + + ⋯ + wartości teoretyczna z modelu (znane) oszacowania parametrów strukturalnych UWAGA: aby uzyskać model empiryczny należy zebrać obserwacje dla oraz Etapy budowy modelu ekonometrycznego Postawienie hipotezy badawczej Wybór postaci funkcyjnej 1 2 Zebranie danych3 Estymacja4 Weryfikacja5 Zastosowanie6 Temat 1. Wprowadzenie 5 Rodzaje danych Kryterium pochodzenia: Dane mikroekonomiczne (np. dochody gospodarstw domowych, przychody firm) Dane makroekonomiczne (poziom PKB, stopa bezrobocia) Dane ankietowe (np. preferencje polityczne) Dane eksperymentalne (wyniki działania szczepionki) Kryterium typu danych: Jakościowe (np. płeć) Ilościowe (np. dochód) Tekstowe (np. adres zamieszkania) Kryterium obserwacji: Dane przekrojowe (PKB w krajach UE) Szeregi czasowe (PKB w Polsce w okresie 1995-2020) Dane panelowe (PKB w krajach UE w latach 1995-2020) Dane przekrojowe: Obserwacje dla różnych podmiotów z tego samego okresu Indeksowanie: dla = 1,2, … , Szeregi czasowe: Obserwacje dla tego samego podmiotu z różnych okresów Indeksowanie: dla = 1,2, … , Dane panelowe: Obserwacje dla różnych podmiotów z różnych okresów Indeksowanie: dla = 1,2, … , oraz = 1,2, … , Przykład 1.1. Rodzaje danych PKB per capita Temat 1. Wprowadzenie 6 Specyfikacja modelu: zapis macierzowy = + + ⋯ + + dla = 1,2, … , W trakcie zajęć powyższy model będziemy zapisywali w postaci macierzowej: +… 3 = 1 … 1 + … +… … … … 1 3 … 3 … + +… 3 4 = 56 + 7 4 wektor × 1 obserwacji zmiennej zależnej 5 macierz × 9 + 1 zmiennych objaśniających 7 wektor × 1 składników losowych 6 wektor 9 + 1 × 1 parametrów strukturalnych liczba obserwacji ( dla szeregów czasowych) 9 + 1 liczba parametrów Działania na macierzach Temat 1. Wprowadzenie 9 Macierze Macierz Macierz A to zbiór elementów ułożonych w : wierszach i ; kolumnach. Wtedy mówimy, że macierz A jest o wymiarze : × ;. Rodzaje macierzy Niech A będzie macierzą o wymiarze : × ;. = jest macierzą kwadratową jeżeli : = ; = jest macierzą symetryczną jeżeli jest macierzą kwadratową oraz > = > dla każdej pary ( , @). Innymi słowy, = = =′ (o transpozycji za chwilę) = jest macierzą jednostkową, w zapisie = = -C, jeżeli jest macierzą kwadratową, elementy na głównej przekątnej są równe = 1, oraz elementy poza główną przekątną wynoszą > = 0 dla ≠ @. UWAGA: dla macierzy B o odpowiednich wymiarach -CE = E-C = E. Macierze Iloczyn macierzy Niech A i B będą macierzami o wymiarach odpowiednio : × ; i n × G. Iloczyn = =E jest macierzą o wymiarach : × G i elementach: ! = ∑ >>C>I , gdzie = 1, … , : oraz J = 1, … , G. UWAGA: =E ≠ E= Proste operacje na macierzach Niech = i E będą macierzami wymiarach : × ;. Wtedy: Suma = = + E jest macierzą o wymiarze : × ; z elementami !> = > + > Iloczyn ze skalarem λ = K= jest macierzą : × ; o elementach !> = λ> TMNOPQRS4TUN = =’ to macierz o wymiarach ; × : powstała przez zmianę wierszy w kolumny, a kolumn w wiersze. Własności: = + E W = =W + EW =W W = = λ= W = λ=W =E W = EW=′ Temat 1. Wprowadzenie 10 Macierze Macierz odwrotna Niech = będzie kwadratową macierzą o wymiarach ; × ;. Macierz E jest macierzą odwrotną do = jeżeli =E = E= = -C. Jeżeli taka macierz E istnieje, to macierz = jest odwracalna. Warunkiem odwracalności jest niezerowa wartość wyznacznika (|=| ≠ 0). Warto dodać, że istnieje co najwyżej jedna macierz odwrotna. Jej własności są następujące: (=Y)Y= = (=W)Y= (=Y)W (=E)Y= EY=Y Niezależność liniowa, czyli rząd macierzy Zbiór wektorów jest liniowo niezależny, jeżeli żadnego z nich nie można przedstawić jako liniowej kombinacji pozostałych wektorów. Dla macierzy = o wymiarach : × ; rząd wierszowy (#Z #;J) opisuje liczbę liniowo niezależnych wierszy, zaś rząd kolumnowy (!"[&:; #;J) liczbę liniowo niezależnych kolumn Odwracalna macierz kwadratowa ; × ; musi mieć pełny rząd (full rank), czyli rząd wierszowy oraz rząd kolumnowy wynosi ; Podstawy statystyki Temat 1. Wprowadzenie 11 Momenty rozkładu prawdopodobieństwa Wartość oczekiwana Definicja wartości oczekiwanej zmiennej losowej \: } = ~ \ = ∑ ` [dyskretna zmienna losowa] } = ~ \ = _ ` a [ciągła zmienna losowa] Interpretacja: jakiej wartości \ oczekujemy przed zaobserwowaniem jej realizacji Ważne: wartość oczekiwana } to nie to samo co średnia w próbie (}̂ = ̅), którą możemy policzyć dopiero po zaobserwowaniu realizacji Warunkowa wartość oczekiwana to: }y|z = ~ \ = = ∑ ` [dyskretna zmienna losowa] }y|z = ~ \ = = _ ` | a [ciągła zmienna losowa] Interpretacja: jakiej wartości \ oczekujemy przed zaobserwowaniem jej realizacji, jeżeli posiadamy dodatkową informację, a mianowicie, że = Momenty rozkładu prawdopodobieństwa Wariancja Kowariancja i korelacja Wariancja zmiennej losowej X (dyskretnej lub ciągłej) to: # \ = y+ = ~[\ − ~(\)]+= _ `()( − })+ a # \ = ∑ ( − })+` [dyskretna zmienna losowa] # \ = _ ( − })+ `()a [ciągła zmienna losowa] Przydatny wzór: # \ = ~( \+ ) − ~ \ +. Pierwiastek (kwadratowy) z wariancji nazywamy odchyleniem standardowym, y Kowariancja między zmiennymi X i Y to: !" \, = yz = ~ \ − ~ \ − ~ Korelacja między zmiennymi to natomiast: !"## \, = yz = yzyz WAŻNE: brak korelacji nie oznacza niezależności! Temat 1. Wprowadzenie 14 Momenty rozkładu prawdopodobieństwa Wybrane reguły Mnożenie przez skalar / dodawanie skalaru: ~ \ + = ~ \ + # \ + = +# \ Suma zmiennych losowych: ~ \ + = ~ \ + ~ # \ + = # \ + # + 2!" \, Jeżeli
(\) jest funkcją zmiennej losowej \, to też jest zmienną losową: ~
\ = ∑
()` [dyskretna zmienna losowa] ~
\ = _
()` a [ciągła zmienna losowa] Prawo iteracyjnych oczekiwań (law of iterated expectations, szerzej w Temat 12): ~ \ = ~ [~(\|)] ~ \ = ~y[\~(|\)] Rozkłady statystyczne Rozkład normalny O zmiennej losowej \ mówimy, że ma rozkład normalny o ~ \ = } i # \ = +: \~ }, + jeżeli funkcja gęstości wynosi: ` = 12 exp −( − })+ + Standaryzacja do rozkładu 0,1 polega na: = \ − } Obliczanie prawdopodobieństwa zdarzenia: ] ≤ \ ≤ = ] − } ≤ ≤ − } = Φ − } − Φ − } gdzie Φ oznacza dystrybuantę rozkładu (0,1). Temat 1. Wprowadzenie 15 Rozkłady statystyczne Rozkład normalny – przedział ufności Dla zmiennej \ ∼ (}, +): przedział } ± zawiera około 68% obserwacji przedział } ± 2 zawiera około 95% obserwacji przedział } ± 3 zawiera prawie wszystkie obserwacje Załóżmy, że procentowy wynik testu z matematyki dla studentów pierwszego roku ma rozkład normalny o wartości oczekiwanej } = 64 i odchyleniu standardowym = 10. Oznacza to, że: około 68% studentów uzyskało między 54 a 74 pkt. około 95% studentów uzyskało między 44 a 84 pkt. prawie wszyscy studenci uzyskali wynik między 34 a 94 pkt. Pytanie: A co jeżeli empiryczne wyniki testu są inne? Popularne rozkłady Rozklad chi-kwadrat () Dla niezależnych zmiennych \~(0,1) zmienna: = \+ + ⋯ + \+ ~χ+(:) ma rozkład chi-kwadrat z m stopniami swobody, ∼ χ+(:), gdzie ~ = : # = 2: Rozklad t-Studenta Dla niezależnych zmiennych \~ 0,1 "# ~χ+ : zmienna: = \/: ma rozkład t-studenta z m stopniami swobody, ∼ (:), gdzie ~() = 0 # = Y+ Rozkład F-Snedecora Dla niezależnych zmiennych ~χ+ : "# +~χ+ J zmienna g = /:+/J ma rozkład F z (:, J) stopniami swobody, g ∼ g :, J WAŻNE: jeżeli : → ∞ to rozkład (:) zbiega do rozkładu (0,1), zaś g J, : zbiega do +(J) jeżeli ∼ (:) to + ∼ g(1, :) Temat 1. Wprowadzenie 16 Zadania Zadanie 1.1 a. Wymyśl co najmniej dwa przykłady zmiennych każdego typu: zmienna ciągła zmienna dyskretna zmienna binarna zmienna kategoryczna / uporządkowana. b. Wybierz jedną ze zmiennych z punktu a. i zaproponuj model ekonometryczny, w którym będzie ona zmienną zależną c. Wybierz inną ze zmiennych z punktu a. i zaproponuj model ekonometryczny, w którym będzie ona zmienną objaśniającą d. Czy pozyskanie danych dla zmiennych z punktu a. jest możliwe? Temat 1. Wprowadzenie 19 Zadanie 1.2 Realizacja zmiennej losowej \ jest następująca: = 1, + = 3, , = 5, = 3. Oblicz i zinterpretuj: a. Średnią arytmetyczną ̅ = ∑ I b. Wyrażenie ∑ ( − ̅)I c. Wyrażenie ∑ ( − ̅)+I d. Wyrażenie ∑ +I − 4̅+ Zadanie 1.3 Dla każdego z poniższych punktów spróbuj określić specyfikacje modelu oraz zmienne, dla których należy znaleźć obserwacje. Jakie jest potencjalne źródło pozyskania tych obserwacji? a. Naukowcy pragną ustalić jaka jest temperatura ciała zdrowego człowieka b. Sieć wodociągowa planuje ustalić od czego zależy miesięczne zużycie wody przez gospodarstwa domowe c. Ministerstwo zdrowia jest zainteresowane od czego zależy czas trwania zarażenia wirusem COVID-19 u pacjentów d. Sprzedawca chce dowiedzieć się jaka jest żywotność żarówek, które ma w ofercie Temat 1. Wprowadzenie 20 Zadanie 1.4 Liczba oddechów na minutę wśród studentów w trakcie egzaminu ma rozkład normalny z wartością oczekiwaną równą 12 i odchyleniem standardowym równym 2,3. Jaka jest proporcja studentów, którzy oddychają z wartościami z poniższych przedziałów? a. 9,7 do 14,3 wdechów na minutę b. 7,4 do 16,6 wdechów na minutę c. 9,7 do 16,6 wdechów na minutę d. mniej niż 5,1 lub więcej niż 18,9 wdechów na minutę. Zadanie 1.5 Wśród 60 studentów wiemy, że: 9 nie mieszka w akademiku 36 to studenci studiów licencjackich 3 studentów studiów licencjackich nie mieszka w akademiku Niech \ oraz określają binarne zmienne losowe, określające uczestnictwo w studiach licencjackich oraz mieszkanie w akademiku. a. Oszacuj i zinterpretuj ](\ = 1, = 0) oraz ](\ = 1| = 0) b. Czy ]( = 1|\ = 1) jest takie samo jak ] = 1 ? c. Znajdź udział studentów studiów magisterskich, którzy mieszkają w akademiku d. Czy zmienne \ i są niezależne? Temat 1. Wprowadzenie 21 Temat 1. Wprowadzenie 24 Temat 2 Metoda najmniejszych kwadratów Katarzyna Bech-Wysocka i Piotr Dybka • Model regresji liniowej • Estymacja parametrów • Metoda Najmniejszych Kwadratów (MNK) • Za lożenia klasycznego modelu regresji liniowej • W lasności estymatora MNK • Twierdzenie Gaussa-Markova • Precyzja oszacowań: wariancja estymatora MNK • Dopasowanie modelu do danych: wspó lczynnik determinacji R2 25 Model regresji liniowej Rozważmy model regresji z jedną zmienną objaśniającą: = + + Ekonomiści wskazują na występowanie (zazwyczaj deterministycznych) związków między zmiennymi, np. że wydatki na jedzenie () zależą od dochodu () Dla ekonometryka: jest zmienną losową, której wartość zależy od (część deterministyczna), ale także od składnika losowego (część stochastyczna) model ekonometryczny może być wykorzystany, aby ustalić warunkowy rozkład , czyli: warunkową wartość oczekiwaną !(|) = %&|' warunkową wariancję Var(|) = )&|'* Parametry oraz nie są znane, ale można oszacować ich wartości na podstawie realizacji dla oraz , gdzie + = 1,2, … , 0 Model regresji liniowej Źródło: Principles of Econometrics, R. Carter Hill, William E. Griffiths and Guay C. Lim, 4th Edition. Temat 2. MNK 26 Estymacja parametrów regresji Dla dowolnych wartości 4 i 4 możemy policzyć kombinację 3 = 4 + 4, która określa linię regresji Wartości 4 i 4dobierz tak, żeby odległości między linią regresji i realizacjami były małe W celu określenia co oznacza „małe odległości” możemy wykorzystać różne miary Źródło: Principles of Econometrics, R. Carter Hill, William E. Griffiths and Guay C. Lim, 4th Edition. Estymator MNK Jak znaleźć optymalne Wartości 564 i 574 ? Metoda Najmniejszych Kwadratów (MNK) Wartości teoretyczne / dopasowane, 3 = 4 + 4, możemy porównać z realizacją, . W ten sposób otrzymujemy reszty modelu, czyli realizację składnika losowego: ̂ = − 3 = − 4 − 4 W metodzie najmniejszych kwadratów kryterium optymalizacji przy obliczaniu wartości 4 oraz 4 jest minimalizacja sumy kwadratów reszt: ::! = ∑ ̂* = ∑ ( − 4 − 4)*<=<= = ::!(4, 4) Wartości 4 oraz 4 wyznaczane są poprzez rozwiązanie układu równań opisanych przez warunki pierwszego rzędu: >??@ >AB4 = > ∑ (&CDAB4 DAE4 'C)FGCHE >AB4 = 0 >??@ >AE4 = > ∑ (&CDAB4 DAE4 'C)FGCHE >AE4 = 0 Temat 2. MNK 29 Estymator MNK Rozwiązaniem układu równań opisanych przez warunki pierwszego rzędu są wartości: Są to wzory na estymator MNK w prostym modelu regresji liniowej 4 = J − 4̅ 4 = ∑ ( − ̅)( − J)<= ∑ ( − ̅)*<= Uwaga: estymator jest zmienną losową po podstawieniu realizacji oraz do wzorów otrzymujemy oszacowania, czyli liczby estymator ≠ oszacowanie! Przykład 2.1. Estymacja parametrów regresji Rozważmy model ekonometryczny, w którym wydatki na żywność (MNN2_PQ, USD) zależą od dochodu (+RSNTP, 100USD). Na podstawie danych z pliku food.gdt uzyskano następującą zależność: MNN2_PQU = 83.42 + 10.21+RSNTP . Pytanie: Jak zinterpretować oszacowane wartości parametrów tego modelu? Temat 2. MNK 30 Przykład 2.2. Estymacja parametrów regresji Na podstawie danych z pliku bweight.gdt oszacowano wpływ wieku matki (mage, w latach) na wagę urodzeniową noworodka (bweight, w gramach). Pytania: Czy oszacowanie dla wyrazu wolnego ma interpretację? O ile zmieni się waga urodzeniowa dziecka, jeżeli wiek matki rok? Model 1: OLS, using observations 1-4642 Dependent variable: bweight Coefficient Std. Error t-ratio p-value const 3074.06 40.7441 75.45 <0.0001 *** mage 10.8519 1.50383 7.216 <0.0001 *** Mean dependent var 3361.680 S.D. dependent var 578.8196 Sum squared resid 1.54e+09 S.E. of regression 575.6608 R-squared 0.011098 Adjusted R-squared 0.010885 F(1, 4640) 52.07250 P-value(F) 6.22e-13 Log-likelihood −36088.03 Akaike criterion 72180.06 Schwarz criterion 72192.95 Hannan-Quinn 72184.59 Estymacja parametrów: regresja wieloraka W modelu regresji wielorakiej występuje Z zmiennych objaśniających ([ dla \ = 1,2, … , Z): = + + ⋯ + ^^ + gdzie parameter [ mierzy jak zmiana wartości [ wpływa na warunkową wartość oczekiwaną , przy założeniu, że pozostałe zmienne objaśniające nie zmieniają się (zasada ceteris paribus) Wzór na estymator MNK wyprowadza się korzystając z notacji macierzowej (zob. Temat 1) _ = `a + b W tym przypadku suma kwadratów reszt wynosi: ::! = (_ − `ac)′(_ − `ac). zaś warunki pierwszego rzędu można zapisać jako: e::! eac = −2` f_ + 2`f`ac = 0 i pozwalają one na uzyskanie wzoru na estymator MNK: Estymator MNK w regresji wielorakiej ac = (`f`) D7`f_ Temat 2. MNK 31 Założenia klasycznego modelu regresji liniowej Założenie A3 vjh(b) = )*w Spełnienie A3 oznacza, że nie występuje problem: heteroskedastyczności wariancji składnika losowego (Temat 6) lub autokorelacji składnika losowego (Temat 7) Założenie A4 ` jest nielosową macierzą o wymiarach R × (Z + 1), której rząd wynosi hjR\ y = (Z + 1) < 0. Spełnienie A4 oznacza, że nie występuje problem współliniowości regresorów (Temat 5) Założenie A5 (opcjonalne) ~0(0, )*i) Założenie A5 nie jest konieczne do zapewnienia odpowiednich własności estymatorów MNK, ale jest potrzebne do przeprowadzania testów (w małych próbach) (Temat 5) Własności estymatora MNK Jeżeli spełnione są założenia A1-A4 możemy ustalić, jakie są własności estymatora MNK. Będziemy szukać odpowiedzi na następujące pytania: 1. Skoro estymator MNK jest zmienną losową, to jaka jest jego wartość oczekiwana, wariancja i ogólnie rozkład prawdopodobieństwa? 2. Jak własności estymatora MNK wyglądają na tle własności innych estymatorów? Zaczynamy od wartości oczekiwanej. ! ac = ! `f` D7`f_ =| ! `f` D`f(`a + b) = a + ! `f` D`fb =|* a WAŻNE: nieobciążoność nie oznacza, że wartość oszacowania na podstawie jednej próby losowej jest taka sama jak prawdziwa wartość parametru! (estymator ≠ oszacowanie). Jeżeli spełnione są założenia A1-A2 to wartość oczekiwana ac jest równa prawdziwej wartości parametru a A zatem estymator MNK jest nieobciążony Temat 2. MNK 34 Własności estymatora MNK Nieobciążoność estymatora oznacza, że jeżeli powtórzymy estymację z wykorzystaniem różnych obserwacji, to „średnio” oszacowania będą kształtowały blisko prawdziwej wartości parametru. W celu ilustracji, załóżmy, że wylosowaliśmy z populacji 10 prób losowych obserwacji. Dla każdej próby estymujemy wartość parametru . Wiemy, że prawdziwa wartość to = 5. Nieobciążoność możemy przedstawić następująco: = 5 Próba 1 Próba 2 Próba 3 ... Próba 10 } = 6 } = 4 } = 6,5 } = 4,5 +1 − 1 + 1,5 − 1,5 + ⋯ = 0 Własności estymatora MNK: wariancja A jaka jest wariancja estymatora MNK? ~Ac = vjh ac = ! ac − ! ac ac − ! ac ′ = | )*(`f`)D Zauważ, że wykorzystaliśmy wzór z poprzednich slajdów: ac − ! ac = `f` D`fb Znamy zatem pełny rozkład dla estymatora MNK (gdy spełnione są A1-A5): ac ∼ 0(a, ~Ac ) Wariancje poszczególnych [4 to elementy na głównej przekątnej macierzy ~Ac . Reguły: 1. Im większa wariancja składnika losowego )*, tym większy wpływ części stochastycznej modelu ekonometrycznego, co jest odzwierciedlone w większej wariancji estymatora MNK 2. Im większa próba 0, tym mniejsza wariancja estymatora MNK [wpływ przez (`f`)D]. Temat 2. MNK 35 Własności estymatorów MNK - wariancja Załóżmy, że mamy do wyboru dwa nieobciążone estymatory } oraz Szukamy wtedy tego, który ma mniejszą wariancję, czyli jest efektywniejszy = 5 Próba 1 Próba 2 Próba 3 ... Próba 10 } = 6 } = 4 } = 6,5 } = 4,5 = 3,5 = 7,5 = 3 = 7 Twierdzenie Gaussa - Markova Jeżeli spełnione są założenia A1-A4, to estymator MNK ma najmniejszą wariancję wśród wszystkich liniowych, nieobciążonych estymatorów (jest najefektywniejszy) Mówimy wtedy, że jest Best Linear Unbiased Estimators (BLUE). Zauważ, że: 1. Estymator MNK jest „najlepszy” w porównaniu do innych liniowych, nieobciążonych estymatorów. Twierdzenie nic nie mówi o wszystkich możliwych estymatorach. 2. Estymator MNK jest „najlepszy”, bo ma najmniejszą wariancję. 3. Twierdzenie jest prawdziwe tylko wtedy, gdy spełnione są założenia A1-A4. Jeżeli którekolwiek z nich jest niespełnione, to estymatory MNK nie są BLUE. CIEKAWOSTKA. Jeżeli spełnione jest także założenie A5 to estymator MNK ma taki sam wzór jak estymator Metody Największej Wiarygodności (MNW, ang. Maximum Likelihood). Możemy wtedy wykorzystać metodę dolnej granicy Cramera-Rao, aby udowodnić, że estymator MNW jest BUE- Best Unbiased Estimators, czyli najefektywniejszy wśród wszystkich nieobciążonych estymatorów (nie tylko liniowych). Temat 2. MNK 36 Przykład 2.4 cd. Błędy szacunku parametrów Na podstawie danych z pliku bweight.gdt oszacowano wpływ wieku matki (TjpP, w latach), wieku ojca (MjpP, w latach) oraz pochodzenia matki (Tℎ+rQ = 1 jeżeli matka jest Latynoską, ThjSP = 1 jeżeli matka jest biała) na wagę urodzeniową noworodka (stP+pℎu, w gramach). Przykładowy względny błąd standardowy (ocena precyzji oszacowania): Model 2: OLS, using observations 1-4642 Dependent variable: bweight Coefficient Std. Error t-ratio p-value const 2901.60 42.3930 68.45 <0.0001 *** mage 5.93910 1.80970 3.282 0.0010 *** fage 1.79069 1.08443 1.651 0.0987 * mhisp −34.4813 46.1281 −0.7475 0.4548 mrace 303.374 23.0942 13.14 <0.0001 *** Mean dependent var 3361.680 S.D. dependent var 578.8196 Sum squared resid 1.48e+09 S.E. of regression 564.9135 R-squared 0.048294 Adjusted R-squared 0.047473 F(4, 4637) 58.82549 P-value(F) 1.63e-48 Log-likelihood −35999.05 Akaike criterion 72008.09 Schwarz criterion 72040.31 Hannan-Quinn 72019.42 vAcE = :AcE |o| × 100% = 1,8097|5,9391| × 100% = 30,5% < 50%. Błędy szacunku Oszacowanie przedziałowe Błędy szacunku mogą być również wykorzystane do konstrukcji przedziałów ufności dla parametru, zwanych również oszacowaniem przedziałowym. Jest to przedział w którym, z określonym prawdopodobieństwem, znajduje się prawdziwa wartość parametru. Zauważmy, że: o[ − [ :Ac ~u<D(^
) co oznacza: g o[ − u:Ac ≤ [ ≤ o[ + u:Ac = 1 − Przedział o[ ± u:Ac nazywamy (1 − ) przedziałem ufności dla parametru [. Źródło: Principles of Econometrics, R. Carter Hill, William E. Griffiths and Guay C. Lim, 4th Edition. Temat 2. MNK 39 Przykład 2.4 cd. Oszacowanie przedziałowe Na podstawie danych z pliku bweight.gdt oszacowano wpływ wieku matki (TjpP, w latach), wieku ojca (MjpP, w latach) oraz pochodzenia matki (Tℎ+rQ = 1 jeżeli matka jest Latynoską, ThjSP = 1 jeżeli matka jest biała) na wagę urodzeniową noworodka (stP+pℎu, w gramach). 95% przedział ufności dla to (7.90, 13.8) Pytanie: Jak obliczono ten przedział? Model 1: OLS, using observations 1-4642 Dependent variable: bweight Coefficient Std. Error t-ratio p-value const 3074.06 40.7441 75.45 <0.0001 *** mage 10.8519 1.50383 7.216 <0.0001 *** Mean dependent var 3361.680 S.D. dependent var 578.8196 Sum squared resid 1.54e+09 S.E. of regression 575.6608 R-squared 0.011098 Adjusted R-squared 0.010885 F(1, 4640) 52.07250 P-value(F) 6.22e-13 Log-likelihood −36088.03 Akaike criterion 72180.06 Schwarz criterion 72192.95 Hannan-Quinn 72184.59 Dopasowanie modelu do danych Temat 2. MNK 40 Etapy budowy modelu ekonometrycznego Postawienie hipotezy badawczej Wybór postaci funkcyjnej 1 2 Zebranie danych3 Estymacja4 Weryfikacja5 Zastosowanie6 Etapy weryfikacji modelu 32 Oceny parametrów i ich znaki Istotność parametrów 1 2 Dopasowanie modelu do danych3 Specyfikacja modelu / postać funkcyjna4 Własności składnika losowego5 Stabilność parametrów 6 Temat 2. MNK 41 Zadanie 2.1 Niełatwo jest zrozumieć, że estymator MNK to zmienna losowa, zaś jej realizacja zależy od zbioru danych, z którym pracujemy. Aby to zilustrować, za pomocą pakietu ekonometrycznego: a. Wygeneruj syntetyczne obserwacje z następującego procesu: ~0 5,2 ~0 0,1 = 5 + 0.5 + dla + = 1,2, … , 50. Przyjmij, że liczebność próby wynosi 0 = 50. b. Oszacuj parametry modelu: = + + i zapisz otrzymane wartości oszacowań MNK. Dlaczego 4 ≠ 0.5? c. Czy jesteś w stanie ocenić z jakiego rozkładu jest losowana wartość 4? Zadanie 2.2 Jak zmiana jednostek miary zmiennych wpływa na oszacowania parametrów? Załóżmy, że szacujemy parametru prostego modelu liniowego: = + + Co stanie się z wartościami oszacowań MNK parametrów + oraz z oszacowaniami wariancji składnika losowego, jeżeli: a. Wartości pomnożono przez 10, zaś wartości nie zmieniły się. b. Wartości pomnożono przez 10, zaś wartości nie zmieniły się. Temat 2. MNK 44 Zadanie 2.3 Lorraine Cake jest dyrektorem firmy produkującej ciasteczka. Poprosiła swojego asystenta o zebranie danych dotyczących produktywności pracowników firmy. Zebrano informacje o: produktywności (procentowe odchylenie od średniej), poziomie wykształcenia (zmienna kategoryczna z 7 wartościami, gdzie 1 to najniższy poziom), inteligencji (IQ, punktowe odchylenie od średniej), płci (zmienna zero-jedynkowa, 1 dla kobiet), stanie cywilnym (zmienna zero-jedynkowa, 1 dla zamężnych/żonatych). Lorraine chce wykorzystać dane, aby sprawdzić, czy single są równie produktywni co pracownicy w związkach małżeńskich. W tym celu szacuje parametry modelu: QhN2Su++u = + P2Sju+NR + *i + Tjhh+P2 + . Zadanie 2.3 cd QhN2Su++u = + P2Sju+NR + *i + Tjhh+P2 + Wyniki (na podstawie 2649 obserwacji) to: a. Zinterpretuj oszacowania parametrów (wzrost QhN2Su++u o 0.01 oznacz wzrost o 1%) b. Skoro Lorraine chce głównie mierzyć różnice w produktywności singli i osób w związkach małżeńskich mogłaby oszacować prostszy model: QhN2Su++u = + Tjhh+P2 + . Wyjaśnij dlaczego to może być zły pomysł. c. Lorraine otrzymała * = 0.1401 + J* = 0.1391. Jak możemy zinterpretowac te wartości? Dlaczego są inne? coefficient standard error 4 -0.3281 0.0255 4 0.1080 0.0082 *4 0.0054 0.0011 4 0.0622 0.0177 Temat 2. MNK 45 Zadanie 2.3 cd d. Lorraine dodała do modelu zmienną „płeć”: QhN2Su++u = + P2Sju+NR + *i + Tjhh+P2 + pPR2Ph + . Otrzymała następujące wyniki: Co możemy powiedzieć na temat produktywności kobiet? coefficient standard error 4 -0.2960 0.0255 4 0.1093 0.0081 *4 0.0051 0.0011 4 0.0604 0.0178 4 -0.0690 0.0167 Zadanie 2.3 cd e. Lorraine oszacowała ponownie oryginalny model QhN2Su++u = + P2Sju+NR + *i + Tjhh+P2 + ale tylko dla kobiet i otrzymała: Porównując te wyniki do modelu wyjściowego (tabela po prawej stronie), co możemy powiedzieć o zmiennej Tjhh+P2? A jakiego oszacowania możemy oczekiwać dla mężczyzn? coefficient standard error 4 -0.2859 0.0291 4 0.0813 0.0093 *4 0.0052 0.0012 4 0.0525 0.0195 coefficient standard error 4 -0.3281 0.0255 4 0.1080 0.0082 *4 0.0054 0.0011 4 0.0622 0.0177 Oszacowania dla pełnej próby Temat 2. MNK 46 Zadanie 2.7 Jak edukacja wpływa na zarobki? Plik cps5.gdt zawiera dane o stawce godzinowej, wykształceniu i innych zmiennych zebranych w Current Population Survey (CPS) z 2008 roku. a. Oblicz statystyki opisowe i zbuduj histogramy dla zmiennych ! i ! ¡. Opisz charakterystykę tych danych. b. Oszacuj model liniowy wpływu wykształcenia na zarobki. Zinterpretuj wyniki. c. Oszacuj reszty i zbuduj wykres reszt względem wykształcenia. Czy coś na tym wykresie wygląda niepokojąco? Czy obserwujemy jakiś wzór? Jeżeli spełnione są A1-A4, to czy powinnismy obserwować jakiś wzór w rozkładzie reszt? d. Dodaj zmienne black, exper, female, faminc oraz south jako dodatkowe zmienne objaśniające. Oszacuj parametry tego modelu i zinterpretuj wpływ poszczególnych zmiennych na zarobki. e. Dla każdego oszacowania oblicz względny błąd szacunku i oceń prezycję tych oszacowań. f. Porównaj skorygowany R-kwadrat oraz kryterium AIC między modelami z punktów b. i d. Który model jest lepiej dopasowany do danych? Zadanie 2.8 Dane o nieruchomościach sprzedawanych w Stockton, California zawarte są w pliku stockton5.gdt. Dostępne zmienne to :gi! ($) – cena domu, ¢iv! (hundreds of square feet) - powierzchnia, £! :- liczba sypialni, £¤: – liczba łazienek, ¢!¢¥ = 1, jeżeli powierzchnia działki jest większa niż 0.5 ara, ! – wiek domu i g¥¥¢ = 1, jeżeli jest basen. a. Stwórz histogram dla zmiennej gi!. Co obserwujesz? b. Oszacuj parametry modelu objaśniającego gi! przez pozostałe zmienne. Zinterpretuj oszacowania. c. Zinterpretuj wartość -kwadrat. Jeżeli mielibyśmy dostęp do innych zmiennych, to jakie czynniki (inne niż te wykorzystane w zadaniu) mają wpływ na cenę mieszkań? Jak możemy je zmierzyć? d. Dla każdego regresora, podaj 95% przedział ufności dla parametru. Formalnie zinterpretuj te przedziały. Temat 2. MNK 49 Zadanie 2.9 W pliku TaylorRule.gdt zawarte są dane o poziomie stopy procentowej (IR, w %), inflacji rocznej (INF, %) oraz indeksu aktywności gospodarczej (Y, 100 jeżeli normalny poziom aktywności) dla wybranych krajów OECD. Badania ekonomiczne wskazują, że banki centralne ustalają poziom stopy procentowej w zależności od poziomu inflacji oraz aktywności gospodarczej i = + i0¦ + *§ + a. Wybierz kraj, który będziesz analizował b. Oszacuj parametry modelu dla stopy procentowej c. Dokonaj interpretacji oszacowań parametrów i * d. Podaj 95% przedział ufności dla parametru e. Oblicz i zinterpretuj wartość współczynnika * Temat 2. MNK 50 Temat 3 Istotność zmiennych objaśniaj ↪ acych Marcin Topolewski • Hipoteza statystyczna • Budowa testu statystycznego • B l ↪edy I i II rodzaju • Wartość krytyczna, wartość-p • Test istotności t-Studenta • Uogólniony test Walda istotności modelu 51 Testowanie hipotez Statystyka testowa to wartość obliczona na podstawie obserwacji w próbie, na podstawie której podejmujemy decyzję o ewentualnym odrzuceniu hipotezy zerowej. Co ważne, przy założeniu prawdziwości hipotezy zerowej rozkład statystyki testowej jest znany. Pozwala to na obliczenie prawdopodobieństwa popełnienia błędu odrzucenia prawdziwej hipotezy zerowej. Obszar odrzuceń to obszar wartości nietypowych dla statystyki testowej – przy założeniu prawdziwości hipotezy zerowej, występujących z ustalonym prawdopodobieństwem. Aby określić obszar odrzuceń musimy znać: Statystykę testową, której rozkład jest znany przy założeniu prawdziwości hipotezy zerowej Hipotezę alternatywną Poziom istotności Poziom istotności testu , to prawdopodobieństwo popełnienia błędu I-go rodzaju, to znaczy odrzucenia prawdziwej hipotezy zerowej. Poziom istotności ustala się na odpowiednio niskim poziomie, konkretnie 0,01, 0,05 lub 0,10. Poziom istotności wyznacza obszar odrzuceń. STATYSTYKA TESTOWA OBSZAR ODRZUCEŃ Testowanie hipotez Błędy I-go i II-go rodzaju Stan faktyczny w populacji Decyzja na podstawie próby prawdziwa fałszywa Brak odrzucenia Decyzja prawidłowa (prawdopodobieństwo = 1 - ) Błąd II-go rodzaju Brak odrzucenia gdy jest fałszywa (prawdopodobieństwo = ) Odrzucenie Błąd I-go rodzaju Odrzucenie gdy jest prawdziwa (prawdopodobieństwo = ) Decyzja prawidłowa Określa moc testu (prawdopodobieństwo = 1 - ) Moc testu (1 - ) to prawdopodobieństwo odrzucenia , gdy jest ona fałszywa. Mocy testu zazwyczaj nie możemy wyznaczyć analitycznie, jedynie za pomocą symulacji. Temat 3. Istotność zmiennych 54 Testowanie hipotez W teście statystycznym są tylko dwie możliwe decyzje: Odrzucić hipotezę zerową Nie odrzucać hipotezy zerowej Jeżeli statystyka testowa przyjmuje wartość z obszaru odrzuceń, jest mało prawdopodobne, że hipoteza zerowa jest prawdziwa, a zatem należy ją odrzucić, w przeciwnym przypadku nie odrzucamy . Ostatecznie należy wyjaśnić, jakie znaczenie ma wynik testu w kontekście badanego problemu i jaka jest jego interpretacja (np. ekonomiczna). WAŻNE: brak podstaw do odrzucenia hipotezy zerowej nie oznacza, że jest ona prawdziwa PROCEDURA STATYSTYCZNEGO TESTOWANIA HIPOTEZ 1. Określ hipotezę zerową i alternatywną. 2. Ustal statystykę testową i jej rozkład (w przypadku prawdziwości hipotezy zerowej). 3. Wybierz poziom istotności i ustal obszar odrzuceń. 4. Oblicz wartość statystyki testowej na podstawie próby. 5. Podejmij decyzję odnośnie hipotezy zerowej. DECYZJA (WNIOSEK) Wartość-p (p-Value) W praktyce decyzje w teście statystycznym podejmuje się zwykle na podstawie wartości-, czyli tzw. empirycznego poziomu istotności. Wartość-p to graniczny poziom istotności przy którym odrzucamy hipotezę zerową (jeżeli ≤wartość-p to pozostajemy przy ). Inaczej mówiąc wartość-p to prawdopodobieństwo popełnienia błędu I-go rodzaju przy odrzuceniu . Zatem należy odrzucić tylko, jeśli wartość-p jest odpowiednio niska (np. poniżej = 0,05). Hipotezę zerową należy odrzucić tylko, jeśli wartość-p jest równa lub niższa od przyjętego poziomu istotności , czyli: jeżeli wartość-p ≤ ⇒ należy odrzucić . jeżeli wartość-p > ⇒ nie ma podstaw do odrzucenia . Oznacza to, że odrzucamy hipotezę zerową, tylko gdy prawdopodobieństwo popełnienia błędu I-go rodzaju jest mniejsze niż . REGUŁA WARTOŚCI-p: Temat 3. Istotność zmiennych 55 Test istotności pojedynczej zmiennej objaśniającej W modelu regresji weryfikujemy istotność wpływu poszczególnych regresorów na zmienną zależną poprzez weryfikacje hipotezy, czy parametr jest statystycznie różny od zera. W tym celu używamy testu t-studenta. Hipoteza zerowa : = 0 (wpływ zmiennej x jest nieistotny statystycznie) Hipoteza alternatywna : ≠ 0 (wpływ zmiennej x jest istotny statystycznie) Statystyka testowa = () ~(!"#") Wartość krytyczna $ = ("% &⁄ ,!"#") Decyzja odrzucić jeśli ≥ $ (w przeciwnym przypadku, nie odrzucać ) lub odrzucić jeśli ≤ α (w przeciwnym przypadku, nie odrzucać ) TEST t-studenta Test istotności pojedynczej zmiennej objaśniającej Reguły decyzyjne można zilustrować graficznie (wartości krytyczne dla modelu ze stałą i jedną zmienną objaśniającą) Źródło: Principles of Econometrics, R. Carter Hill, William E. Griffiths and Guay C. Lim, 4th Edition. Interpretacja graficzna testu t-studenta Temat 3. Istotność zmiennych 56 Testowanie hipotez łącznych Źródło: Principles of Econometrics, R. Carter Hill, William E. Griffiths and Guay C. Lim, 4th Edition. Interpretacja graficzna testu-F Przykład 3.2: Testowanie hipotez łącznych Używając danych andy.gdt zbudowano model regresji liniowej wyjaśniający jak miesięczna wartość sprzedaży w Big Andy’s Burger Barn* zależy od cen, wydatków na reklamę i kwadratu wydatków na reklamę. Oceń łączny wpływ wydatków na reklamę na wartość sprzedaży. Model bez restrykcji współczynnik błąd standardowy t-Studenta wartość p ---------------------------------------------------------------- const 109,719 6,79905 16,14 1,87e-025 *** price −7,64000 1,04594 −7,304 3,24e-010 *** advert 12,1512 3,55616 3,417 0,0011 *** sq_advert −2,76796 0,940624 −2,943 0,0044 *** Średn.aryt.zm.zależnej 77,37467 Odch.stand.zm.zależnej 6,488537 Suma kwadratów reszt 1532,084 Błąd standardowy reszt 4,645283 Wsp. determ. R-kwadrat 0,508235 Skorygowany R-kwadrat 0,487456 Model z restrykcjami współczynnik błąd standardowy t-Studenta wartość p --------------------------------------------------------------- const 121,900 6,52629 18,68 1,59e-029 *** price −7,82907 1,14286 −6,850 1,97e-09 *** Średn.aryt.zm.zależnej 77,37467 Odch.stand.zm.zależnej 6,488537 Suma kwadratów reszt 1896,391 Błąd standardowy reszt 5,096858 Wsp. determ. R-kwadrat 0,391301 Skorygowany R-kwadrat 0,382963 Temat 3. Istotność zmiennych 59 Przykład 3.2 : Testowanie hipotez łącznych c.d. Statystyka testowa: < = (1124 − 1123)/5 1123/(B − 7 − 1) = (1896.391 − 1532.084)/2 1532.084/(75 − 4) = 8.44136 Wartość krytyczna: <$ = <(.LM,&,N) = 3.12576 Decyzja: ponieważ < > <$ odrzucamy hipotezę zerową. Przynajmniej jedna ze zmiennych advert, sq_advert jest istotna statystycznie. Wydatki na reklamę mają istotny wpływ na wartość sprzedaży. Hipotezy testowe: : & = O = 0 (zmienne advert i sq_advert są nieistotne statystycznie) : & ≠ 0 PQ O ≠ 0 (przynajmniej jedna z tych zmiennych jest istotna statystycznie) Test-F Pytanie. Czy wydatki na reklamę istotnie wpływają na sprzedaż? Przykład 3.2: Testowanie hipotez łącznych c.d. W Gretl: Zbadaj łączną istotność wydatków na reklamę testem „pominiętych zmiennych” w modelu bez restrykcji: ->Testy->Test pominiętych zmiennych 1. Sprawdź statystykę testową i porównaj z poprzednim przykładem 2. Sprawdź wartość-p 3. Podejmij decyzje na podstawie wartości-p Test for omission of variables - Null hypothesis: parameters are zero for the variables advert sq_advert Test statistic: F(2, 71) = 8.44136 with p-value = P(F(2, 71) > 8.44136) = 0.000514159 Gretl: Test pominiętych/dodanych zmiennych Pytanie. Czy wydatki na reklamę istotnie wpływają na sprzedaż? Temat 3. Istotność zmiennych 60 Przykład 3.2: Testowanie hipotez łącznych c.d. W Gretl: Zbadaj łączną istotność wydatków na reklamę testem „dodanych zmiennych” dla modelu z restrykcjami: ->Testy->Test dodanych zmiennych 1. Sprawdź statystykę testową i porównaj z poprzednim przykładem 2. Sprawdź wartość-p 3. Podejmij decyzje na podstawie wartości-p Test for addition of variables - Null hypothesis: parameters are zero for the variables advert sq_advert Test statistic: F(2, 71) = 8.44136 with p-value = P(F(2, 71) > 8.44136) = 0.000514159 Gretl: Test pominiętych/dodanych zmiennych Pytanie. Czy wydatki na reklamę istotnie wpływają na sprzedaż? Testowanie istotności modelu Za pomocą testu-F można również badać istotność całego modelu regresji. Ta wersja testu nosi nazwę uogólnionego testu Walda i może być interpretowana jako test istotności współczynnika determinacji R&. Hipoteza zerowa : = ⋯ = # = 0 (wszystkie zmienne w modelu są nieistotne) Hipoteza alternatywna : ≠ 0 ∨ … ∨ #≠ 0 (co najmniej jedna zmienna w modelu jest istotna) Statystyka testowa < = (=>"=?)/# =?/(!"#") ~<(#,!"#") (alternatywnie < = 4T/# ("4T)/(!"#") ~< #,!"#" ) Wartość krytyczna <$ = <("%,#,!"#") Decyzja odrzucić jeśli < ≥ <$ (w przeciwnym przypadku, nie odrzucać ) lub odrzucić jeśli ≤ α (w przeciwnym przypadku, nie odrzucać ) Uogólniony test Walda Temat 3. Istotność zmiennych 61 Zadanie 3.3 Plik cps5.gdt zawiera dane o stawce godzinowej, wykształceniu i innych zmiennych zebranych w Current Population Survey (CPS) z 2008 roku. a. Oszacuj parametry równania dochodów hij2+ = + 2klm+ + &2ne2R+ + /+ b. Zbadaj istotność modelu oraz każdej ze zmiennych osobno c. Czy na podstawie danych możemy odrzucić hipotezę, że z każdy rokiem wykształcenia prowadzi do wzrostu stawki godzinowej o 2.5USD? d. Rozważ wprowadzenie do modelu kwadratów zmiennych 2klm i 2ne2R hij2+ = + 2klm+ + &2ne2R+ + O2klm+ & + o2ne2R+ & + /+ oraz zbadaj łączną istotność wykształcenia oraz doświadczenia. e. Czy położenie geograficzne jest istotnym czynnikiem wyjaśniającym płace? (jakich zmiennych należy użyć?) Zadanie 3.4 Dane o nieruchomościach sprzedawanych w Stockton, California zawarte są w pliku stockton5.gdt. Dostępne zmienne to 1eRpm2 ($) – cena domu, qp_iR2i (hundreds of square feet) - powierzchnia, f2k1- liczba sypialni, fir1 – liczba łazienek, qj2qsr = 1, jeżeli powierzchnia działki jest większa niż 0.5 ara, ij2 – wiek domu i essq = 1, jeżeli jest basen. a. Zaproponuj i oszacuj parametry modelu objaśniającego ceny nieruchomości b. Zbadaj istotność modelu i istotność każdej zmiennej osobno c. Zweryfikuj hipotezę, że cena jednostki powierzchni (100ft2) wynosi 10000USD d. Porównaj dopasowanie pełnego modelu z modelem z jedną zmienną objaśniającą 1eRpm2+ = + qp_iR2i + /[ Temat 3. Istotność zmiennych 64 Zadanie 3.5 W pliku TaylorRule.gdt zawarte są dane o poziomie stopy procentowej (IR, w %), inflacji rocznej (INF, %) oraz indeksu aktywności gospodarczej (Y, 100 jeżeli normalny poziom aktywności) dla wybranych krajów OECD. Badania ekonomiczne wskazują, że banki centralne ustalają poziom stopy procentowej w zależności od poziomu inflacji oraz aktywności gospodarczej a. Wybierz kraj, który będziesz analizował b. Oszacuj parametry następującego modelu pR[ = + pB<[ + &t[ + /[ c. Oceń, które zmienne są statystycznie istotne. d. Czy cały model jest statystycznie istotny? e. Dokonaj weryfikacji hipotezy : = 1,5 f. Dokonaj weryfikacji hipotezy : = 1,5 ∧ & = 0,5? Zadanie 3.6 W pliku PhillipsCurve.gdt zawarte są dane o inflacji rocznej (pB<, %) oraz stopy bezrobocia (l, %) dla wybranych krajów UE. Teoria ekonomii wskazuje na ujemną zależność między obydwoma zmiennymi. a. Wybierz kraj, który będziesz analizował b. Oszacuj parametry następującego modelu pB<[ = + l[ + /[ c. Oceń istotność zmiennej l[. d. Rozszerz specyfikacje modelu o zmienną opisującą inflację w Niemczech: pB<[ = + l[ + &pB<[ v=/[ oraz porównaj dopasowanie obydwu modeli do danych. e. Dla rozszerzonego modelu dokonaj weryfikacji hipotezy : = 0 ∧ & = 1? Temat 3. Istotność zmiennych 65 Temat 3. Istotność zmiennych 66 Błąd specyfikacji Przyczyny złej specyfikacji modelu: pominięcie istotnej zmiennej objaśniającej (zbyt uboga specyfikacja) włączenie nieistotnej zmiennej objaśniającej (zbyt obszerna specyfikacja) zła postać funkcyjna modelu błąd pomiaru zmiennych Skutki błędu specyfikacji: nietrafne prognozy (szerzej w Temat 10) obciążenie estymatora parametrów (szerzej w Temat 12-14) Jak wykryć błąd specyfikacji: Test RESET, tj. test Ramsey'a Test pominiętej zmiennej (ang. omitted variable) Analiza wykresów zależności między zmiennymi Modelowanie danych wymaga wydobycia informacji z szumu Model ekonometryczny działa jak filtr. To, co pozostało po przefiltrowaniu danych, powinno być czysto losowe: ∼ (0, ) Wszelkie nielosowe wzorce dla reszt modelu wskazują na błąd specyfikacji. Zatem: spójrz na reszty modelu. Błąd specyfikacji Stała średnia, stała wariancja, brak zmiany strukturalnej Temat 4. Specyfikacja modelu 69 Błąd specyfikacji serie dodatnich i ujemnych reszt rosnąca zmienność (wariancja) zmiana średniej obserwacje nietypowe: grube ogony Nieliniowości Rodzaje nieliniowości: "krzywoliniowość" (pochodna względem nie jest stałą) asymetria reakcji na wzrosty / spadki zmiany strukturalne w czasie między klasami obiektów Metody uwzględnienia nieliniowości w modelu ekonometrycznym: przekształcanie zmiennych w ramach regresji liniowej (potęgi, logarytmy, odwrotności) wprowadzenie zmiennych binarnych lub interakcyjnych modele przełącznikowe (switching models) modele progowe (threshold models) regresje nieparametryczne inne Temat 4. Specyfikacja modelu 70 Nieliniowości Teoria często wskazuje na możliwe odstępstwa od liniowości w ekonomii, np .: malejąca krańcowa skłonność do konsumpcji wpływ dodatkowego dochodu na konsumpcję spada wraz z dochodem Krzywa Laffera "zgarbiona" zależność między stawkami podatkowymi a dochodami budżetu Metoda „rakiet i piór” przy ustalaniu ceny ceny reagują szybciej („jak rakiety”) na wzrost kosztów niż („jak pióra”) na ich spadek „Krzywa uśmiechu” w globalnych łańcuchach wartości dodanej (global value chains) dwa końce łańcucha - badania i rozwój oraz marketing – dają większą marżę niż środkowa część łańcucha - produkcja Nieliniowości Temat 4. Specyfikacja modelu 71 Modele wielomianowe Zależność kwadratowa: = + + + ./0(/'( = = + 2 = 2() Wielomiany wyższego rzędu: = + + + ⋯ + 44 + Zależność sześcienna: = + + + && + ./0(/'( = = + 2 + 3& = 2() Przykład 4.1. Modele wielomianowe Na podstawie danych z pliku cps5.gdt oszacowano parametry modelu objaśniającego stawkę godzinową (678!, USD), przez wykształcenie (!9:;,lata)oraz wiek (78!,lata). Wyniki regresji to: Model: Estymacja KMNK, wykorzystane obserwacje 1-9799 Zmienna zależna (Y): wage współczynnik błąd std t-Studenta wartość p --------------------------------------------------------------- const −35,022 1,658 −21,12 7,03e-097 *** educ 2,342 0,052 44,62 0,0000 *** age 1,038 0,073 14,15 5,23e-045 *** sq_age −0,010 0,000 −11,65 3,56e-031 *** Średn.aryt.zm.zależnej 23,46008 Odch.stand.zm.zależnej 16,07305 Suma kwadratów reszt 2006839 Błąd standardowy reszt 14,31377 Wsp. determ. R-kwadrat 0,207172 Skorygowany R-kwadrat 0,206929 Pytania: 1. jaki jest wpływ wieku na wynagrodzenie dla osoby w wieku 50 lat? 2. Dla jakiego wieku płace są najwyższe? 3. Jak najlepiej zmierzyć związek między płacą a wiekiem? Temat 4. Specyfikacja modelu 74 Logarytmy Dodatnie argumenty: ln <, < > 0. Iloczyn: ln <> = ln < + ln > Iloraz: ln </> = ln < − ln > Potęga: ln <@ = A × ln < Funkcja wykładnicza: ln !' = × ln ! = and !BC ' = Changes in logariths are proxy for percentage changes: IEFGHIHGFJKLJ M NE O: procentowa zmiana . Dlaczego? ln = 1 → ln = → Δ ln ≈ ∆ A zatem dla małych zmian: ∆ ln ≈ ∆ Właściwości funkcji logarytmicznych Zmiany l garytmów Logarytmy często stosuje się w modelowaniu : płac dochodu cen sprzedaży wydatki tj., zmiennych, których wartości są: dodatnie dodatnio skośne (z długim ogonem po prawej) Po transformacji logarytmicznej takie zmienne mają rozkład normalny Logarytmy Temat 4. Specyfikacja modelu 75 Logarytmy Specyfikacja: = * + + Postać wyjściowa: = * + + Efekt krańcowy: ./0(/'( = Elastyczność: /0(/'( = × / Interpretacja : ∆ = 1 → ∆ = Model liniowy Model Log-liniowy (log-lin) Specyfikacja: ln = * + + Postać wyjściowa: = !d$"'($e( Efekt krańcowy: ./0(/'( = × Elastyczność: /0(/'( = × Interpretacja : ∆ = 1 → ∆ = × → f0(0( = × 100% Logarytmy Specyfikacja: = * + ln + Postać wyjściowa: brak Efekt krańcowy: ./0(/'( = / Elastyczność: /0(/'( = / Interpretacja : Δ ln ≈ ∆'('( = 0.01 = 1% → ∆ = /100 Model liniowo-logarytmiczny (lin-log) Model log-log Specyfikacja: ln = * + ln + Postać wyjściowa: = !d$" BC '($e( = !d × "× !e( Efekt krańcowy: ./0(/'( = × / Elastyczność: /0(/'( = Interpretacja : f'('( = 1% → f0(0( = % Temat 4. Specyfikacja modelu 76 Zmienna binarna / zero-jedynkowa Rozważmy model dla płac: 678! = + { + !9:; + = v 1 dla mężczyzn 0 dla kobiet { mierzy różnicę między średnim wynagrodzeniem mężczyzn i kobiet, tj. opisuje stopień dyskryminacji na rynku pracy ze względu na płeć /(678!) = + { + !9:; dla mężczyzn + !9:; dla kobiet Możemy zatem sprawdzić, czy istnieją znaczące różnice w średniej płacy między mężczyznami i kobietami, których nie można wyjaśnić różnicami w poziomie wykształcenia +: { = 0 Zmienna binarna / zero-jedynkowa Zdefiniujmy = 1 − = v0 dla mężczyzn1 dla kobiet oraz oszacujmy: 678! = + { + !9:; + uzyskamy: {′ = −{. Dlaczego? Wytłumacz. Czy możemy oszacować? i. 678! = + { + {′ + * !9:; + ii. 678! = { + {′ + * !9:; + Jakich oszacowań oczekujesz? Zauważ, że + = 1 (szerzej o współliniowości w Temat 5) Temat 4. Specyfikacja modelu 79 Przykład 4.4. Zmienna binarna / zero-jedynkowa Na podstawie danych z pliku cps5.gdt oszacowano parametry modelu wyjaśniającego stawki godzinowe (678!, USD), przez wykształcenie (!9:;,lata) oraz płeć (2!
7h!/
7h!). Wyniki regresji są następujące: Model A: Zmienna zależna (Y): wage współczynnik błąd standardowy t-Studenta wartość p --------------------------------------------------------------- const −9,99992 0,769702 −12,99 2,81e-038 *** educ 2,48242 0,0531762 46,68 0,0000 *** female −4,07411 0,295410 −13,79 7,21e-043 *** Model B: Zmienna zależna (Y): wage współczynnik błąd standardowy t-Studenta wartość p --------------------------------------------------------------- const −14,0740 0,800559 −17,58 3,86e-068 *** educ 2,48242 0,0531762 46,68 0,0000 *** male 4,07411 0,295410 13,79 7,21e-043 *** Pytanie: jaki jest związek między parametrami modeli A i B? Zmienne interakcyjne Skomplikujmy model i wprowadźmy zmienną interakcyjną: ∗ = × = v dla x ∈ u0 dla x ∉ u Nowa postać modelu: = + + { + l( × ) + Wartości dopasowane: /() = v + if x ∈ u + if x ∉ u gdzie: = + { : przesunięcie stałej = + l : przesunięcie nachylenia Zmienne interakcyjne służą do modyfikowania parametru nachylenia, gdy zakładamy, że charakter zależności między zmiennymi różni się między podpróbkami. Temat 4. Specyfikacja modelu 80 Zmienne interakcyjne Rozważmy model dla płac: 678! = + !9:; + { + l( × !9:;) + gdzie = v1 dla mężczyzn0 dla kobiet Parametr to różnica w średnich zwrotach z edukacji między mężczyznami i kobietami: /(678!) = v + { + ( + l)!9:; dla mężczyzn + !9:; dla kobiet 678! !9:; = v + l dla mężczyzn dla kobiet Przykład 4.5. Zmienne interakcyjne Na podstawie danych z pliku cps5.gdt oszacowano parametry modelu wyjaśniającego stawki godzinowe (678!, USD) przez wykształcenie (!9:;, lata) oraz płeć (2!
7h!). Wyniki regresji są następujące: Model: Zmienna zależna (Y): wage współczynnik błąd standardowy t-Studenta wartość p ------------------------------------------------------------------ const −9,50978 0,98150 −9,689 4,22e-022 *** educ 2,44739 0,06871 35,62 2,20e-261 *** female −5,32158 1,57788 −3,373 0,0007 *** female_educ 0,08732 0,10849 0,8048 0,4209 Pytanie: jak płeć wpływa na zależność między płacą i wykształceniem? Temat 4. Specyfikacja modelu 81 Zadanie 4.3 Oszacowano model, w którym wyniki egzaminu maturalnego z matematyki (SCORE) są wyjaśnione przez: FATHER_EDU: wykształcenie ojca (1 – wyższe, 0 - inne) LN_INCOME: logarytm dochodu per capita gospodarstwa domowego GENDER: płeć (1 – mężczyzna, 0 - kobieta) PRIVATE_SCHOOL: rodzaj szkoły (1 – prywatna, 0 -publiczna) PRIVATE_GENDER: iloczyn GENDER i PRIVATE_SCHOOL TUTORING: liczba godzin korepetycji przed egzaminem -------------------------------------------------------------------------------- score | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------------+---------------------------------------------------------------- father_edu | 130.414 35.037 3.72 0.001 59.654 201.173 ln_income | 125.156 34.027 3.68 0.001 56.436 193.877 gender | -112.086 43.445 -2.58 0.014 -199.826 -24.346 private_school | -40.075 48.370 -0.83 0.412 -137.762 57.611 private_gender | 292.293 83.103 3.52 0.001 124.462 460.125 tutoring | 39.137 .599 65.33 0.000 37.927 40.347 tutoring_2 | -.015 .001 -8.39 0.000 -.018 -.011 _cons | 338.794 208.830 1.62 0.112 -82.948 760.536 -------------------------------------------------------------------------------- -------------------------- Gender | Mean | 0 | 2437.777 1 | 2440.632 -------------------------- Zadanie 4.3 cd. a. Zinterpretuj oszacowanie parametru przy FATHER_EDU. b. Zinterpretuj oszacowanie parametru przy LN_INCOME. c. Czy istnieją jakieś różnice w wynikach egzaminu między chłopcami i dziewczętami? d. Na podstawie uzyskanych wyników doradź rodzicom, czy powinni wysłać swoje dziecko do prywatnej szkoły. Czy rekomendacja zależy od płci dziecka? e. Czy rodzice powinni zapewnić dziecku możliwie jak najwięcej godzin korepetycji przed egzaminem? f. Spróbuj naszkicować szacunkową zależność między liczbą godzin korepetycji a wynikiem uzyskanym na egzaminie. Temat 4. Specyfikacja modelu 84 Zadanie 4.4 W pliku utown.gdt znajdują się dane dotyczące cen nieruchomości (x;!, 1000$), ich powierzchni (2,100sq.feet) oraz lokalizacji w pobliżu uniwersytetu (:6 = 1) a. Oszacuj następujące modele i zinterpretuj ich parametry M1: x;! = + 2 + M2: x;! = + 2 + { × :6 + M3: x;! = + 2 + { × :6 + l × (2 × :6) + b. Jaka jest interpretacja parametrów modelu z logarytmami? M4: ln(x;!) = + ln(2) + M5: ln x;! = + ln 2 + { × :6 + c. Czy sensowne jest uwzględnianie zmiennych interakcyjnych w modelu z logarytmami? M6: ln x;! = + ln 2 + { × :6 + l × (2 × :6) + d. Spróbuj włączyć inne zmienne binarne do specyfikacji modelu. Zadanie 4.5 Agencja nieruchomości „Na swoim” wprowadza usługę doradczą, pozwalającą ocenić atrakcyjność ofert sprzedaży. Otrzymałeś zadanie zbudowania modelu wyceny nieruchomości, który pozwoli ustalić, czy oferta jest atrakcyjna, a tym samym pomóc klientom w podjęciu decyzji o zakupie. Baza danych, na podstawie której ma być oszacowany model (housing_market.gdt), zawiera następujące zmienne: cena powierzchnia (w metrach kwadratowych) piętro (0 oznacza parter, 1 - pierwsze piętro itp.) okres budowy (0: przedwojenny; 1: 40s-50s; 2: 60s-80s; 3: 90s; 4: po 2000 r.) budynek położony w centrum miasta (1 - tak, 0 - nie) w budynku jest winda (1 - tak, 0 - nie) a. Zbuduj model regresji liniowej dla cen mieszkań. Jakie wnioski płyną z uzyskanych oszacowań. b. Kierownictwo nie jest zadowolone z twojej pracy: uważa się, że dopasowanie jest zbyt niskie, aby zastosować model w praktyce. Postanawiasz zmienić specyfikację modelu. Obserwując rynek nieruchomości, zauważasz: małe mieszkania wydają się droższe za metr kwadratowy niż mieszkania większe, ludzie nie lubią mieszkać na parterze, mieszkania w centrum miasta wydają się stosunkowo drogie, cena za metr kwadratowy wydaje zależeć od okresu budowy: najtańsze mieszkania są na dużych osiedlach wybudowanych w latach 60. i 80. („wielka płyta”), a najdroższe te z ostatnich lat lub wybudowanych przed wojną Zbuduj model, którego specyfikacja uwzględni twoje spostrzeżenia. c. Czy tym razem kierownictwo będzie zadowolone z pracy? Temat 4. Specyfikacja modelu 85 Zadanie 4.6 Na podstawie pliku wage2.gdt ustal, w jaki sposób płace zależą od wykształcenia, płci i narodowości. Użyj zmiennych interakcyjnych, specyfikacji nieliniowych oraz logarytmicznych. Jaka specyfikacja modelu jest według Ciebie najlepsza? Definicja zmiennych jest następująca: wage wynagrodzenie miesięczne wynagrodzenie w PLN education wykształcenie w latach gender 0 dla mężczyzn, 1 dla kobiet nationality 0 dla Polaków, 1 dla imigrantów Zadanie 4.7 Plik cps5.gdt zawiera dane o stawce godzinowej (678!,USD), wykształceniu (!9:;,lata)oraz wieku (78!,lata). a. Zbuduj model, w którym 678! zależy od dwóch pozostałych dwóch zmiennych. Porównaj specyfikację liniową względem specyfikacji wielomianowej 2 stopnia. Przeprowadź test RESET. b. Powtórz czynności z punktu a. dla modelu, w którym zmienną objaśnianą jest ln (678!) c. Czy zależność między wykształceniem a wynagrodzeniem zależy od zmiennej 2!
7h!? Wprowadź zmienne interakcyjne d. Czy zależność między wykształceniem a wynagrodzeniem zależy od zmiennych 7x7, h7;A, 6ℎx!? Wprowadź zmienne interakcyjne e. Zbuduj model, który twoim zdaniem najlepiej opisuje zróżnicowanie stawek godzinowych. Temat 4. Specyfikacja modelu 86 Etapy weryfikacji modelu 3 Oceny parametrów i ich znaki Istotność parametrów 1 2 Dopasowanie modelu do danych3 Specyfikacja modelu / postać funkcyjna4 Własności składnika losowego5 Stabilność parametrów 6 Przypomnienie: Założenia KMNK Założenia KMNK (przypomnienie z Temat 2) A1. Prawdziwy model jest następujący: = + A2. () = oraz (′) = A3. () = A4. jest nielosową macierzą, której rząd wynosi = ( + 1) < A5. ~(0, ) W Temat 5 skupimy się na i A5. A4 jest niezbędne do uzyskania oszacowań MNK, zaś jego niespełnienie określamy jako współliniowość Założenie A5 o normalności rozkładu składnika losowego , chociaż niepotrzebne dla twierdzenia Gaussa-Markowa, jest niezbędne aby testy miały odpowiednie rozkłady Temat 5. Wspó lliniowość 89 Współliniowość zmiennych objaśniających Co oznacza założenie A4: = + 1? Zilustrujmy to na przykładzie, gdy = 5 i = 2: = 1 1 01 0 1111 011 100 Jeśli jedna z kolumn jest liniową kombinacją innych kolumn (tutaj 1 = !" + !) występuje dokładna współliniowość W konsekwencji: macierz # jest osobliwa, tj. det # = 0 jej odwrotność nie istnieje a zatem nie można policzyć oszacowań: ' = # ("# Przykład 5.1. Dokładna współliniowość Na podstawie danych z pliku cps5.gdt oszacowano parametry modelu wyjaśniającego stawki godzinowe ()*+, USD), przez wykształcenie (+,-.,lata) oraz płeć (/+01+/01+). Wyniki regresji są następujące: Model A: Zmienna zależna (Y): wage współczynnik błąd standardowy t-Studenta wartość p --------------------------------------------------------------- const −9,99992 0,769702 −12,99 2,81e-038 *** educ 2,48242 0,0531762 46,68 0,0000 *** female −4,07411 0,295410 −13,79 7,21e-043 *** Model B: Zmienna zależna (Y): wage współczynnik błąd standardowy t-Studenta wartość p --------------------------------------------------------------- const −14,0740 0,800559 −17,58 3,86e-068 *** educ 2,48242 0,0531762 46,68 0,0000 *** male 4,07411 0,295410 13,79 7,21e-043 *** Pytanie: Dlaczego nie można oszacować parametrów modelu?)*+3 = 45 + 4"+,-.3 + 4/+01+3 + 4601+3 + 73 Temat 5. Wspó lliniowość 90 Sezonowość w modelu ekonometrycznym jest często uwzględniana w modelu ekonometrycznym za pomocą sezonowych zmiennych binarnych. Przykładowo, dla danych kwartalnych: 8"9= :1 dla =1 0 pozostałe , 89= :1 dla =2 0 pozostałe , 869= :1 dla =3 0 pozostałe , 8D9= :1 dla =4 0 pozostałe Należy zauważyć, że wszystkich zmiennych nie możemy wprowadzić do modelu, ponieważ 1 = 8"9 + 89 + 869 + 8D9. Dlatego musimy wybrać tzw. "kwartał odniesienia", np. jeżeli jest to =1 to model jest postaci: G9= 45 + 4"!9 + H89 + H6869 + HD8D9 + 79 Interpretacja HI - różnica między średnim poziomem zmiennej zależnej w =J oraz =1 Podobnie postępujemy dla zmiennych kategorialnych, tj. przyjmujących J różnych wartości (np. województwo, pochodzenie). Zamieniamy je na J zmiennych binarnych i wybieramy obiekt odniesienia, którego nie uwzględniamy w modelu by zapobiec współliniowości. Wspóliniowość a zmienne sezonowe / kategorialne Wykorzystując dane do sprzedaży e-commerce oszacowano parametry modelu wyjaśniającego dynamikę sprzedaży, d_log_sales, przez zmienne kwartalne. Wyniki oszacowań są następujące: Model 1: Estymacja KMNK, wykorzystane obserwacje 2000:1-2018:3 (N = 75) Zmienna zależna (Y): d_l_sales współ. błąd std. t-Stud. wartość p ----------------------------------------------------- const 0,279 0,0109 25,41 2,26e-037 *** q1 −0,448 0,0153 −29,19 2,77e-041 *** q2 −0,243 0,0153 −15,86 4,91e-025 *** q3 −0,246 0,0153 −16,04 2,65e-025 *** Pytania: 1. Jakie jest średnie tempo wzrostu sprzedaży e-commerce w pierwszym kwartale? 2. Jakie jest średnie tempo wzrostu sprzedaży e-commerce w czwartym kwartale? 3. Jakie byłyby parametry modelu bez zmiennej q1 (a ze zmienną q4)? Przykład 5.2. Zmienne sezonowe -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 d _ l_ e c o m n s a Temat 5. Wspó lliniowość 91