





















Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Analiza zależności z wykorzystaniem drzew regresyjnych
Typologia: Publikacje
1 / 29
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Ekonomia nr 45/2016 53
Celem artykułu była identyfikacja zależności między przestępczością a wybranymi charakterystykami powiatów w 2014 roku z wykorzy- staniem drzew regresyjnych. Do wygenerowania drzewa wykorzy- stana została nieobciążona metoda rekurencyjnego podziału. W trak- cie kolejnych podziałów przestrzeni zmiennych istotne okazały się następujące czynniki objaśniające natężenie przestępstw stwierdzo- nych ogółem: wskaźnik urbanizacji, odsetek gospodarstw jednooso- bowych, natężenie przestępstw stwierdzonych w powiatach sąsied- nich, współczynnik rozwodów oraz udzielone noclegi w przeliczeniu na 1000 ludności. Do identyfikacji zależności między wybranymi charakterystykami obszarów a przestępczością wykorzystano rów- nież las losowy zbudowany z wielu drzew regresyjnych. Uzyskane dla lasów losowych rankingi ważności predyktorów ujawniły szcze- gólnie silny związek między przestępczością a urbanizacją.
Słowa kluczowe: determinanty przestępczości, drzewo regresyjne, las losowy, dane przekrojowe Kody JEL: C1, K42, R DOI: 10.17451/eko/45/2016/
Ekonomia. Rynek, gospodarka, społeczeństwo 45(2016), s. 53− DOI: 10.17451/eko/45/2016/ ISBN: 0137- www.ekonomia.wne.uw.edu.pl
Przestępczość jest zjawiskiem, które nie występuje z takim samym nasileniem na całym obszarze Polski. Ponadprzeciętnym natężeniem przestępstw charakte- ryzują się głównie obszary miejskie, a także powiaty zlokalizowane w pobliżu zachodniej granicy. Natężenie przestępstw (współczynnik przestępczości) to licz- ba przestępstw stwierdzonych^1 dla danego roku obliczeniowego, przypadająca na pewną umownie przyjmowaną stałą liczbę ludności zamieszkałej na danym terenie (Bułat et al. 2007, 71). Najczęściej przyjmuje się liczbę przestępstw przy- padającą na 100 tys. lub 10 tys. ludności. W prowadzonych tu analizach natęże- nie przestępstw wyznaczano jako liczbę przestępstw stwierdzonych, przypadającą na 100 tys. ludności. Na mapie (Rycina 1) przedstawiono przestrzenne zróżni- cowanie powiatów pod względem natężenia przestępstw stwierdzonych ogółem w 2014 roku. Obszary zostały podzielone na dwie grupy: grupa 1: obiekty, dla których: x (^) i ≤ grupa 2: obiekty, dla których: x (^) i > gdzie x (^) i oznacza wartość natężenia przestępstw w i – tym powiecie, – prze- ciętna wartość natężenia przestępstw w powiatach w 2014 roku.
Rycina 1. Przestrzenne zróżnicowanie natężenia przestępstw w 2014 roku Źródło: opracowanie własne na podstawie danych GUS.
(^1) Przestępczość stwierdzona to ogół czynów, których charakter jako przestępstw został potwierdzony w wyniku postępowania przygotowawczego (Hołyst 2001, 52).
Kinga Kądziołka
grupa 1 grupa 2
obszarów pozwoliło zredukować autokorelację przestrzenną reszt w porównaniu z modelem, który wykorzystywał tylko zmienne o charakterze społeczno-ekono- micznym jako predyktory^2. Modele drzew regresyjnych były również stosowane do identyfikacji zależno- ści między natężeniem przestępstw a wybranymi czynnikami w Polsce. Kądziołka (2016) do analizy czynników przestępczości na poziomie powiatów województwa śląskiego w 2014 roku wykorzystała drzewo regresyjne z uwzględnioną opóźnioną przestrzenie zmienną objaśnianą. Natomiast w pracy Kądziołki (2015a) porówna- no pod względem współczynnika pseudo-R^2 najlepszy z uzyskanych modeli opóź- nienia przestrzennego z modelem drzewa regresyjnego, w którym wśród zmien- nych objaśniających uwzględniono taki sam (jak w przypadku modeli opóźnienia przestrzennego) początkowy zestaw charakterystyk obszarów oraz współrzędne geograficzne środków ciężkości powiatów i opóźnioną przestrzennie zmienną ob- jaśnianą. Model drzewa regresyjnego charakteryzował się nieco lepszym dopa- sowaniem pod względem współczynnika pseudo-R 2 niż najlepszy z uzyskanych modeli opóźnienia przestrzennego. Oprócz pojedynczego drzewa regresyjnego wykorzystany zostanie również las losowy zbudowany z wielu drzew regresyjnych. Zastosowanie lasu losowego po- zwoli na redukcję skokowego charakteru prognoz natężenia przestępstw uzyski- wanych w przypadku pojedynczego drzewa oraz wygenerowanie rankingu waż- ności predyktorów pod względem ich wpływu na zmienną objaśnianą. W pracach dotyczących identyfikacji czynników wpływających na przestępczość w Polsce (w przeciwieństwie do zagranicznych prac) metoda lasu losowego nie była jesz- cze stosowana. Kolejna część artykułu zawiera przegląd wybranych prac, w których podej- mowane były próby identyfikacji zależności między przestępczością a czynnikami uznawanymi w literaturze za wpływające na przestępczość. W następnej części dokonano charakterystyki wykorzystanych danych i metod. Następnie zaprezento- wano wyniki i wnioski z przeprowadzonych analiz oraz podsumowano rezultaty.
W ramach poszczególnych nurtów kryminologii powstało wiele teorii wyjaśnia- jących istotę, etiologię i uwarunkowania przestępczości. Szczególne znaczenie w wyjaśnianiu przyczyn przestępczości przypisywane jest czynnikom o charak-
(^2) Należy mieć jednak na uwadze, że wpływ na wartość statystyk przestrzennych i istotność autokorelacji przestrzennej mają m.in. sposób zdefiniowania macierzy wag przestrzennych oraz metoda weryfikacji istotności autokorelacji przestrzennej (Kądziołka 2014c).
Kinga Kądziołka
Ekonomia nr 45/2016 57
terze społeczno-ekonomicznym, takim jak: bezrobocie, ubóstwo, zróżnicowanie dochodów, rozwój gospodarczy, wykształcenie, rozbicie rodziny, zmiany składu mieszkańców, zróżnicowanie rasowe, m.in.: Becker (1968), Ehrlich (1973), Gro- ves i Sampson (1989), Besci (1999), Bogacka (2009), Kiersztyn (2008), Szczepa- niec (2012), Florczak (2013), Kądziołka (2015a). Należy jednak mieć na uwadze, że brakuje jednej, „uniwersalnej” teorii, która w pełni tłumaczyłaby zachowania przestępcze, a założenia dotyczące wpływu poszczególnych czynników na prze- stępczość mogą się różnić w ramach poszczególnych teorii. Przykładowo, zgodnie z ekonomiczną teorią przestępczości Beckera (1968), w myśl której przestępstwo jest wynikiem racjonalnej kalkulacji zysków i strat z jego popełnienia, wzrost bez- robocia powinien przyczynić się do wzrostu przestępczości z uwagi na zmniej- szenie kosztów straconych możliwości w przypadku osób bezrobotnych. Z kolei według teorii działań rutynowych Cohena i Felsona (1979) wzrost bezrobocia powinien przyczynić się do spadku przestępczości, gdyż osoby bezrobotne będą więcej czasu przebywać w domach, przez co maleje prawdopodobieństwo stania się ofiarą przestępstwa oraz wzrasta poziom ochrony mienia. Pierwszy z przed- stawionych efektów oddziaływania bezrobocia na przestępczość nazywany jest w literaturze efektem motywacji ( motivation effect ), a drugi efektem możliwości ( opportunity effect ). Zwracana jest uwaga, że oba przedstawione mechanizmy (efekt motywacji i możliwości) mogą działać jednocześnie, znosząc się nawza- jem (Kiersztyn 2008; Meyer i Sridharan 2005). Z powodu występowania obu tych efektów uzyskiwane zależności między przestępczością a pewnymi charakterysty- kami mogą nie mieć stałego, uniwersalnego charakteru. Wpływ sytuacji społeczno-ekonomicznej na przestępczość akcentuje również teoria dezorganizacji społecznej, rozwinięta przez Shawa i McKaya (1942). Opiera się ona na założeniu, że istnienie patologii społecznych zależy nie od właściwo- ści pojedynczych jednostek, ale od właściwości społeczno-kulturowych obszarów, na których te jednostki funkcjonują (Bogacka 2012, 74). Badając przestępczość młodzieży w zdegradowanych dzielnicach Chicago, autorzy ci doszli do wnio- sku, że jest ona pochodną trzech czynników: deprywacji ekonomicznej, częstych zmian składu mieszkańców oraz różnic etnicznych i kulturowych między członka- mi społeczności. Przy czym za podstawową zmienną uznali warunki ekonomicz- ne (Kiersztyn 2008, 64). Groves i Sampson (1989) rozwinęli teorię dezorganizacji społecznej, uwzględniając następujące źródła dezorganizacji: status socjoekono- miczny, mobilność mieszkańców, zróżnicowanie rasowe, rozpad rodziny, urbani- zacja. W literaturze zwraca się uwagę, że osoby o niskim statusie socjoekonomicz- nym wykazują niewielką chęć uczestniczenia w lokalnych inicjatywach (Kiersztyn 2008, 64). Z kolei częste zmiany składu mieszkańców oraz zróżnicowanie etniczne i kulturowe społeczności utrudniają wykształcenie się więzi między nimi. Wśród czynników o charakterze demograficznym, uznawanych w literaturze za wpływające na przestępczość, wskazuje się m.in. płeć i wiek potencjalnego
Ekonomia nr 45/2016 59
są zaawansowane metody statystyczne, ekonometryczne i metody data mining. Analizy prowadzone są z wykorzystaniem różnych typów danych, co pozwala uwzględnić zmiany zjawiska w czasie i w przestrzeni, m.in. Groves i Sampson (1989), Besci (1999), Entorf i Spengler (2000), Gorr, Olligschlaeger i Thompson (2003), Cracolici i Uberti (2008), Han (2009), Falcone i Lombardo (2011), Laurid- sen, Zeren i Ari (2013), Cherain i Dawson (2015). Jak dotąd powstało mało prac dotyczących zagadnienia identyfikacji czynni- ków wpływających na przestępczość w Polsce, w których do badania zależności zastosowano zaawansowane metody statystyczne czy ekonometryczne. W Tabeli 1 przedstawiono wybrane prace, w których autorzy podejmowali próby identyfika- cji zależności między przestępczością a wybranymi charakterystykami obszarów na różnych poziomach agregacji danych, jak dane ogólnopolskie, województwa, podregiony, powiaty oraz w ograniczeniu do konkretnego obszaru kraju. Pewien wyjątek stanowi tu praca Sypion-Dutkowskiej (2014), w której autorka analizo- wała dane „punktowe” dotyczące wybranych rodzajów przestępstw z wykorzysta- niem systemów GIS. W odróżnieniu od pozostałych wymienionych prac w pracy Sypion-Dutkowskiej główna uwaga została skoncentrowana na środowiskowo- -przestrzennych determinantach przestępczości. Autorka badała wpływ sposobów zagospodarowania i użytkowania przestrzeni na natężenie przestępstw „pospoli- tych”^4 w Szczecinie.
(^4) Do tak nazwanej kategorii przestępstw autorka zaliczała następujące czyny: bójki i pobicia, kradzież rzeczy cudzej – inne, kradzież mieszkaniowa, kradzież rozbójnicza, kradzież samochodu, kradzież w placówkach handlowych, kradzież z samochodu, kradzież z włamaniem do mieszkania, kradzież z włamaniem do sklepu, kradzież z włamaniem do samochodu kradzież z włamaniem do innych obiektów, kradzież z włamaniem do piwnicy lub strychu, krótkotrwałe użycie pojazdu, przestępstwo narkotykowe, rozbój, uszkodzenie mienia, wymuszenie rozbójnicze (Sypion- Dutkowska 2014, 16).
Tabela 1. Badania determinant przestępczości w
Polsce na
danych zagregowanych
Autor
Dane/okres
Analizowane kategorie przestępstw
Wykorzystane metody
Bobrowska i Piasecka(2002)
Dane przekrojowe – województwaw latach 1990−
Przestępczość stwierdzona ogółem
Analiza współczynników korelacjiliniowej
Sztaudynger i
Sztaudynger
(2003)
Szeregi czasowe – roczne dane ogól
nopolskie za
okres 1978−
Przestępczość stwierdzona ogółem
Klasyczna metoda najmniejszychkwadratów
Frieske (2007)
Dane przekrojowe – województwa 1998 r.
Przestępczość stwierdzona ogółem,kradzieże
Analiza współczynników korelacji kolejnościowej Spearmana
Kiersztyn (2008)
Województwa (dawne 49 obszarów) –roczne dane przekrojowe i
panelowe
za
okres 1991−
Przestępczość stwierdzona ogółem,przestępczość przeciwko mieniu,przestępczość przeciwko życiui^ zdrowiu
Analiza współczynników korelacji liniowej, klasyczna metoda najmniej- szych kwadratów, ekonometrycznemodele dla danych panelowych
Bogacka (2009)
Dane przekrojowe – województwa,dane z
lat 2002−
Przestępczość stwierdzona ogółem
Analiza współczynników korelacji liniowej, klasyczna metoda najmniej- szych kwadratów
Lauridsen (2010)
Dane panelowe – podregiony w
latach
2003−
Przestępczość stwierdzona ogółem
Klasyczny model dla danych panelo- wych, przestrzenne modele panelowe
Mordwa (2011)
Miasto Łódź – dane przekrojowe wgsektorów policyjnych, dane średnio
roczne za
lata 2006−
Kradzieże
Klasyczna metoda najmniejszychkwadratów, modele ekonometrii przestrzennej
Bieniek, Cichocki i
Szcze
paniec (2012)
Dane przekrojowe – powiaty 2008 r.
Przestępczość stwierdzona ogółem
Klasyczna metoda najmniejszychkwadratów
Bogacka (2012)
Powiaty województw graniczącychz^ Niemcami – dane przekrojowe (śred
nioroczne) z
lat 2006−
Przestępczość stwierdzona ogółem
Klasyczna metoda najmniejszychkwadratów
Florczak (2013)
Roczne dane ogólnopolskie za
okres
1970−
Przestępstwa przeciwko mieniu,przestępstwa z
użyciem przemocy,
przestępstwa z
art. 178 kk, inne
Równania regresji, analiza mnożnikowa
Kądziołka (2013)
Dane przekrojowe – powiaty w
2010 r.
Przestępczość stwierdzona ogółem
Analiza współczynników korelacjiliniowej
Kinga Kądziołka
Wyniki prowadzonych w Polsce analiz zależności między wybranymi charak- terystykami obszarów a przestępczością nie dają jednoznacznych odpowiedzi na pytanie dotyczące kierunku zależności między analizowanymi zmiennymi. Wpływ na uzyskiwane wyniki ma m.in. poziom agregacji oraz typ danych. Przykładowo, dla danych przekrojowych na poziomie województw w latach 2005−2012 wy- znaczone współczynniki korelacji liniowej między stopą ubóstwa a natężeniem przestępstw stwierdzonych ogółem były ujemne. Natomiast w przypadku da- nych panelowych dotyczących województw w latach 2005−2012 współczynnik przy zmiennej określającej stopę ubóstwa był dodatni i istotnie różnił się od zera na przyjętym poziomie istotności 5%, co sugerowało, że wraz ze wzrostem stopy ubóstwa może wzrastać natężenie przestępstw. Natomiast ujemne współczynni- ki korelacji liniowej między stopą ubóstwa a natężeniem przestępstw (uzyskane w przypadku danych przekrojowych) mogą wynikać z tego, że na obszarach, gdzie więcej osób żyje w biedzie, występuje mniejsza liczba potencjalnych obiektów ataku (np. wartościowych rzeczy do kradzieży) sprawcy niż na obszarach charak- teryzujących się mniejszym zagrożeniem ubóstwem (Kądziołka 2015d). Analizy prowadzone na danych przekrojowych z wykorzystaniem regresji wielokrotnej wskazywały, że wybrane (arbitralnie przez autorów) zestawy zmien- nych objaśniających w większym stopniu wyjaśniały zmienność natężenia stwier- dzonych przestępstw przeciwko mieniu niż innych analizowanych kategorii prze- stępstw (Kiersztyn 2008; Kądziołka 2014a). Z uwagi na to, że dane przekrojowe dotyczące obszarów to dane przestrzenne, istotnym elementem jest ocena auto- korelacji przestrzennej reszt modeli uzyskanych klasyczną metodą najmniejszych kwadratów. W przypadku modeli objaśniających natężenie wybranych kategorii przestępstw, zaprezentowanych w pracach Bogackiej (2012) i Kądziołki (2014a; 2015b; 2015c), autokorelacja przestrzenna reszt nie występowała i nie było po- trzeby stosowania modeli ekonometrii przestrzennej (z wyjątkiem modelu obja- śniającego natężenie przestępstw przeciwko rodzinie i opiece w pracy Kądziołki 2014a). W pracach Bogackiej (2009), Bieńka, Cichockiego i Szczepaniec (2012), Kądziołki (2014b) aspekt ten został pominięty. W pracy Kądziołki (2015a) do iden- tyfikacji zależności między natężeniem przestępstw przeciwko mieniu a wybrany- mi charakterystykami powiatów w 2012 roku wykorzystano modele ekonometrii przestrzennej. Opóźniona przestrzennie zmienna zależna, będąca średnią ważoną (zgodnie z zadeklarowaną macierzą wag) natężenia stwierdzonych przestępstw przeciwko mieniu w lokalizacjach sąsiednich, okazała się istotnym czynnikiem wpływającym na natężenie przestępstw przeciwko mieniu w danej lokalizacji. Jednym z problemów pojawiających się podczas prób identyfikacji zależności między natężeniem przestępstw a wybranymi czynnikami jest dobór zmiennych objaśniających do modelu. Brakuje wskazań literaturowych, który zestaw zmien- nych objaśniających jest najlepszy dla danej kategorii przestępstw. W prowadzo- nych w Polsce badaniach wpływu wybranych czynników na przestępczość zbiory
Kinga Kądziołka
Ekonomia nr 45/2016 63
zmiennych objaśniających były zazwyczaj dobierane w sposób arbitralny. Nie- kiedy wybrane zmienne były silnie skorelowane ze sobą, co mogło mieć wpływ na uzyskiwane oszacowania parametrów modeli ekonometrycznych. W pracy Ką- dziołki (2015a) analizowano dopasowanie do danych empirycznych modeli opóź- nienia przestrzennego w przypadku stosowania różnych metod redukcji począt- kowego zestawu zmiennych objaśniających natężenie stwierdzonych przestępstw przeciwko mieniu w powiatach w 2012 roku. Porównano wyniki uzyskane w przy- padku sekwencyjnej eliminacji kolejnych nieistotnych zmiennych objaśniających, redukcji liczby zmiennych z wykorzystaniem metody Warda oraz metody głów- nych składowych. Najlepszym dopasowaniem do danych empirycznych charak- teryzował się model, w którym dokonano sekwencyjnej eliminacji kolejnych nie- istotnych statystycznie zmiennych objaśniających. Nieco gorszym dopasowaniem charakteryzował się model, w którym redukcji początkowego zestawu zmiennych dokonano z wykorzystaniem metody Warda. Jednakże w przypadku redukcji zbio- ru zmiennych z wykorzystaniem hierarchicznych metod grupowania uzyskany wynik zależy m.in. od zastosowanej metody podziału dendrogramu, sposobu zde- finiowania miary niepodobieństwa zmiennych czy sposobu wyboru reprezentan- tów uzyskanych grup zmiennych. Z kolei w przypadku wykorzystywania metody głównych składowych do redukcji liczby zmiennych objaśniających istnieją różne metody wyboru liczby składowych (np. kryterium Kaisera, kryterium osypiska Cattella, kryterium wyjaśnionej wariancji), co z kolei (przy wykorzystaniu skła- dowych głównych jako zmiennych objaśniających w modelu) ma wpływ na uzy- skiwane rezultaty. W przytaczanych w tym artykule pracach (z wyjątkiem pracy Sypion-Dut- kowskiej 2014, która rozważała przestępczość rejestrowaną^5 ) analizowana była przestępczość stwierdzona, nie zaś rzeczywista przestępczość, której rozmiar nie jest znany. Wpływ na rozmiar przestępczości stwierdzonej, ujętej w statystykach policyjnych, mają m.in. zmiany prawa. Obowiązujący Kodeks karny podlega cią- głym modyfikacjom, np. poprzez podnoszenie granicznej kwoty, poniżej której kradzież traktowana jest jak wykroczenie, a nie przestępstwo, czy kwalifikowanie jako przestępstw czynów, które dotychczas nimi nie były (np. stalking), i dlate- go do porównań nasilenia przestępczości w różnych okresach należy podchodzić ostrożnie, gdyż nie zawsze mniejszej liczbie przestępstw ujętych w statystykach policyjnych odpowiada rzeczywisty spadek przestępczości.
(^5) Przestępczość rejestrowana to liczba zdarzeń rejestrowanych i wstępnie kwalifikowanych jako przestępstwa przez organy ścigania (Sypion-Dutkowska 2014, 15).
Ekonomia nr 45/2016 65
uwzględniono również poziom wykształcenia, gdyż osoby podejrzane o popełnie- nie przestępstwa (a także skazani za przestępstwa) często legitymują się niskim wykształceniem oraz brakiem kwalifikacji zawodowych. W Polsce większość ska- zanych, zwłaszcza na kary pozbawienia wolności, ma wykształcenie podstawowe lub zawodowe, które uzyskuje często dzięki pobytowi w więzieniu i nauce w szko- łach przywięziennych (Woźniakowska 2006, 7). Ponadto poziom wykształcenia wpływa również na możliwość znalezienia pracy, jej atrakcyjność oraz wysokość wynagrodzenia, co z kolei może wpływać na podejmowanie działań niezgodnych z prawem. Wybór zmiennej określającej przeciętne miesięczne wynagrodzenie po- dyktowany był wynikami wcześniejszych badań (na danych przekrojowych dla podregionów), wskazującymi, że zmienna ta była istotnym czynnikiem objaśnia- jącym natężenie wybranych kategorii przestępstw (Kądziołka 2014a). Ponadto w literaturze wskazuje się, że z większym przeciętnym wynagrodzeniem może być związane większe jego zróżnicowanie, a osoby osiągające niewspółmier- nie niskie zarobki w porównaniu z najzamożniejszą częścią obywateli mogą być bardziej skłonne do podejmowania działań niezgodnych z prawem (Sztaudynger i Sztaudynger 2003, 129). Wybór takich cech, jak: wskaźnik urbanizacji, gęstość zaludnienia czy odsetek gospodarstw jednoosobowych, był podyktowany wskaza- niami teorii sposobności przestępczych. Analizując dane przekrojowe na różnych poziomach agregacji (województwa, podregiony, powiaty), stwierdzono istotną dodatnią korelację między natężeniem przestępstw a wskaźnikiem urbanizacji (Kądziołka 2015a). Szczególnie silna zależność występowała między wskaźni- kiem urbanizacji a natężeniem przestępstw przeciwko mieniu, które są charak- terystyczne dla obszarów miejskich, dających potencjalnemu sprawcy większą anonimowość niż obszary wiejskie. Z większą gęstością zaludnienia związana jest większa „dostępność” potencjalnych ofiar przestępstwa niż na obszarach cha- rakteryzujących się mniejszą gęstością zaludnienia. Z kolei w przypadku gospo- darstw jednoosobowych mniejszy jest poziom ochrony mienia niż w przypadku gospodarstw wieloosobowych. Wśród czynników związanych z efektywnością pracy organów ścigania wykorzystano wskaźnik wykrywalności sprawców. Nato- miast takie czynniki jak rozbicie rodziny czy zmiany składu/mobilność mieszkań- ców mogą stanowić źródła dezorganizacji społecznej, na co wskazywali Groves i Sampson (1989). W związku z tym wśród potencjalnych zmiennych objaśnia- jących uwzględniono współczynnik rozwodów oraz współczynnik migracji brut- to. Z kolei wykorzystanie zmiennej określającej udzielone noclegi miało na celu uwzględnienie charakteru analizowanych obszarów (wyróżnienie miejscowości „turystycznych”), gdyż z większym natężeniem przyjeżdżających turystów czy kuracjuszy może być związana większa podaż okazji przestępczych. Na Rycinie 3 przedstawiono przestrzenne zróżnicowanie powiatów pod względem analizo- wanych zmiennych objaśniających (pominięto na mapach zmienne wsp1, wsp i op_npog). Przyjęto następujące oznaczenia: (1) – przestrzenne zróżnicowanie
powiatów według zmiennej stb_dl; (2) − przestrzenne zróżnicowanie powiatów według zmiennej pom_sp; (3) − przestrzenne zróżnicowanie powiatów według zmiennej gimn20_39; (4) − przestrzenne zróżnicowanie powiatów według zmien- nej zar; (5) − przestrzenne zróżnicowanie powiatów według zmiennej urb; (6) − przestrzenne zróżnicowanie powiatów według zmiennej gzal; (7) − przestrzenne zróżnicowanie powiatówwedług zmiennej gosp_1os; (8) − przestrzenne zróżni- cowanie powiatów według zmiennej kobiety; (9) − przestrzenne zróżnicowanie powiatów według zmiennej rozw; (10) − przestrzenne zróżnicowanie powiatów według zmiennej migr; (11) − przestrzenne zróżnicowanie powiatów według zmiennej nocl; (12) − przestrzenne zróżnicowanie powiatów według zmiennej wws. Na zaprezentowanych mapach można przykładowo zauważyć, że powiaty charakteryzujące się wysoką stopą bezrobocia długoterminowego oraz wysokim odsetkiem osób korzystających z pomocy społecznej zlokalizowane są w więk- szości na obszarach województw: zachodniopomorskiego, warmińsko-mazurskie- go, kujawsko-pomorskiego, świętokrzyskiego, lubelskiego i podkarpackiego. Dla większości powiatów województw zachodniopomorskiego i warmińsko-mazur- skiego charakterystyczne są też: wysoki odsetek osób młodych legitymujących się niskim wykształceniem, wysokie współczynniki rozwodów oraz duże zmiany składu mieszkańców. Wysokie współczynniki rozwodów i współczynniki migra- cji brutto charakterystyczne są również dla powiatów zlokalizowanych w pobli- żu granicy z Niemcami, gdzie występują niespotykane w innych częściach kra- ju uwarunkowania dla zagranicznych migracji zarobkowych, co może pociągać za sobą negatywne zjawisko, jakim jest tzw. problem eurosierot (Arendt i Kryńska 2011, 70). Z kolei skupienia obszarów charakteryzujących się ponadprzeciętnym miesięcznym wynagrodzeniem zlokalizowane są wokół większych miast, jak War- szawa, Poznań, Wrocław, Katowice, Kraków.
Kinga Kądziołka
Drzewo regresyjne jest to graf spójny, acykliczny, który stanowi graficzną pre- zentację modelu postaci (Gatnar 2008, 37–44):
gdzie y – zmienna zależna; Rk – segment przestrzeni zmiennych objaśniają- cych; α k − parametry modelu ( k =1,..., K ); I – funkcja wskaźnikowa określona na- stępująco: I (q) = 1, gdy warunek q jest prawdziwy oraz I (q) = 0 w przeciwnym przypadku. Parametry α k wyznaczane są następująco:
gdzie N ( k ) – liczba elementów znajdujących się w segmencie Rk ; yi − wartości przyjmowane przez zmienną zależną w segmencie Rk.
Wadą drzew regresyjnych jest skokowy charakter zależności między wartościa- mi empirycznymi i teoretycznymi. W związku z tym w prowadzonych badaniach wykorzystano również metodę lasu losowego ( random forest ) celem zredukowa- nia braku ciągłości prognoz. Algorytm random forest działa według następującego schematu (Gatnar 2008, 158):
Kinga Kądziołka
Ekonomia nr 45/2016 69
się jej wykorzystanie, gdy badacza interesuje ustalenie, które zmienne w istotny sposób wpływają na zmienną objaśnianą (Rozmus 2009, 145).
Na Rycinie 4 przedstawiono uzyskane drzewo regresyjne. Węzły końcowe (liście) zawierają informacje o liczbie elementów w danym segmencie (n), teoretyczną wartość zmiennej objaśnianej (y), będącą średnią wartości natężenia przestępstw dla powiatów z poszczególnych grup, odchylenie standardowe wartości empirycz- nych zmiennej objaśnianej w danym segmencie (s) oraz p-value (p). W małych kwadratach znajdują się numery węzłów.
n = 72 y = 1334 s = 357
n = 8 y = 1752 s = 712
n = 86 y = 1639 s = 357
n = 48 y = 1958 s = 546
n = 62 y = 2138 s = 422
n = 51 y = 2477 s = 660
n = 43 y = 3053 s = 752
n = 9 y = 4057 s = 1320
nocl p < 0.
rozw p < 0.
op_npog p < 0. op_npog p = 0.
gosp_1os p < 0.
urb p < 0.
urb p = 0.
≤ 1.
≤ 2730.5 > 2730.5 ≤ 2060.8 > 2060.
≤ 61.3 > 61.
≤ 32 > 32
≤ 2117.7 > 2117.
≤ 46.1 > 46.
5 7 10 13 14
8 9
4
3
2
6
1
11
12 15
Rycina 4. Drzewo regresyjne objaśniające natężenie przestępstw stwierdzonych ogółem Źródło: opracowanie własne na podstawie danych GUS.
Uzyskano podział obszarów na 8 grup (Rycina 5) scharakteryzowanych przez warunki: grupa 1: powiaty, dla których (urb≤61,3%) i (rozw≤1,2) i (nocl≤2730,5), grupa 2: powiaty, dla których (urb≤61,3%) i (rozw≤1,2) i (nocl>2730,5), grupa 3: powiaty, dla których (urb≤61,3%) i (rozw>1,2) i (op_npog≤2060,8) i (urb≤46,1%), grupa 4: powiaty, dla których (urb≤61,3%) i (rozw>1,2) i (op_npog≤2060,8) i (urb>46,1%), grupa 5: powiaty, dla których (urb≤61,3%) i (rozw>1,2) i (op_npog>2060,8), grupa 6: powiaty, dla których (urb>61,3%) i (gosp_1os≤32%)
Ekonomia nr 45/2016 71
W trakcie kolejnych podziałów dokonywanych podczas generowania drzewa najbardziej istotne (dla poszczególnych podzbiorów danych) okazały się takie charakterystyki, jak: wskaźnik urbanizacji, odsetek gospodarstw jednoosobowych, natężenie przestępstw w sąsiednich powiatach, współczynnik rozwodów i udzie- lone noclegi na 1000 ludności. Dla zaprezentowanego na Rycinie 4 modelu współ- czynnik pseudo-R^2 =0,5681. Wygenerowano również drzewo regresyjne, w któ- rym wśród zmiennych objaśniających pominięto współrzędne geograficzne oraz opóźnioną przestrzenie zmienną objaśnianą. Dla uzyskanego w ten sposób mo- delu współczynnik pseudo-R^2 =0,5601. Nieznacznie lepszy pod względem współ- czynnika pseudo-R^2 okazał się model, w którym wśród zmiennych objaśniających uwzględniono opóźnioną przestrzennie zmienną objaśnianą. Wykorzystanie drzew regresyjnych pozwoliło zidentyfikować grupy powiatów podobnych pod wzglę- dem wybranych charakterystyk (zmiennych objaśniających) i określić przeciętny poziom natężenia przestępstw w ramach poszczególnych grup, jednakże zależność między wartościami empirycznymi i teoretycznymi miała skokowy charakter (Ry- cina 6). Ponadto przeciętny absolutny procentowy błąd prognozy był wysoki, wy- nosił bowiem 19,26%.
Rycina 6. Wartości empiryczne i teoretyczne (drzewo regresyjne) Źródło: opracowanie własne na podstawie danych GUS.
W celu ograniczenia braku ciągłości prognoz wykorzystano las losowy zbu- dowany z 50 drzew regresyjnych (tj. M=50). Na każdym etapie konstrukcji drzew wybierano w sposób losowy 5 zmiennych (tj. K=5) spośród 15 zmiennych obja- śniających^11. Do wygenerowania modelu wykorzystano pakiet rattle programu R. Na Rycinie 7 przedstawiono zależność między wartościami empirycznymi i teo- retycznymi w przypadku lasu losowego. Dla uzyskanego modelu współczynnik pseudo-R^2 =0,6858. Przeciętny absolutny procentowy błąd prognozy w przypadku lasu losowego wynosił 15,57%.
Rycina 7. Wartości empiryczne i teoretyczne (las losowy) Źródło: opracowanie własne na podstawie danych GUS.
Wykorzystanie lasu losowego zbudowanego z wielu drzew regresyjnych pozwoliło zredukować problem braku ciągłości prognoz. Ponadto model lasu losowego charakteryzował się lepszym dopasowaniem danych teoretycznych do empirycznych oraz mniejszym przeciętnym absolutnym procentowym błędem
(^11) Przyjęto parametr K=5, gdyż w literaturze zalecane jest dla problemów regresyjnych losowanie K=N/3 zmiennych, gdzie N oznacza liczbę wszystkich zmiennych objaśniających (Liaw i Wiener 2002, 20).
Kinga Kądziołka