Pobierz 3 Opisowa statystyka nauki i więcej Prezentacje w PDF z Analiza regresji tylko na Docsity! 3 Opisowa statystyka nauki Krzysztof MarKowsKi instytut Ekonomii i zarządzania KUL Abstrakt artykuł dotyczy znaczenia statystyki we współczesnym świecie, jej zasto- sowania oraz rodzajów. omówiono w nim rolę statystyki publicznej oraz krótko przedstawiono wagę i historie spisów powszechnych. Ponadto przedstawiono w nim dwie podstawowe grupy metod stosowane w staty- styce, tj. metody służące do opisu statystycznego oraz metody wykorzysty- wane do wnioskowania statystycznego. w części końcowej przedstawiono przykład zastosowania jednego z narzędzi wykorzystywanego w statystyce, tj. χ2.w podsumowaniu wspomniano także o korelacji, analizie regresji oraz analizie wielowymiarowej. Słowa kluczowe statystyka publiczna, spis powszechny, metody opisu statystycznego, metody wnioskowania, estymacja, weryfikacja hipotez, χ2 (chi2), poszukiwanie związków między zmiennymi (korelacje), analiza regresji, analiza wielowymiarowa 63 Wprowadzenie w komedii Moliera pan Jourdain był niezmiernie zdziwiony, że od przeszło 40 lat mówi prozą, nie mając o tym żywego pojęcia1. Poprzez analogię wiele osób zdziwiłoby się bardzo, że w codziennym życiu często korzysta z różnych narzędzi statystyki. Chociaż często też nieumiejętność jej stosowania, prowadzi do wyciągania zbyt pochop- nych wniosków. Dla przykładu: jeśli dziewczyna lub chłopak w rela- cjach z płcią przeciwną kilka razy doświadczyli niepowodzeń, wówczas z kilku incydentalnych przypadków wyciągają nieuprawniony i uogól- niony wniosek, iż wszyscy mężczyźni lub kobiety są tacy sami. statystyka jest bardzo użytecznym narzędziem w życiu i jej dobra znajomość może wielokrotnie ustrzec przed wyciąganiem fałszywych wniosków. Ponadto umiejętne posługiwanie się narzędziami statystyki wielokrotnie może ułatwić podjęcie bardziej racjonalnych decyzji, i to bez względu na to, czego te decyzje będą dotyczyły, tj. założenia firmy, wprowadzenia na rynek nowego produktu czy też wyboru znajomych itp. Celem niniejszego artykułu jest z jednej strony przybliżenie pod- stawowych pojęć statystycznych i samej statystyki, jak również wska- zanie, że warto pozbyć się uprzedzeń odnośnie jej zgłębiania, gdyż jest ona nauką bardzo użyteczną, posługującą się narzędziami, które często mogą pomóc w lepszym zrozumieniu świata, a przynajmniej zobacze- niu wielu jego wymiarów. 1. Znaczenie i waga statystyki statystyka jest nauką, której przedmiotem zainteresowania są metody pozyskiwania, prezentacji i analizy danych opisujących róż- norodne obserwowane zjawiska. Bada ona prawidłowości występujące 1 Molier, Mieszczanin szlachcicem, Warszawa 2009. Opisowa statystyka nauki 66 zarówno najbardziej szczegółowych informacji o liczbie ludności, jej terytorialnym rozmieszczeniu, strukturze demograficzno-społecznej i zawodowej, jak również o społeczno-ekonomicznej charakterystyce gospodarstw domowych i rodzin oraz o ich zasobach i warunkach mieszkaniowych. Dzięki temu można uzyskać informacje na temat wieku, wykształcenia, wielkości migracji, aktywności zawodowej, źró- deł utrzymania, poziomu życia, statusu zawodowego itp7. Pierwszy urzędowy spis ludności w Polsce został przeprowadzony na podstawie Konstytucji sejmu Czteroletniego z 22 czerwca 1789 r. pod nazwą „Lustracja dymów i podania ludności8”. z ogólnokrajowym spisem ludności i jej struktury społeczno-zawodowej przeprowadzony był także spis domów. wyniki spisu miały posłużyć do uchwalenia wiel- kości podatku przeznaczonego na pokrycie kosztów utrzymania stałej stutysięcznej armii. Chociaż spis ten, ze względu na jego charakter, nie objął stanów uprzywilejowanych, tj. szlachty i duchowieństwa, a tylko ludność wiejską i miejską, to jednak stał się podstawą do obliczania sza- cunków zaludnienia rzeczypospolitej końca XViii w., przez dawnych i współczesnych historyków i statystyków9. Pierwsze dane liczbowe o mieszkańcach ziem polskich można spotkać już w średniowieczu zarówno w Kronice Galla anonima ok. 113-1116 r., jak i w bullach papieskich. Natomiast przed pierwszym spisem powszechnym z 1789 r. spisy ludności dokonywane były zazwy- czaj przez biskupów w oparciu o sieć parafii i obejmowały głównie tereny poszczególnych diecezji, np. krakowskiej czy płockiej. w przed- rozbiorowej Polsce znane były również spisy ludności wszystkich miast z 1777 r., później dość często powtarzane na potrzeby administracji municypalnej10. Po spisie z 1789 r. kolejne spisy ludności były przeprowadzane w XiX w. oraz na przełomie wieku XiX i XX: 7 J. Paradysz, Spisy jako źródło informacji o warunkach życia ludności w Polsce, „Wiadomości Statystyczne” 2009, nr 7, s. 1-9. 8 Dawniej „dymami” nazywano domy wyposażone w komin, bez względu na liczbę pomieszczeń i sposób ich wykorzystania. Natomiast lustracja dymów to nic innego jak przegląd lub kontrola. 9 Z. Strzelecki, Spisy powszechne ludności w Polsce a potrzeby informacyjne administracji państwowej, „Wiadomości Statystyczne” 2009, nr 8, s. 1-14. 10 Ibidem, s. 2. Krzysztof Markowski 67 w Księstwie warszawskim w roku 1808 i 1810;• w Królestwie Polskim w roku 1827 i 1897;• w Galicji, co 10 lat, od 1857 r. do 1910 r.;• w zaborze pruskim, co 5 lat, od 1871 r. do 1910 r.• Natomiast do chwili obecnej w Polsce przeprowadzono następu- jące spisy ludności i mieszkań: 9 spisów powszechnych (1921, 1931, 1950, 1960, 1970, 1978, • 1988, 2002 i 2011 r.); 1 spis sumaryczny w 1946 r.;• 3 spisy reprezentacyjne (mikrospisy – 1974, 1984 i 1995 r.).• Począwszy od 2011 r., zgodnie z zaleceniami oNz przygotowa- nymi wspólnie z Unią Europejską, spisy ludności i mieszkań powinny odbywać się co 10 lat, na przełomie poszczególnych dekad w roku koń- czącym się na „1” w każdym kraju europejskim. Parlament Europej- ski i rada w dniu 9 lipca 2008 r. przyjęły rozporządzenie nr 763/2008 w sprawie spisów powszechnych ludności i mieszkań. wyznacza ono konkretne okresy referencyjne dla realizacji spisów oraz zakres pozy- skiwanych w spisach informacji, jak również formy i zakres informacji wynikowych, jakie poszczególne kraje powinny przekazywać do Biura statystycznego Komisji Europejskiej (EUrostat). Dane ze spisów mają dla Komisji Europejskiej bardzo duże znaczenie, z uwagi na wyko- rzystywanie tych informacji dla potrzeb realizowanej wspólnotowej polityki społecznej. Podobnie w Polsce wyniki ze spisu wykorzystywane są przez decydentów zarówno na poziomie krajowym, regionalnym, jak i lokalnym, do podejmowania decyzji strategicznych, dotyczących np. zapewnienia na danym obszarze odpowiedniego zaplecza edukacyj- no-wychowawczego (szkoły, przedszkola, żłobki itp.), przeciwdziałania bezrobociu poprzez wprowadzanie odpowiednich profili kształcenia, w zależności od zapotrzebowania rynku pracy istniejącego na danym terenie, o budowie mieszkań itp. w szeroko rozumianej statystyce stosuje się cały szereg różnego rodzaju metod statystycznych. Generalnie rzecz ujmując, można je podzielić na dwie grupy, tj. metody opisu statystycznego oraz metody wnioskowania. Pierwsze służą do liczbowego opisu badanych zbioro- wości lub zjawisk, przedstawianego w formie tabelarycznej, graficznej i parametrycznej. Drugie z kolei, czyli metody wnioskowania, służą do Opisowa statystyka nauki 68 uogólniania wyników badania części zbiorowości, zwanej próbą, na całą populacje, z której ta próba pochodzi. z uwagi na to, że takie uogólnie- nie zawsze obarczone jest pewnym błędem, dlatego też metody wnio- skowania oparte są na rachunku prawdopodobieństwa11. 2. Statystyka opisowa Dziedzina statystyki zajmująca się metodami opisu danych staty- stycznych nosi nazwę statystyki opisowej. Metody statystyki opisowej wykorzystywane są przede wszystkim wtedy, gdy obserwacja staty- styczna dotyczy badania pełnego, tj. obejmuje całą populację, zbioro- wość. Natomiast jeśli oparta jest tylko na części zbiorowości, wówczas opis statystyczny dostarcza materiału do przeprowadzenia wnioskowa- nia statystycznego. Jak wspomniano wyżej, statystyka opisowa posługuje się danymi liczbowymi, które powstają w wyniku pomiaru, obserwacji czy badań statystycznych. w rzetelnym opisie badanej zbiorowości czy rzeczywistości ważny jest wybór odpowiedniego rodzaju skal pomia- rowych. wśród skal pomiarowych istnieje hierarchia, uzależniona od tego, ile dowiadujemy się o stosunkach pomiędzy obiektami, na któ- rych dokonano pomiaru. według tego kryterium, można wymienić skale pomiarowe w następującej kolejności12: nominalna,1. porządkowa,2. przedziałowa,3. ilorazowa.4. skala nominalna jest najsłabszą ze skal. Liczby używane są tylko jako etykiety dla grup. Danemu zbiorowi przyporządkowany zostaje określony numer, który zastępuje nazwę. skala nominalna wykorzy- stywana jest do wyników obserwacji mających charakter „jakościowy”, tj. w odniesieniu do zbioru kobiet, mężczyzn, do grup zawodowych, obiektów geograficznych itp. Pomiar na skali nominalnej pozwala jedy- nie na stwierdzenie, że dwa obiekty, należące do różnych kategorii, są od siebie różne, jeśli chodzi o wartość mierzalnej cechy. Nie można jednak określić jakiejkolwiek relacji między nimi. 11 Zob. A. Balicki, W. Makać, Metody wnioskowania statystycznego, Gdańsk 2000, s. 7. 12 A.D. Aczel, Statystyka w zarządzaniu, Warszawa 2000, s. 36-37. Krzysztof Markowski 71 z kolei wykresy (rysunki) są graficzną formą prezentacji materiału statystycznego. Chociaż mogą być one mniej precyzyjne i szczegółowe, to jednak są bardziej sugestywne. Przedstawiając materiał statystyczny, graficznie można ujawnić pewne prawidłowości, które mogłyby ujść uwadze, gdyby analizie poddano tylko dane zaprezentowane w tabeli. Podobnie jak w przypadku tabeli, rysunek winien mieć część opisową, czyli tytuł, legendę i opis skal. Ponadto ważnym elementem tabel jak i rysunków są informacje o źródle pochodzenia danych. Jest to istotne z dwóch powodów, a mianowicie w przypadku jakiś wątpliwości można sprawdzić, czy nie wystąpiły zniekształcenia związane z przedrukiem, a ponadto źródło mówi o sposobie zbierania danych statystycznych. Jeśli źródłem są badania własne, wówczas wiadomo, że prezentowane dane oparte są na tzw. źródłach pierwotnych, czyli bezpośrednio od respondenta. Natomiast jeżeli dane pochodzą z GUs-u, oznacza to, że zaczerpnięto je ze źródeł wtórnych, czyli takich, które są już zgro- madzone w oparciu o wcześniejsze badania. w oparciu o dane przed- stawione w tabeli, sytuację demograficzną w województwie lubelskim można przedstawić na rysunku. zobrazowano to na rysunku 1. Tabela 1. Liczba mężczyzn i kobiet mieszkających w 2010 r. w województwie lubelskim w poszczególnych subregionach Ogółem Mężczyźni Kobiety LUBELSKIE 2 151 895 1 042 109 1 109 786 Bialski 306 219 150 682 155 537 Chełmsko-zamojski 644 007 313 779 330 228 Lubelski 713 397 338 303 375 094 Puławski 488 272 239 345 248 927 Źródło: Opracowanie własne na podstawie danych GUS w podobny sposób można przedstawić cały szereg zmiennych dotyczących województwa lubelskiego, prezentując je na innego rodzaju wykresach, np. kołowych, liniowych, słupkowych, warstwo- wych itp. wybór sposobu wizualizacji danych zależny jest zarówno od jego celu, jak też w dużej mierze zależy od skali, na jakiej mierzona jest zmienna. Gdy jej pomiaru dokonano na skali nominalnej, to do Opisowa statystyka nauki 72 wizualizacji zmiennych najczęściej używane są wykresy słupkowe lub kołowe. Natomiast dla zmiennej zmierzonej na skali porządkowej lub przedziałowej, oprócz dwóch wymienionych wykresów, można użyć również wykresu skrzynkowego, kwantylowego, histogramu oraz wykresu gęstości (przede wszystkim dla zmiennych ilościowych)16. Mimo że prezentacja danych na wykresach pozwala lepiej zobra- zować wyniki obserwacji oraz je przedstawić, jednak czasami może być źle opracowana i z zaprezentowanych danych odbiorca wyczyta zupełnie inne informacje niż powinien. Można w tym wypadku mówić o świadomej lub nieświadomej, tj. wynikającej z niewiedzy lub małego doświadczenia w prezentowaniu danych, manipulacji. Dane można przedstawić graficznie w skali ściśniętej lub rozciągniętej, wskutek czego ilustrować będą to, co się chce pokazać. oznacza to, że prezen- towane wykresy mogą „zwodzić” nawet wówczas, gdy nikt nie miał na celu oszukańczych intencji. zniekształcenia te mogą powstawać wówczas, gdy celowo lub przypadkowo w wykresie np.: zrezygnuje 16 Więcej na ten temat można znaleźć w: G. Wieczorkowska, P. Kochański, M. Eljaszczuk, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych, Warszawa 2005, s. 99-116. Rysunek 1. Liczba kobiet i mężczyzn mieszkających w subregionach województwa lubelskiego w 2010 r. Źródło: Opracowanie własne na podstawie danych GUS Krzysztof Markowski 73 się z oznaczenia osi, decydując się na zastosowanie bezpośredniego opisu poszczególnych elementów graficznych, niewłaściwie dobierze się kategorię prezentowanych danych, pominie wartości procentowe, wykorzysta się wartości średnie w celu ukrycia znaczenia odchyleń itp.17 Jako przykład niecelowego wprowadzenia odbiorcy w błąd może posłużyć wykres przedstawiający potencjał demograficzny miasta Lublina, zilustrowany na rysunku 2. Przez wprowadzenie dodatko- wej skali po prawej stronie wykresu odbiorca może błędnie zrozumieć prezentowane dane, odnosząc wrażenie, że Lublin w okresie od 2000 do 2007 roku dramatycznie się wyludniał, w porównaniu do dwóch innych miast wojewódzkich, tj. Łodzi i Poznania. Jednakże po bardziej dokładnym przeanalizowaniu wykresu okaże się, że ludność Lublina zmniejszyła się tylko o ok. 7 000 osób, podczas gdy liczba ludności w Łodzi, a przede wszystkim w Poznaniu, w przedstawianym okresie zmniejszyła się zdecydowanie bardziej. Rysunek 2. Potencjalna możliwość wyciągnięcia błędnych wniosków z wykresu na temat procesów demograficznych występujących w Łodzi, Poznaniu i Lublinie w latach 2000-2007 Źródło: I. Świeczewska, Raport z badań lokalnego rynku pracy miasta Lublina – tendencje i prognozy, Lublin 2009, s. 35. 17 N. Strange, Zasłona dymna. Jak naginać fakty i liczby dla swoich potrzeb, Gliwice 2007. Opisowa statystyka nauki Ludność Lublina i niektórych miast Polski (w tys.) w okresie 2000-2007 r. [stan w dniu 31 XII] 76 liczną próbę, na jaką pozwala budżet projektu badawczego. idealnie byłoby, gdyby można było przebadać całą populację, dzięki czemu moż- liwe jest otrzymanie pełnej informacji i dokładne poznanie wartości parametrów. wówczas zbędne są wszelkiego rodzaju szacunki. Gdy koszty badań muszą być ograniczone, wówczas stawia się pytanie, jaka powinna być minimalna liczebność, przy której spełnione będą wyma- gania dotyczące szacunku i dokładności estymacji. statystyka posiada narzędzia pozwalające wyliczyć dokładnie, jak liczna winna być próba przy określonej populacji, by wnioskowanie w oparciu o wyniki z próby można było ekstrapolować na całą populację. wiele rzeczywistych sytuacji w kraju, w firmie i innych dziedzi- nach życia pozwalają gromadzić dane, będące liczebnościami (np. liczba osób w próbie, które można zaklasyfikować do różnych kategorii pod względem złożonych deklaracji czy przekazanych preferencji na jakiś temat, grup wiekowych lub dochodów o różnej wysokości), jest bardzo przydatna i często stosowana w analizie danych – technika χ2 (ch2). Jest to test zgodności tego, jak dobrze (dokładnie) dane potwierdzają zało- żenie o rozkładzie w populacji interesującej nas zmiennej losowej. Dla przykładu: jeżeli firma odzieżowa ma zamiar wypuścić na rynek nowy typ sukienki i chce sprawdzić, czy kobiety mają jakieś specjalne prefe- rencje co do koloru, określonego wzoru, czy też wszystkie rozpatrywane kolory są tak samo lubiane, wówczas może losowo wybrać próbę np. 80 kobiet, które planują w najbliższym czasie kupić sukienkę. Każdej z kobiet pokazać sukienkę w czterech kolorach i poprosić o określenie preferencji. Przykładowe wyniki preferencji przedstawiono w tabeli 2. Tabela 2. Preferencje kobiet odnośnie koloru sukienki Czerwony Zielony Niebieski Piaskowy Suma 11 40 7 22 80 Hipoteza zerowa (H0) zakłada, że wszystkie kolory sukienek są tak samo preferowane, tj. że prawdopodobieństwo wybrania którego- kolwiek z kolorów jest równe (p1=p2=p3=p4=0,25). Natomiast hipoteza alternatywna (H1) przybiera postać: nie wszystkie kolory są tak samo preferowane, tj. prawdopodobieństwo wybrania każdego z czterech kolorów są różne. aby obliczyć wartość statystyki, należy najpierw znaleźć liczebności oczekiwane wszystkich Krzysztof Markowski 77 czterech klas (kolorów). w tym przypadku wartość oczekiwana będzie równa iloczynowi liczby powtórzeń n przez prawdopodobieństwo sukcesu w pojedynczym doświadczeniu – p. Natomiast w przypadku doświadczeń wielowymiarowych mamy k klas, a każdej odpowiada prawdopodobieństwo pi, gdzie i = 1, 2, 3, …, k. w przedstawianym przykładzie dotyczącym preferowanego przez kobiety koloru sukienki liczba doświadczeń jest liczbą osób w próbie n = 80, które wskazywały określone kolory. Przy założeniu hipotezy zero- wej oczekiwana liczba osób, które wybiorą i-ty kolor jest równa Ei = npi. ze względu na to, że w tym przypadku wszystkie prawdopodobieństwa są równe i wynoszą 0,25, oczekiwana liczba osób, które wskażą okre- ślony kolor wynosi 20. w rzeczywistości zaobserwowanie dokładnie 20 osób w każdej z czterech klas jest zdarzeniem o stosunkowo małym prawdopodobieństwie. Jednakże liczba osób zadeklarowanych w każdej z klas nie powinna być zbyt daleka od oczekiwanej liczby 20. właśnie w tutaj przychodzi z pomocą χ2, który jest jednym z wielu testów staty- stycznych wykorzystywanych w statystyce do różnych celów. równanie oraz wynik na obliczenie testu χ2 przedstawia się następująco: χ² = Σk = = ∙∙∙ = 32,7 i=1 (Oi − Ei)2 Ei gdzie: oi = wartości (liczebności) otrzymane, Ei – wartości (liczebności) oczekiwane. Ponieważ obliczona wartość statystyki (32,7) jest o wiele więk- sza od wartości krytycznej dla α =0,01, oznacza to, że istnieje dowód na nieprawdziwość hipotezy, że każdy z czterech kolorów może być wybrany przez klientki z takim samym prawdopodobieństwem. to pro- ste badanie pokazuje, że jedne kolory bardziej się podobają od innych i to w sposób istotny a nie przypadkowy. wnioskowanie statystyczne dotyczy również poszukiwania związku (korelacji) pomiędzy zmiennymi w populacji. U podstaw tych badań leży pytanie w rodzaju: Czy wraz ze wzrostem wartości jednej zmienne (np. wagi ciała, inteligencji emocjonalnej itp.) rosną lub maleją wartości innej zmiennej (np. wzrost, liczba kontaktów międzyludzkich itp.). Niezależnie od tego, jaka będzie odpowiedź na tak sformułowane pytanie, tj. pozytywna czy negatywna, wynik badania korelacyjnego nie może być interpretowany w terminach przyczynowo-skutkowych. w rzeczywistości można spotkać wiele zjawisk, które współwystępują Opisowa statystyka nauki 78 np. przylot bocianów na wiosnę i liczba urodzonych lub poczętych w tym czasie dzieci, lecz będą to związki pozorne. określenie korelacji oznacza związek między dwoma cechami, natomiast wyrażenie „współ- czynnik korelacji” odnosi się do liczbowej miary siły tego związku. aby obliczyć współczynnik korelacji, dane muszą być przedstawione w postaci par. Do właściwości współczynnika korelacji można zaliczyć fakt, że jeśli nie ma żadnego związku pomiędzy branymi pod uwagę zmiennymi, czyli są one niezależne od siebie, wówczas współczyn- nik korelacji wynosi zero. Jeśli natomiast, wraz ze wzrostem wartości jednej zmienne rośnie wartość drugiej zmiennej, wtedy współczynnik przyjmuje wartość dodatnią, zaś gdy wraz ze wzrostem wartości jednej zmiennej maleje wartość drugiej zmiennej to współczynnik korelacji jest ujemny. z kolei siła związku pomiędzy analizowanymi cechami wyrażona jest w postaci wartości bezwzględnej współczynnika korela- cji. Najpopularniejszym współczynnikiem korelacji jest r Pearsona21. statystyka ma bardzo wiele pomocnych narzędzi. wystarczy wspomnieć chociażby o analizie regresji. Ma ona bardzo szerokie zastosowanie zarówno w zarządzaniu przedsiębiorstwem, jak i w eko- nomi. Metoda ta służy do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. wyjaśnia ona, z jakim prawdopodobieństwem wyodrębnione czynniki mogą być powodem różnic między obserwowanymi średnimi grupowymi. inaczej mówiąc, służy do modelowania związków pomiędzy zmiennymi (zmienna zależna i zmienna niezależna). Dla przykładu, jeżeli przedsiębiorstwo prowadzi kampanię reklamową swoich produktów może być zaintere- sowane związkiem pomiędzy reklamą a wielkością sprzedaży i w tym wypadku to narzędzie może być bardzo pomocne. innym z kolei narzę- dziem statystycznym jest analiza wielowymiarowa, która pozwala na jednoczesną analizę danych dotyczących kilku zmiennych. Nie sposób w tym miejscu wymienić wszystkich narzędzi sto- sowanych zarówno w statystyce opisowej, jak i we wnioskowaniu statystycznym. Jednakże jedno jest pewne. Narzędzia statystyczne stosowane przez statystykę lub mówiąc szerzej – sama statystyka jest nauką bardzo użyteczną. Jej znajomość, umiejętność posługiwania się nią, może istotnie przyczynić się do osiąganych sukcesów przez osobę 21 Zob. P. Francuz, R. Mackiewicz, op. cit. oraz A.D. Aczel, op cit. Krzysztof Markowski