Statystyki opisowe, rozklady teoretyczne - Notatki - Statystyka - Część 1, Notatki'z Statystyka. Opole University
Aleksy
Aleksy21 March 2013

Statystyki opisowe, rozklady teoretyczne - Notatki - Statystyka - Część 1, Notatki'z Statystyka. Opole University

PDF (188.0 KB)
15 strona
2Liczba pobrań
928Liczba odwiedzin
Opis
W notatkach wyeksponowane są tematy z zakresu statystyki: statystyki opisowe, rozklady teoretyczne. Część 1.
20punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 15
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.

1

Statystyka to nauka zajmująca się ilościowymi metodami analizy zjawisk masowych. Przy czym masowość zjawiska polega na jego wykorzystaniu dla dużej liczby jednostek statystycznych (obiektów), dzięki temu możliwe jest wykrycie za pomocą metod statystycznych różnego rodzaju prawidłowości występujących w ekonomii, np. skłonności ludzi do oszczędzania, polityka kredytowa banków, zachowania przedsiębiorstw. Przedmiotem badań w statystyce jest zbiór jednostek statystycznych podobnych pod względem określonych własności, nazywanych populacją (zbiorowością statystyczną). Ponieważ bezpośrednie badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, zatem w statystyce do analizy wykorzystuje się najczęściej próbę, która stanowi podzbiór populacji. Statystyczne metody analizy (opisu i wnioskowania) mogą być użyteczne w liczbowym rozpoznaniu struktury, współzależności i dynamiki zjawisk występujących masowo. Niezależnie od pola zastosowań metod statystycznych, prowadzone obserwacje zawsze dotyczą jednostek zbiorowości rozpatrywanych z punktu widzenia wariantów cech statystycznych (mierzalnych i niemierzalnych). Podstawowe pojęcia statystyczne - zbiorowość statystyczna- (n) określamy taki zbiór jednostek, który podlega obserwacji statystycznej i który charakteryzuje się takimi samymi wariantami przynamniej jednej cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej. -zbiorowość generalna- zbiorowość statystyczna, w której badane są wszystkie jednostki -zbiorowość próbna- zbiorowość statystyczna, w której badane są jednostki losowo wybrane -średnia arytmetyczna- suma wariantów obserwowanej mierzalnej cechy zmiennej w przeliczeniu na jedną jednostkę zbiorowości statystycznej, tzn. jako: ‗ 1 n x = — ∑ xj n j=1 ‗ gdzie zawsze zachodzi, że xmin< x < xmax ‗ n n ‗ n x = ∑ xj oraz ∑ (xj – x ) = 0 j=1 j=1 -dyspersja- zróżnicowanie jednostek zbiorowości ze względu na wartość badanej cechy. Siłę dyspersji ocenia się za pomocą pozycyjnych i klasycznych miar zmienności. Do miar klasycznych zaliczamy: odchylenie przeciętne, wariancję, odchylenie standardowe oraz współczynnik zmienności.

2

-wariancja- średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy do średniej arytmetycznej całej zbiorowości. Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji. 1 n ‗ Sx²= ———— Σ (xj – x )² Ŝx² - wariancja bez obciążenia* n-1 j=1 ‗ gdzie x jest średnia arytmetyczną. Przy czym zawsze zachodzi, że S²x>0 oraz n _ n _ ∑ ( xj – x ) ² < ∑ (xj – c)² , gdzie x ≠ c j=1 j=1 -odchylenie standardowe- przeciętne zróżnicowanie (dyspersja) wariantów cechy względem średniej arytmetycznej. Odchylenie standardowe określa o ile wszystkie jednostki danej zbiorowości różnią się średnio od średniej arytmetycznej badanej zmiennej. Sx = √ Sx² >0 Ŝx – odchylenie standardowe z wariancji bez obciążenia* -współczynnik zmienności- iloraz odchylenia standardowego i średniej w danym rozkładzie. Współczynnik ten często wyraża się procentowo aby określić jaki procent średniej stanowi odchylenie standardowe w rozkładzie. Sx ^ Vx=——— 100 % >0 Vx – współczynnik zmienności bez obciążenia* ‗ x Umownie przyjmuje się, że jeżeli Vx jest wyraźnie wyższy od 50%, to dana zbiorowość jest (z punktu widzenia zróżnicowania) niejednorodna statystycznie (w jej składzie są jednostki nietypowe). *) Uwaga! Współczesne przetwarzanie danych jednostkowych w postać statystyk opisowych odbywa się komputerowo poprzez zastosowanie profesjonalnych pakietów statystycznych (np. Statgraphics, SPSS, Statistica itp.). We wszystkich pakietach statystycznych kalkulacja statystyk opisowych (poza średnią arytmetyczną) odbywa się w sposób odciążony. -asymetria (skośność) rozkładu- określa liczbę badanych jednostek znajdujących się powyżej lub poniżej przeciętnego poziomu badanej cechy. Asymetrię rozkładu najłatwiej jest określić poprzez porównanie dominanty, mediany i średniej arytmetycznej. W rozkładach symetrycznych wszystkie wyżej wymienione średnie są sobie równe: ‗ X = Dx= Mx

3

W rozkładach asymetrycznych wymienione średnie kształtują się na różnych poziomach. Jeżeli zachodzi nierówność: ‗ X > Dx > Mx to rozkład charakteryzuje się asymetrią prawostronną. Jeżeli zaś zachodzi nierówność: ‗ X < Dx < Mx to mówimy o asymetrii lewostronnej -wskaźnik asymetrii (skośności)- określa kierunek asymetrii (prawo-, lewostronna) nie wskazując na jej siłę. ‗ Ws = x - Dx - przy rozkładzie symetrycznym wskaźnik skośności równy jest 0 : (Q3 – Q2) – (Q2 – Q1) = 0 - przy rozkładzie o asymetrii prawostronnej jest dodatni: (Q3 – Q2) – (Q2 – Q1) >0 - przy rozkładzie o asymetrii lewostronnej jest ujemny: (Q3 – Q2) – (Q2 – Q1) < 0 -współczynnik asymetrii- jest wartością liczbową określającą zarówno kierunek, jak i siłę asymetrii n ‗ 3 ∑ (xj – x ) j=1 Ax = ————————— 3 n Sx - warianty: 1) Ax > 0 - asymetria dodatnia prawostronna 2) Ax < 0 - asymetria ujemna lewostronna 3) Ax = 0 - brak asymetrii Uwaga! Jeżeli współczynnik skośności (standaryzowany) jest wyraźnie niższy od (-2) lub wyższy od (+2), to znaczy, jeżeli standaryzowane warianty cechy są z przedziału (-∞, - 2) lub (+2, +∞) to umownie takie warianty zakwalifikować można jako odstające , czyli nietypowe dla danej zbiorowości. -mediana- (wartością środkową) wariantów cechy (po ich uprzednim uporządkowaniu) nazywamy taki wariant cechy poniżej i powyżej którego znajduje się taka sama liczba jednostek zbiorowości statystycznej.

4

Mx = Q2 (kwartyl drugi) Warianty: ‗ 1) x > Mx

‗ 2) x = Mx

‗ 3) x > Mx

-kwantyle- wartości cechy badanej zbiorowości, które definiują ją na określone części, pod względem liczby jednostek. Części te mogą być równe lub pozostawać do siebie w określonych proporcjach. Do najczęściej używanych kwantyli zaliczamy : kwartale, a w przypadku badania struktury zbiorowości o dużej liczbie jednostek – decyle i wentyle. Wśród kwartyli wyróżniamy: - kwartyl pierwszy (dolny) Q1 dzieli badaną zbiorowość na 25% i 75% - kwartyl drugi Q2 (mediana lub wartość środkowa) - kwartyl trzeci Q3 (górny) dzieli badaną zbiorowość na 75% i 25% Każdy z kwartyli dzieli zbiorowość na dwie części pod względem liczebności. -zmienna losowa- funkcja określona na zbiorze zdarzeń elementarnych o wartościach rzeczywistych. -zmienna losowa skokowa- zmienna, której zbiór wartości jest skończony lub przeliczalny. -dominanta- (Dx) modana, wartość najczęstsza; wariant cechy mierzalnej lub niemierzalnej, któremu odpowiada największa liczba jednostek z całego ich obserwowanego, indywidualnego zbioru. -kurtoza- (termin użyty po raz pierwszy przez Pearsona) współczynnik koncentracji lub współczynnik skupienia, mierzy „spiczastość” rozkładu. Jeżeli wartość kurtozy jest wyraźnie różna od zera, wówczas rozkład jest albo bardziej płaski albo bardziej spiczasty niż rozkład normalny. -wzór Pearsona- średnia arytmetyczna, dominanta i mediana są powiązane ze sobą odpowiednimi zależnościami (równość lub nierówność) w zależności od typu rozkładu. W przypadku rozkładu umiarkowanie niesymetrycznego zachodzi następujący związek : ‗ ‗ X - Dx = 3 ( x – Mx)

5

Statystyki opisowe (klasyczne i pozycyjne) Indywidualne dane statystyczne Podstawą analizy statystycznej są dane o liczbowych lub znakowych wariantach cech wszystkich obserwowanych jednostek zbiorowości generalnej lub próbnej. Dane takie mają charakter indywidualny i występują z reguły jako dane nieuporządkowane. Jeżeli obserwacją statystyczną obejmujemy mierzalne cechy zmienne dla skończonego zbioru jednostek danej zbiorowości (n) wymagane jest zapisanie ich w module Zarządzanie danymi pakietu komputerowego Statistica.pl. Od tego momentu można rozpocząć analizę statystyczną przy użyciu wybranych modułów, procedur oraz opcji. Jeżeli obserwacją statystyczną objęte są niemierzalne cechy zmienne, to wektory obserwacji nie są liczbowe lecz znakowe. W takim przypadku zapisujemy je, korzystając z menu Dane, pakietu Statistica.pl. Analiza statystyczna zostaje wówczas ograniczona do wyznaczania częstości empirycznych, zwanych wskaźnikami struktury. Jeżeli dane indywidualne, wykorzystane w komputerowej analizie statystycznej, mają postać mierzalną, to w pierwszym etapie analizy interesujemy się przede wszystkim strukturą badanej zbiorowości. Analizujemy ją za pomocą miar opisowych, wykorzystując do tego procedurę statystyk opisowych, zawartych w module Statystyki podstawowei tabele pakietu Statistica.pl, zamieniających wektory indywidualnych danych liczbowych na wskazane jednoliczbowe statystyki opisowe (skalary). Zaliczmy do nich opisowe miary:

1) położenia – średnia arytmetyczna, mediana, dominanta 2) zróżnicowania – wariancja, odchylenie standardowe, odchylenie ćwiartkowe,

współczynnik zmienności (obliczany poza pakietem) 3) asymetrii i kurtozy – współczynnik skośności oraz kurtozy

Kryterium podziału na klasyczne i pozycyjne statystyki opisowe dotyczy tego, czy stanowią funkcję wszystkich wariantów mierzalnej cechy zmiennej (klasyczne), czy też niektórych (typowych) wariantów tej cechy (pozycyjne). Indywidualne dane mogą prawidłowo charakteryzować względnie jednorodne zbiorowości statystyczne z punktu widzenia obserwowanej cechy zmiennej tylko wtedy, kiedy ich zróżnicowanie (asymetria i kurtoza) nie są nadmierne. Wtedy też bezpieczne jest stosowanie klasycznych statystyk opisowych. W innych przypadkach, gdy zbiorowość statystyczna jest wyraźnie niejednorodna należy skorzystać z pozycyjnych statystyk opisowych. Miary położenia Wektory nieuporządkowanych danych liczbowych o wariantach cechy zmiennej tworzą szczegółowe empiryczne rozkłady cech X1, X2, …(jedna lub więcej cech) o liczbie informacji odpowiednio równej n1, n2, …(jedna lub więcej zbiorowości). Jeśli interesujemy się tylko jedną zbiorowością statystyczną (n) rozpatrywaną z punktu widzenia dwóch mierzalnych cech zmiennych (X1 oraz X2), dane te tworzą dwa szczegółowe empiryczne rozkłady cech X1 i X2 z liczba informacji n. Jeżeli chcemy dowiedzieć się, jaka jest tendencja centralna (poziom przeciętnych wariantów cechy zmiennej), to mamy do wyboru statystyki klasyczne (np. średnią arytmetyczną) oraz statystyki pozycyjne (np. medianę i dominantę). Wartości liczbowe tych statystyk możemy otrzymać (z wyjątkiem dominanty) z modułu Statystyki podstawowe i tabele pakietu Statistica.pl.

6

O ile średnia arytmetyczna jest klasyczną miarą przeciętnego poziomu cechy (funkcja wszystkich obserwacji), o tyle mediana należy do grupy średnich pozycyjnych. Warunkiem prawidłowego wyznaczenia mediany z danych indywidualnych jest uprzednie uporządkowanie (automatycznie realizowane przez pakiet komputerowy) szczegółowego empirycznego rozkładu cechy zmiennej. Wtedy też, w zbiorze uporządkowanych numerów poszczególnych jednostek zbiorowości (od xmin do xmax lub odwrotnie) wariant cechy o numerze 1 — (n + 1) jest medianą, czyli 2

1 Mx = x — ( n + 1 )

2

Z tym, że zachodzi dla: - parzystego n → w ( xj < Mx ) = ½ - nieparzystego n → w (xj < Mx ) ≈ ½ Odległość liczbowa średniej arytmetycznej od mediany może potwierdzać stopień niejednorodności zbioru badanych jednostek zbiorowości statystycznej, a tym samym określać użyteczność posługiwania się średnią arytmetyką w opisie struktury zbiorowości. Rozróżniamy trzy najprostsze sytuacje co do regularnego empirycznego rozkładu mierzalnej cechy zmiennej, który może się charakteryzować: - liczebną przewagą jednostek zbiorowości o relatywnie wysokich wariantach badanej cechy i wtedy zachodzi, że ‗ X < Mx (asymetria lewostronna, czyli ujemna) - liczebną przewagą jednostek zbiorowości o relatywnie niskich wariantach obserwowanej cechy i wtedy zachodzi, że ‗ X > Mx (asymetria prawostronna, dodatnia) - liczebną równowagę jednostek zbiorowości mających niskie i wysokie warianty obserwowanej cechy i wtedy zachodzi, że ‗ X = Mx , co odpowiada symetrii rozkładu , przy czym taka sytuacja nie zachodzi praktycznie nigdy w obserwacji zjawisk ekonomicznych. Dominantę definiowaną powyżej użytkownik pakietu Statistica.pl może znaleźć w module Statystyki nieparametryczne. Jednakże szacowania dominanty jako miary położenia nie są objęte oprogramowaniem i wymagają operowania empirycznym rozkładem danych pogrupowanych ( szereg rozdzielczy).

7

Wykres ramkowy (czyli „pudełko z wąsami”) - składa się z prostokąta (dla 50% informacji) oraz z dwóch, różnej długości, linii pionowych (dla pozostałych 50% informacji). Wysokość prostokąta ograniczona jest kwartylem pierwszym od dołu i kwartale trzecim do góry. Wewnątrz pudełka zaznaczony jest punkt, którego jedna ze współrzędnych jest medianą. Wąsy pudełka kończą się na najniższym i najwyższym wariancie obserwowanej cechy. Niesymetryczne położenie punktu medialnego w pudełku oraz różna długość wąsów świadczą o wysokim zróżnicowaniu i silnej asymetrii rozkładu empirycznego. Najważniejszymi statystykami opisowymi dla mierzenia tendencji centralnej są średnia arytmetyczna oraz mediana. Kiedy występuje znacząca liczbowo różnica między tymi ocenami badana zbiorowość statystyczna jest niejednorodna. Należy wówczas dla jej badania posłużyć się statystykami pozycyjnymi. Miary zróżnicowania Miarami zróżnicowania określamy statystyki opisowe służące do mierzenia przeciętnego zróżnicowania wariantów mierzalnej cechy zmiennej. Punktem odniesienia dla ich liczbowego wyznaczania jest albo średnia arytmetyczna (klasyczne miary zróżnicowania), albo mediana (pozycyjne miary zróżnicowania). Podstawową klasyczną miarą zróżnicowania jest wariancja : ( S²x). Wariancja jest liczbą mianowaną w postaci kwadratu miana wariantów mierzalnej cechy X i dlatego nie jest interpretowana. Ma jednak wielorakie zastosowania w statystyce, w tym przede wszystkim stanowi podstawę wyznaczania odchylenia standardowego (Sx) oraz procentowego współczynnika zmienności (Vx). We wszystkich pakietach komputerowych wariancja obliczana jest odmiennie, tzn. jako wariancja nieobciążona: 1 n ‗ Ŝ ²x = —— ∑ (xj - x )²

n – 1 j=1

gdzie s= n-1 określane jest jako liczba stopni swobody (oznaczane komputerowo df lub D.F.) tzn. liczba niezależnych wyników obserwacji w zbiorze n wyników. Zachodzi więc relacja: S²x= [ ( n-1 ) : n ] Ŝ²x W rezultacie komputerowego rachunku wariancji nieobciążonej, odchylenie standardowe oraz procentowy współczynnik zmienności są kalkulowane także w inny sposób: ^ _ Ŝx = √Ŝ²x oraz Vx = 100 ( Ŝx : x ) ^ Przy czym zachodzi, że Ŝx > Sx oraz V > Vx Niekiedy w analizach statystycznych może chodzić o wydzielenie z badanej zbiorowości takiego podzbioru, który składa się z najbardziej typowych jednostek. Służy temu typowy przedział zmienności, określany zwykle jako: _ _ ‹x – Ŝx : x + Ŝx › , czyli przedział o długości dwóch odchyleń standardowych.

8

Obok klasycznych miar zróżnicowania występują także pozycyjne miary zróżnicowania. Do szczególnie użytecznych w analizach statystycznych zaliczmy odchylenie ćwiartkowe(Qx) oraz pozycyjny procentowy współczynnik zmienności (Vx). Są one oparte na kwartynach (pierwszym, drugim i trzecim) i mają postać: Qx = (Q3 – Q1) : 2 oraz V′x = 100 (Qx : Q2 ), gdzie Q2 = Mx, Q1 to kwartyl pierwszy, czyli dolny, Q3 to kwartyl trzeci, czyli górny. Zastosowanie pozycyjnych miar przeciętnego zróżnicowania powinno mieć miejsce wtedy, gdy jednostki zbiorowości statystycznych są nadmiernie zróżnicowane (Vx wyraźnie wyższy od 50 %) oraz wtedy, gdy empiryczne rozkłady cech są wysoce nieregularne (np. mają bardzo silna asymetrię, kilka dominant, itp.). Wtedy też, typowy przedział zmienności może być wyznaczany pozycyjnie (tylko dla 50 % najbardziej typowych jednostek), jako ‹ Mx – Qx : Mx + Qx › Obok omówionych powyżej klasycznych statystyk opisu przeciętnego zróżnicowania, zastosowanie w analizach statystycznych ma niekiedy odchylenie przeciętne (dx), określane jako: n _ dx= ∑ | xj – x | : ngdzie zachodzi, że dx <Sx .

j=1

Standaryzacja wariantów cechy zmiennej Warianty mierzalnych cech zmiennych występują w swojej pierwotnej postaci, tzn. są wyrażane liczbowo w pieniężnych lub w naturalnych jednostkach miary. W takich też jednostkach pojawiają się opisowe statystyki położenia i zróżnicowania. Są to więc liczby mianowane. Jeżeli analizy statystyczne mają charakter porównawczy, to znaczenia nabierają standaryzowane warianty obserwowanych cech mierzalnych. Aby z liczb mianowanych ( wektor danych postaci [ xj ]) można było otrzymać liczby niemianowane (wektor danych postaci [ xj.stand. ] ), należy ciąg różnic od średniej _ arytmetycznej (xj - x ), dla wszystkich j = 1, 2, …., n ) wyrazić w jednostkach odchylenia standardowego (Ŝx), to jest jako: _ n _ xj.stand. = (xj – x ) : Ŝx , przy czym zachodzi, że ∑ xj. stand. = 0, xj. stand. = 0 oraz j=1 S²xj.stand. = Sxj. stand. = 1. Dla zbiorowości statystycznych, charakteryzujących umiarkowanym zróżnicowaniem wariantów obserwowanej cechy zmiennej, zachodzi zazwyczaj, że standaryzowane warianty xj. stand. Znajdują się w przedziale (-3, +3) lub nawet w przedziale (-2, +2). Jeżeli pojedyncze obserwacje nie zawierają się w tych przedziałach, to może to świadczyć o tym, że: - występują nietypowo niskie, lub nietypowo wysokie warianty cechy (wtedy trzeba rozważyć, czy takie jednostki zbiorowości statystycznej nie powinny być wyeliminowane) - występuje błąd w zapisie liczbowym – najczęściej pojawiający się przed standaryzacją – który należy usunąć.

9

Miary asymetrii i kurtozy Po wyznaczeniu przeciętnego poziomu oraz przeciętnego zróżnicowania wariantów mierzalnej cechy zmiennej interesujemy się zwykle pogłębiona analizą struktury zjawisk masowych. Obejmuje ona m. in. odpowiedź na pytania : - przy jakich poziomach wariantów cechy lokalizuje się relatywnie największa liczba jednostek danej zbiorowości? I to właśnie zjawisko określane jest jako asymetria prawostronna (średnia arytmetyczna wyższa od mediany), lub lewostronna ( średnia arytmetyka niższa od mediany); - jaki jest stopień skupienia wariantów cechy względem ich średnio arytmetycznego poziomu, przy czym jako punkt odniesienia przyjmuje się standaryzowany symetryczny rozkład normalny, którego stopień skupienia określa się jako zerową kurtozę. Wyższy od normalnego stopień skupienia (spiczastość rozkładu danych) określamy jako dodatnią kurtozę, niższy ( rozmytość układu danych) określamy jako kurtozę ujemną. Zjawisko kurtozy jest szczególnym przypadkiem szerszego zjawiska, określanego jako statystyczna koncentracja zwykle wysokiego odsetka górnej sumy wariantów cechy mierzalnej względem niewielkiego odsetka jednostek badanej zbiorowości statystycznej. Podstawową klasyczną miarą asymetrii jest współczynnik asymetrii (Ax), oparty na trzecim momencie centralnym (m3), w przeliczeniu na sześcian odchylenia standardowego (S³x), tzn. jako : n _ Ax= m3 : S³x = [ 1/n ∑ (xj – x )³ ] : S³x j =1 Pierwszy moment centralny równa się zero (m1 = 0), natomiast drugi moment centralny równa się wariancji (m2 = S²x), przy czym, kiedy występuje umiarkowana siła asymetrii, to współczynnik Ax przyjmuje wartości liczbowe na ogół z przedziału niskich liczb ujemnych lub dodatnich. Wskazuje zatem nie tylko na siłę asymetrii, ale także na jej kierunek. - zamiana współczynnika asymetrii obciążonego na miarę nieobciążoną ( Ax →Âx ): n _ n ∑ (xj – x ) ³ j=1 Âx = ———————— dla n ≥ 3 (n-1) (n-2) Ŝx³ Miara asymetrii może być też podana w postaci standaryzowanej. Przyjmuje się wtedy założenie (właściwe wyłącznie dla n > 150), że w długim ciągu niezależnych prób losowych średnia arytmetyczna wyników Âx jest równa zero, zaś odchylenie standardowe tych wyników równa się w przybliżeniu √6:n. Wtedy też standaryzowany i nieobciążony współczynnik asymetrii ma postać: Âx.stand. ≈ Âx : √ 6:n ,

10

który przy umiarkowanej sile asymetrii na ogół przyjmuje wartości liczbowe z przedziału (-3, +3 ). Ze względu na ograniczenia formalne ( warunek n > 150 ), miara asymetrii nie jest objęta bezpośrednim oprogramowaniem pakietu Statistica.pl. Bardziej skomplikowana jest kalkulacja współczynnika kurtozy. Oparte są na czwartym momencie centralnym (m4). - postać obciążona 4 n _ 4 4 Cx = mx : Sx = [ ∑ (xj – x ) : n ] : Sx j=1 - postać nieobciążona n _ 4 n _

‹ n (n+1) ∑ (xj – x ) - 3 ( n – 1 ) [ ∑ (xj – x )² ] ² › j=1 j=1 Ĉ= ————————————————————————— , dla n ≥ 4 4 (n-1) (n-2) (n-3) Ŝx - postać nieobciążona i jednocześnie standaryzowana Ĉx.satand. ≈ Ĉx : √ 24 :n Przy czym, analogicznie jak w przypadku współczynników asymetrii, oprogramowany w pakiecie Statistica.pl jest tylko nieobciążony współczynnik asymetrii oraz dokładniejsze (od √ 24:n ) odchylenie standardowe. Wartość liczbowa postaci nieobciążonej, standaryzowanej wskazuje na siłę i kierunek kurtozy. Obliczony współczynnik kurtozy na ogół przyjmuje wartości z przedziału (-3, +3 ). W przypadku gdy jest mniejszy od -3 występuje znaczące spłaszczenie rozkładu empirycznego, natomiast, gdy jest jego wartość jest większa od +3 występuje znacząca spiczastość tego rozkładu. Szeregi rozdzielcze Szeregami rozdzielczymi nazywamy empiryczne rozkłady cech zmiennych powstałe w rezultacie grupowania danych. Jeżeli obserwujemy mierzalną cechę skokową z wariantami, które są całkowitymi liczbami jedno- lub wielocyfrowymi, to wtedy konstruujemy szereg rozdzielczy postaci punktowej (bez przedziałów). Rozwinięty schemat takiego szeregu jest wtedy następujący :

11

X = xi ni wi = ni : n w ( X ≤ xi ) X1 n1 w1 w1 X2 n2 w2 w1+w2 · · · · · · · · · · · · xk nk wk 1 k ∑ i=1

n

1

przy czym przyporządkowanie wektora [ni] lub wektora [wi] wektorowi [xi] dla wszystkich i = 1, 2, ….., k jest szeregiem rozdzielczym w postaci punktowej. Występuje przy tym pojęcie dystrybuanty empirycznej G( X = xi ), definiowane dla mierzalnych cech skokowych, jako funkcja niemalejąca postaci: G (X = xi ) = w ( X ≤ xi) , która przyjmuje wartości liczbowe z przedziału ( 0;1), przy czym kres dolny osiąga w przypadku X < xi =xmin (wtedy G( X< xi = xmin ) = 0), natomiast kres górny w przypadku X = xk = xmax (wtedy G( X ≤ xk = xmax ) = 1). Oceny liczbowe dystrybuant są komputerowo podawane w procentach, a zatem ich kresy dolny i górny wynoszą odpowiednio 0 % i 100 %. Inne są natomiast algorytmy i wyniki w przypadku, gdy obserwowane warianty cechy mierzalnej (skokowej lub ciągłej) są przedstawione w postaci przedziałowego szeregu rozdzielczego, w którym następuje przyporządkowanie wektora [ni] lub wektora [wi] wektorowi dolnych i górnych granic [ x0i ; x1i] każdego kolejnegoprzedziału klasowego wariantów obserwowanej cechy i = 1, 2, ….,k, gdzie (2 ≤ k ≤ n) Rozwinięty schemat takiego rozkładu przedstawić można następująco: i

x0i < X ≤ x1i

 xi

ni

wi

w( X ≤ x1i)

1

x01;x11

 x1

n1

w1

w1

2

x02;x12

. x2

n2

w2

w1+w2

· · · · · · · · · · · · k

x0k;x1k

. xk

nk

wk

1

∑ i

n 1

przy oznaczeniach tych samych, jak w punktowym rozkładzie empirycznym, z

12

. wyjątkiem nowego pojęcia, tzw. środków przedziałów klasowych (xi), definiowanych jako: . xi = (x0i + x1i ) :2 , które w przedziałowych szeregach rozdzielczych reprezentują (lepiej lub gorzej) wszystkie warianty cechy mierzalnej w danym przedziale. Sposób zapisywania przedziałów klasowych jest konwencją i zależy m.in. od rodzaju cechy zmiennej. Liczba przedziałów klasowych (k) oraz ich rozpiętość (hi) mogą być orientacyjnie wyznaczane według różnych algorytmów, w tym także według wzoru: xmax - xmin k = √n oraz hi = ——————— k Rozpiętość wszystkich przedziałów może być jednakowa lub różna, co nie pozostaje bez wpływu na poziom statystyk opisowych wyznaczonych w oparciu o przedziałowy szereg rozdzielczy. Należy zauważyć, że pomiędzy rzeczywistymi (opartymi na danych indywidualnych) i szacowanymi (opartymi na środkach przedziałów klasowych) opisowymi statystykami występują różnica, które mogą się okazać znaczące statystycznie. Zbiór miar opartych na szeregu rozdzielczym, przy odmiennej liczbie przedziałów klasowych, byłby inny. Powodem różnic jest to, że na ogół środki przedziałów klasowych różnią się ( na skutek wewnętrznej, przedziałowej asymetrii mogą być przeszacowane lub niedoszacowane) od rzeczywistych średnich arytmetycznych w przedziałach klasowych. Im wyższe zróżnicowanie oraz wyraźniejsza asymetria (zwłaszcza krańcowa) empirycznego rozkładu wyników obserwacji statystycznej, tym mniejszy powinien być zakres użyteczności statystyk opisowych szacowanych ze środków przedziałów. Stają się one wtedy słabo reprezentatywne względem podzbiorów informacji zawartych w utworzonych przedziałach klasowych. Stosowanie wzorów interpolacyjnych może okazać się jednak konieczne wtedy, gdy nie mamy żadnych innych informacji, poza przedziałowym szeregiem rozdzielczym. Z dotychczasowych prezentacji opisowych miar struktury badanych zjawisk masowych wynika, że są one różne zakresowo i rodzajowo. Wybór określonego zakresu opisywanej analizy i rodzaju użytych miar statystycznych zależy nie tylko od sformułowanych celów badawczych i rodzaju dysponowanych danych liczbowych, ale także od stopnia jednorodności obserwowanych zbiorowościstatystycznych. Zbiorowość statystyczna względnie jednorodna z punktu widzenia rozkładu danej cechy zmiennej, może być jednocześnie niejednorodna ze względu na rozkłady innych cech zmiennych. Umownie można jednak przyjąć, że względnie jednorodne (ze względu na daną cechę zmienną) są takie zbiory jednostek obserwacji, których empiryczne rozkłady charakteryzują się jednym wyraźnym maksimum, umiarkowanym zróżnicowaniem i nienadmierną asymetrią. Wszystkie inne rozkłady, a zwłaszcza o nieregularnym przebiegu, odpowiadają zbiorowościom statystycznym niejednorodnym i ich opisowa analiza powinna być oparta jedynie na pozycyjnych miarach opisu struktury. Korzystniejsze dla analizy byłoby jednak dokonanie podziałuniejednorodnej zbiorowości statystycznej na bardziej jednorodnepodzbiorowości i stosowanie wtedy, już bez ograniczeń, klasycznych miar opisu struktury.

13

Inne miary opisu struktury - dominanta (Dx) * można ją wprowadzić do analizy statystycznej jedynie w przypadku uprzedniej zmiany danych indywidualnych na dane pogrupowane (szeregi rozdzielcze) i dodatkowo tylko wtedy, kiedy rozkład empiryczny ma jedno wyraźne maksimum. Jeżeli warunki te są spełnione, to mamy do czynienia z dwoma sytuacjami:

1) szereg rozdzielczy jest punktowy i wtedy dominanta jest ten wariant cechy zmiennej, który występuje najczęściej. Dominanta wyznaczana jest zatem przez wskazanie Dx = xidla maksymalnej ni lub wi;

2) szereg rozdzielczy jest przedziałowy i wtedy dominantą jest ten wariant cechy zmiennej, wokół którego grupuje się największa liczba jednostek zbiorowości statystycznej. Dominanta jest wtedy szacowana interpolacyjnie z podzbioruwariantów trzech (o równej rozpiętości) przedziałówklasowych jako:

w - w Dx Dx -1 Dx ≈ x + ——————————————— h

0Dx 2 w - w - w Dx Dx Dx –1 Dx+1 gdzie : x - dolna granica przedziału dominanty 0Dx w , w , w - liczba jednostek obserwacji w przedziałach dominanty Dx Dx-1 Dx+1 (badanym, poprzednim i następnym) h - rozpiętość przedziału dominanty Dx W sytuacji, gdy wszystkie trzy rodzaje opisowych miar położenia (średnia, mediana i dominanta) szacowane są z przedziałowych szeregów rozdzielczych, a nie z danych indywidualnych, można rozpatrywać nierówność: _ _  . x > Mx > Dx lub x < Mx < Dx co występuje w przypadku asymetrii dodatniej (dominanta najniższa) lub asymetrii ujemnej (dominanta najwyższa). - pozycyjny współczynnik asymetrii (A'x) Można go skonstruować w oparciu o kwartyle (pierwszy, drugi i trzeci). Jest szczególnie użyteczny w przypadkach, kiedy analizy struktury dotyczą niejednorodnych, lub nie w pełni jednorodnych, zbiorowości statystycznych. Ma on postać: A'x = (Q3 – 2Q2 + Q1) : (Q3 – Q1), przy czym przyjmuje on wartości liczbowe z przedziału (-1;+1). Wskazuje zatem na kierunek (znak) i na siłę (moduł) wyznaczanej pozycyjnie asymetrii rozkładu.

14

- współczynnik skośności (A''x) Wyznaczamy go dysponując danymi liczbowymi w postaci przedziałowego szeregu rozdzielczego oraz kiedy spełnione są formalne warunki szacowania dominanty. Oparty jest na średniej arytmetycznej, dominancie i odchyleniu standardowym: _ .   A''x = (x – Dx ) : Sx , gdzie odchylenie standardowe Sx jest pierwiastkiem kwadratowym z wariancji, szacowanej jako: k k S²x = 1/n ∑ (xi – x )² ni = ∑ (xi – x)² wi i=1 i=1 - siła koncentracji Siła koncentracji jest stopniem nierówności rozłożenia ogólnej sumy wartości mierzalnej cechy zmiennej pomiędzy poszczególne grupy jednostek badanej zbiorowości statystycznej. Liczbowe wyrażenie siły koncentracji wymaga transformacji pierwotnego szeregu rozdzielczego, w którym nastąpiło przyporządkowanie wektora [ni] wektorowi [x0i ; x1i ], na szereg rozdzielczy wtórny, w którym następuje przyporządkowanie wektora ni [ mi = ∑ xij ] wektorowi [ni ], w obu przypadkach dla wszystkich j = 1, 2, …., ni, gdzie j=1 ni są liczebnościami utworzonych przedziałów klasowych. Statystyczny pomiar siły zjawiska koncentracji odbywa się na podstawie porównania liczbowych ciągów dystrybuant empirycznych, tym razem definiowanych jako: G1 (x1i) = w1 (X < x1i) oraz G2 (x1i) = w2 (X < x1i), dla wszystkich i = 1, 2,…,k (liczba przedziałów klasowych), gdzie: k k w1 = ni : ∑ ni oraz w2 = mi : ∑ mi i=1 i=1 Rozróżnić należy dwie możliwe sytuacje (teoretyczną i empiryczną), a mianowicie: - jeżeli występuje całkowity brak koncentracji zjawiska, to występuje identyczność ciągów empirycznych dystrybuant G1 i G2, tzn. dla wszystkich i = 1, 2, …, k zachodzi, że : w1 (X < x1i) = w2 (X < x1i) - jeżeli występuje koncentracja zjawiska , to tym większa jest niezgodność liczbowych ciągów dystrybuant G1 i G2, im wyższa jest koncentracja badanego zjawiska. Wtedy zachodzi, że: w1 (X < x1i ) > w2 (X < x1i ), dla wszystkich i = 1, 2,…, k. Na tej podstawie skonstruowana została opisowa miara siły koncentracji (km), zwana współczynnikiem Lorenza: k km = 1 - ∑ [w2 ( X < x1i ) + w2 ( X< x1i )] w1i

i=1 przy czym współczynnik koncentracji przyjmuje wartości z przedziału liczbowego od 0 do 1. Krańcowe wartości liczbowe tego współczynnika praktycznie nie mogą się pojawić i stąd 0 < km < 1.

15

Opisowa analiza porównawcza struktur Badania statystyczne dotyczą zazwyczaj wielowymiarowych przestrzenipozyskiwania i analizowania informacjiliczbowych, obejmujących swym zasięgiem różne zbiorowości jednostek obserwacji oraz różne cechy zmienne. W takich sytuacjach szczególne znaczenie ma właściwy dobór statystycznych meto analizy porównawczej. Aby zbiorowość statystyczną uczynić bardziej jednorodną ze względu na obserwowaną cechę zmienną, należy wydzielić z niej dwie lub więcej podzbiorowości. Charakteryzują się one mniejszym zróżnicowaniem, czego wyrazem są niższe wariancje cechy w porównaniu do wariancji cechy dla całej zbiorowości. Podział zbioru wszystkich obserwacji na podgrupy odbywa się komputerowo w drodze zastosowania procedur i opcji kodowania obserwowanych zmiennych. W pakiecie Statistica.pl procedury i opcje kodowania zmiennych uruchamiane są poprzez menu Dane. W analizach statystycznych interesujemy się przede wszystkim diagnostycznym efektem podziału zbiorowości statystycznejna bardziej jednorodnegrupy jednostek. Procedury i opcje kodowania zmiennych są tylko technicznym środkiem uzyskania efektu diagnostycznego. Diagnostyczne walory analiz statystycznych ulegają poprawie tylko wtedy, gdy cecha zmienna , uznana przez użytkownika jako czynnik klasyfikacyjny, jest statystycznie znacząco związana z opisywanymi cechami zmiennymi. Dlatego też często przyjmowane jest niezależne i rozdzielne kryterium podziału jednostekzbiorowości statystycznej na podzbiorowości dla każdej cechy zmiennejosobno. Dla takich niezależnych i rozdzielnych podziałów badanej zbiorowości statystycznej uzyskujemy zawsze efekt spadku warunkowych wariancji, odchyleń standardowychićwiartkowych oraz warunkowych współczynników zmienności ( klasycznych i pozycyjnych). Analizy statystyczne informacji warunkowych (przynależnych do poszczególnych grup jednostek obserwacji) nie zastępują analiz prowadzonych na informacjach sumarycznych (dla wszystkich jednostek obserwacji), ale stanowiąc ich znaczące wzbogacenie, mogą niekiedy umożliwiać formułowanie wniosków natury ogólniejszej. PRZYKŁAD Porównania numeryczne i graficzne Zbadano 68 koncernów w Polsce (2005 r.) ze względu na rozmiary przychodów brutto (x1) w mld złotych oraz ze względu na pozycje ekonomiczną (x2) w pkt. Wzięto pod uwagę 67 miar ekonomicznych. Wydruk komputerowy ma postać: nr konsorcja x1 x2 1 KGHM Polska Miedź 8,0 1688 2 BSH SGD 1,8 1634 … ……….. … … … ……….. … … 67 SPEC 1,3 593 68 Lasy Państwowe 5,1 593 - ze względu na którą zmienną rozkład empiryczny konsorcjów jest (z punktu widzenia zróżnicowani i skośności) bardziej jednolity statystycznie? a) x1 b) x2

komentarze (0)
Brak komentarzy
Bądź autorem pierwszego komentarza!
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
Docsity is not optimized for the browser you're using. In order to have a better experience we suggest you to use Internet Explorer 9+, Chrome, Firefox or Safari! Download Google Chrome