Wykrywanie wartości nietypowych - Notatki - Statystyka opisowa, Notatki'z Międzynarodowy handel i finanse. Poznan University of Economics
atom_86
atom_8611 March 2013

Wykrywanie wartości nietypowych - Notatki - Statystyka opisowa, Notatki'z Międzynarodowy handel i finanse. Poznan University of Economics

PDF (200 KB)
3 strony
1000+Liczba odwiedzin
Opis
Notatki przedstawiające zagadnienia z zakresu statystyki opisowej: wykrywanie wartości nietypowych; dane ucięte i winsorowskie (Trimmed and Winsorized Data Sets).
20punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 3
Pobierz dokument

Wykrywanie wartości nietypowych.

Najprostszym sposobem wykrywania wartości nietypowych jest stwierdzenie czy leżą w przedziale trzech odchyleń standardowych wokół

średniej, tzn. czy wartości po standaryzacji są większe co do wartości

bezwzględnej od 3. Jednak jak to zostało stwierdzone powyżej takie

postępowanie może być obarczone błędem. Inne podejście do tego problemu zaproponował Tukey jest to tzw. Box-and-Whisker Plot, który

został omówiony wcześniej.

Dane ucięte i winsorowskie (Trimmed and Winsorized Data Sets): Łatwość wyznaczania procedur wnioskowania statystycznego dla średniej i

odchylenia standardowego w porównaniu z medianą i kwartylami,

spowodowała poszukiwania przez statystyków możliwości adaptowania

zbioru danych w ten sposób, żeby można było je liczyć. C.P. Winsor zauważuł, że większość danych empirycznych jest zbliżona do danych

normalnych w środku zmienności a odstępstwa pojawiają się zwykle na

brzegach. W przypadku, gdy wartości nietypowe są jedynym powodem

odstępstwa od normalności to usunięcie ich z próby może spowodować

rozwiązanie problemu, oczywiście pod warunkiem, że badana cecha ma rozkład symetryczny. Powstaje pytanie ile danych usunąć. Zwykle usuwa

się po 10% próbki z obu stron, tzn. po 0 1. n obserwcji najmniejszych i

największych. W MINITAB-ie ucina się po 5% z obu stron. W dalszym

ciągu średnią i odchylenie standadowe dla danych uciętych będziemy

oznaczać przez  Tx i  Ts odpowiednio. Nie zawsze takie postępowanie jest zadawalające. Ma to szczególne znaczenie dla małych licznych próbek

przy ocenie odchylenia standardowego, które w praktyce może być

znacznie większe niż obliczone dla danych uciętych. Wówczas dokonujemy tzw. winsoryzacji danych tzn. zastąpienia danych odrzucanych wartością

najmniejszą lub największą z próbki uciętej. Tym samym nie zmieniamy

liczności próbki, a jedynie dokonujemy zawężenia rozstępu z próbki.

Średnią i odchylenie standadowe dla danych wisoryzowanych będziemy oznaczać przez  Wx i  Ws odpowiednio.

Przykład. Wybrano losowo 25 osób osiągających dochody powyżej 4 tys.

PLN miesięcznie i uzyskano następujący rozkład częstości:

Wiek 29 33 37 38 39 40 42 43 45 47 50 59 66

Częstoś ć

1 1 3 4 2 3 2 2 3 1 1 1 1

Wyznaczyć średni wiek.

Rozwiązanie.x = 42, s = 7.64. Q1 = 38 oraz Q3 = 58, zatem IQR = 5 a

PSD = 3.7. Korzystając z wykresu Box-and-Whisker Plot stwierdzamy, że są dwie obserwacje nietypowe: 66 i 59. W celu wyznaczenia średniej

docsity.com

uciętej odrzucamy po 3 obserwacje z każdej strony  Tx =40.84 a  Ts = 3.10. Nowy zbiór danych nie ma już wartości nietypowych. W obu

przypadkach mediana jest równa 40. Pomimo, że dane po ucięciu są

symetryczne to w dalszym ciągu PSD(T) = 5.19 <  Ts co świadczy o dużych ogonach. Poniżej podane zostały obliczenia wykonane przy użyciu

pakietu MINITAB.

MTB > print c1

C1 29 33 37 37 37 38 38 38 38 39 39 40 40

40 42 42 43 43 45 45 45 47 50 59 66

MTB > boxplot c1

-----------

-------------I + I------- * *

----------- +---------+---------+---------+---------+---------+------C1

28.0 35.0 42.0 49.0 56.0 63.0

MTB > describe c1

N MEAN MEDIAN TRMEAN STDEV SEMEAN

C1 25 42.00 40.00 41.52 7.64 1.53

MIN MAX Q1 Q3 C1 29.00 66.00 38.00 45.00

MTB > print c2 # dane ucięte po 5% z obu stron

C2

37 37 37 38 38 38 38 39 39 40 40 40 42 42 43 43 45 45 45 47 50

MTB > boxplot c2

---------------------

----I + I----------------------------

---------------------

----+---------+---------+---------+---------+---------+--C2 37.5 40.0 42.5 45.0 47.5 50.0

MTB > describe c2

N MEAN MEDIAN TRMEAN STDEV SEMEAN

C2 21 41.095 40.000 40.842 3.673 0.802

docsity.com

MIN MAX Q1 Q3

C2 37.000 50.000 38.000 44.000

docsity.com

komentarze (0)
Brak komentarzy
Bądź autorem pierwszego komentarza!
Pobierz dokument