





Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
1.1.1 Liczenie sredniej arytmetycznej z szeregu rozdzielczego ... rozdzielczy przedziałowy: ... Przykład 1.4 — Mediana z szeregu rozdzielczego.
Typologia: Streszczenia
1 / 9
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Liczenie statystyk opisowych w du˙zych danych mo˙ze sprawia´c problemy. Dla przykładu zauwa˙zmy, ˙ze naiwna implementacja ´sredniej arytmetycznej wymaga aby dane w cało´sci mie´sciły si˛e w pami˛eci RAM, co cz˛esto nie jest wykonalne. Dla przykładu mamy czujniki rozmieszczone wzdłu˙z wybrze˙za mierz ˛ace temperatur˛e wady, poziom fal, sił˛e wiatru itd. Czujników takich jest oczywi´scie bardzo, bardzo du˙zo a ka˙zdy z nich wysyła swoje pomiary do głównego serwera co kilka milisekund. Zauwa˙z, ˙ze nawet gdyby´smy chcieli te wszystkie pomiary zapisywa´c na dysku twardym (nie mówmy nawet o pami˛eci RAM) to po nawet stosunkowo krótkim czasie (kilka dni) zabrakłoby nam miejsca. Z tego powodu chcieliby´smy liczy´c np. ´sredni ˛a arytmetyczn ˛a w sposób przyrostowy, a dane potraktowa´c jako strumie´n danych (ang. data stream). Co to znaczy? To znaczy, ˙ze mamy w pami˛eci RAM jaki´s bufor (kilka, kilkana´scie zmiennych), który aktualizujemy z ka˙zd ˛a nadesłan ˛a obserwacj ˛a, jednak po tej aktualizacji pomiar jest bezpowrotnie zapomi- nany i nigdy nie mo˙zemy do niego wróci´c. Po pewnym czasie np. jednym roku lub jednym dniu na ˙z ˛adanie u˙zytkownika system jest w stanie na podstawie tych buforów policzy´c z ˛˙adan ˛a statystyk˛e. Przykład 1.1 Jak w takiej sytuacji policzy´c ´sredni ˛a? ´Sredni ˛a dla n elementów mo˙zemy wyrazi´c wzorem:
x¯n =
n
n
i= 1
xi
Rozpoczynaj ˛ac od ¯x 0 = 0 mo˙zemy przekształci´c to we wzór rekurencyjny:
x¯n =
(n − 1 ) x¯n− 1 + xn n
Ten wzór ma jedn ˛a wad˛e: wymaga on od nas obliczenia (n − 1 ) x¯n− 1 co przy du˙zym n prawdopodobnie nie zmie´sci si˛e nam w standardowej zmiennej! Przekształ´cmy wi˛ec dalej:
x¯n =
(n − 1 ) x¯n− 1 + xn n =
(n − 1 ) x¯n− 1 n
xn n =
(n − 1 ) x¯n− 1 n
xn n
x¯n− 1 n
x¯n− 1 n = x¯n− 1 +
xi − x¯n− 1 n
Problem 1.1 W jaki sposób mo˙zna przyrostowo obliczy´c wariancj˛e?
1.1.1 Liczenie ´sredniej arytmetycznej z szeregu rozdzielczego
(^) Natomiast w jaki sposób mo˙zemy obliczy´c w taki sposób median˛e? Albo mod˛e? Jednym ze sposób na poradzenie sobie z tym problemem jest zastosowanie szeregów rozdzielczych, które poznali´smy na poprzednich zaj˛eciach (a przecie˙z ich przechowywanie w pami˛eci nie powinno by´c kosztowne). Jednak jak obliczy´c ´sredni ˛a, wariancj˛e, dominant˛e... z szeregu rozdzielczego? Problem 1.2 Jak mo˙zemy zbudowa´c szereg rozdzielczy przy danych przychodz ˛acych ze strumienia? Nie znamy np. rozst˛epu danych czy liczby przedziałów. Przykład 1.2 — ´Srednia z szeregu rozdzielczego. Rozwa˙zmy przykładowy szereg rozdzielczy przedziałowy:
Przedział Liczno´s´c ni 47,5-52,5 2 52,5-57,5 7 57,5-62,5 15 62,5-67,5 21 67,5-72,5 77 72,5-77,5 18 77,5-82,5 11 82,5-87,5 7 87,5-92,5 3 92,5-97,5 1
W jaki sposób mo˙zemy obliczy´c ´sredni ˛a z tego szeregu? Oczywi´scie nie mo˙zemy tego zrobi´c dokładnie, bo nie mamy wszystkich danych. Ale mo˙zemy zało˙zy´c, ˙ze dane w przedziałach maj ˛a rozkład jednostajny (jest to zało˙zenie, które najprawdopodobniej jest bł˛edne, ale có˙z taki life...). Skoro tak to ´sredni ˛a danych w przedziale jest ´srodek tego przedziału. Wyznaczmy wi˛ec ´srodki przedziałów, a zarazem ´srednie warto´sci danych w poszczególnych przedziałach:
1.1.2 Liczenie wariancji z szeregu rozdzielczego
Przykład 1.3 — Wariancja z szeregu rozdzielczego. Rozwa˙zmy przykładowy szereg rozdzielczy podany w poprzednim przykładzie. W jaki sposób mo˙zemy obliczy´c wariancj˛e z tego szeregu? Oczywi´scie (znów) nie mo˙zemy tego zrobi´c dokładnie, bo nie mamy wszystkich danych. Ale zauwa˙zmy, ˙ze wariancja to jest delikatnie zmodyfikowana ´srednia arytmetyczna (dzielimy na próbce przez n − 1 ) kwadratów odchyłek. A wi˛ec mo˙zemy j ˛a obliczy´c bardzo podobnie jak zwykł ˛a ´sredni ˛a arytmetyczn ˛a!
n − 1
n ∑ i= 1
(xi − x¯)^2
Po pierwsze, aby obliczy´c odchyłk˛e od ´sredniej musimy wyznaczy´c ´sredni ˛a, co zro- bili´smy w poprzednim przykładzie i wynosi ona 69 , 94. Znów, zakładamy, ˙ze dane w przedziałach maj ˛a rozkład jednostajny, a wi˛ec odchyłk˛e od ´sredniej mo˙zemy przybli˙zy´c przez ˙xi − x¯.
Przedział Liczno´s´c ni Srodek przedziału ˙´ xi x˙i − x¯ ( x˙i − x¯)^2 47,5-52,5 2 50 -19,94 397,6036 (= ( 50 − 69 , 94 )^2 ) 52,5-57,5 7 55 -14,94 223,2036 (= ( 55 − 69 , 94 )^2 ) 57,5-62,5 15 60 -9,94 98,8036 (= ( 60 − 69 , 94 )^2 ) 62,5-67,5 21 65 -4,94 24,4036 (= ( 65 − 69 , 94 )^2 ) 67,5-72,5 77 70 0,06 0,0036 (...) 72,5-77,5 18 75 5,06 25, 77,5-82,5 11 80 10,06 101, 82,5-87,5 7 85 15,06 226, 87,5-92,5 3 90 20,06 402, 92,5-97,5 1 95 25,06 628,
Maj ˛ac tak przyszykowan ˛a kolumn˛e potrafimy policzy´c z niej ´sredni ˛a arytmetyczn ˛a: ka˙zd ˛a warto´s´c mno˙zymy przez liczno´s´c przedziału, sumujemy a nast˛epnie dzielimy przez liczb˛e obserwacji (w próbce liczba obserwacji - 1).
! Zauwa˙z, ˙ze wariancje mo˙zna wyrazi´c wzorem:^ D
(^2) X = E[X (^2) ] − (E[X]) (^2). Mo˙zesz to wykorzysta´c do obliczenia wariancji z szeregu licz ˛ac po prostu 2 razy ´sredni ˛a: raz na zwykłych x, a drugi raz na x^2.
1.1 *Jak obliczy ´c statystyki opisowe w du˙zych danych? 5
Definicja 1.2 — Wariancja z szeregu. Wariancj˛e z szeregu obliczamy podobnie jak ´sredni ˛a z szeregu, poprzez zasotowanie ´sredniej wa˙zonej do odchyłek ´srodków przedziałów od ´sredniej:
S^2 ≈
n − 1
K ∑ i= 1
ni( x˙i − x¯)^2
gdzie n = ∑ ni, K to liczba przedziałów, ni to liczno´s´c i-tego przedziału, a x˙i to jego ´srodek. Uwaga! Jest to warto´s´c przybli˙zona, zakładaj ˛aca jednorodny rozkład warto´sci w przedziale (tj. ˙ze ´sredni kwadrat odchyłek w przedziale jest równy ´sredniemu kwadra- towi odchyłki jego ´srodka)
Cwiczenie 1.1 — ´^ ´ Srednia i wariancja w szeregu rozdzielczym. Otwórz arkusz kalkulacyjny dost˛epny pod nast˛epuj ˛acym linkiem: http://www.cs.put.poznan.pl/ mlango/siad/data/excel/02/cw-4.xls i rozwi ˛a˙z ´cwiczenie.
1.1.3 Liczenie mediany z szeregu rozdzielczego
Przykład 1.4 — Mediana z szeregu rozdzielczego. Rozwa˙zmy przykładowy szereg rozdzielczy podany w poprzednim przykładzie. Ile wyniesie mediana? Znów, nie mo˙zemy jej wyznaczy´c dokładnie, natomiast wiemy, ˙ze b˛edzie ona le˙zała w połowie posortowanych warto´sci. Z poprzednich zada´n wiemy, ˙ze liczno´s´c wynosi 162, wi˛ec pozycja mediany to 1622 = 81. W którym przedziale le˙zy ta warto´s´c? Aby si˛e tego dowiedzie´c policzmy liczno´s´c skumulowan ˛a. Przedział Liczno´s´c ni Liczno´s´c skumulowana 47,5-52,5 2 2 52,5-57,5 7 9 (=2+7) 57,5-62,5 15 24 (=2+7+15) 62,5-67,5 21 45 (=2+7+15+21) 67,5-72,5 77 122 (=2+7+15+21+77) 72,5-77,5 18 140 (=...) 77,5-82,5 11 151 82,5-87,5 7 158 87,5-92,5 3 161 92,5-97,5 1 162 (=suma wszystkich liczno´sci) Patrz ˛ac na liczno´sci skumulowane widzimy, ˙ze obserwacje x 1 , x 2 nale˙z ˛a do przedziału pierwszego (47,5-52,5), obserwacje x 3 , x 4 , ..., x 9 nale˙z ˛a do drugiego przedziału itd. W jakim wi˛ec przedziale jest szukana mediana czyli x 81? W przedziale 67,5-72,5, który zawiera obserwacje x 45 , x 46 , ..., x 122. Teraz, gdy wiemy ju˙z w którym przedziale jest mediana zastanówmy si˛e w którym miejscu tego przedziału le˙zy. Wiemy, ˙ze jest ona na 81 pozycji, a wi˛ec jest to 81 − 45 = 36 pozycja w przedziale. Załó˙zmy, ˙ze dane w przedziale maj ˛a rozkład jednorodny. Zauwa˙z, ze przy takim zało˙˙ zeniu warto´s´c x 81 le˙zy dokładnie w 3677 szeroko´sci przedziału (pozycja w przedziale dzielona przez liczno´s´c przedziału).
1.1 *Jak obliczy ´c statystyki opisowe w du˙zych danych? 7
otaczaj ˛acych przedziałów s ˛a równe oraz jedna z otaczaj ˛acych przedział liczno´sci jest wi˛eksza od drugiej (w naszym szeregu mamy wła´snie taki przypadek).
a) b)
Dlaczego rozwa˙zamy takie dwie sytuacje? Otó˙z (odpowiednio znormalizowany) hi- stogram jest empirycznym przybli˙zeniem rozkładu prawdopodobie´nstwa badanej cechy statystycznej (zmiennej losowej). Mod ˛a funkcji g˛esto´sci jest warto´s´c dla której przyjmuje ona najwi˛eksz ˛a warto´s´c. Jak wi˛ec mogłaby wygl ˛ada´c taka funkcja g˛esto´sci przybli˙zona tymi dwoma histogramami?
a) b)
Zauwa˙z, ˙ze w pierwszym przypadku szczyt funkcji g˛esto´sci (czyli dominanta) le˙zy dokładnie na ´srodku przedziału, a w drugim le˙zy on bardziej z jego lewej strony^2. Miejsce to mo˙zemy wyznaczy´c poprzez zastosowanie wzoru (^) a+ab razy szeroko´s´c przedziału. Dlatego, w celu wyznaczenia dominanty do lewego brzegu przedziału dodajemy a a+b szeroko´sci przedziału. Zauwa˙z, ˙ze gdy^ a^ =^ b^ to trafiamy dokładnie w jego ´srodek ( (^) a+ab = 2 aa = 0 , 5 ), a je´sli a > b to trafiamy bardziej w lew ˛a stron˛e i odpowiednio je´sli a < b to bardziej w praw ˛a stron˛e. Jak mo˙zesz si˛e domy´sle´c z rysunku, wysoko´sci a i b to ró˙znice pomi˛edzy liczno´sci ˛a przedziału zawieraj ˛acego dominant˛e oraz liczno´sciami przedziałów go otaczaj ˛acych. Podsumowuj ˛ac:
xmoda ≈ 67 , 5 +
Definicja 1.4 — Dominanta z szeregu. Dominant˛e z szeregu rozdzielczego obli- czamy nast˛epuj ˛acym wzorem:
m 0 ≈ xl +
n 0 − n− 1 (n 0 − n− 1 ) + (n 0 − n+ 1 )
h
(^2) Poniewa˙z liczno´s´c przedziału po prawej stronie jest du˙zo ni˙zsza wydaje si˛e, ˙ze prawa cz˛e´s´c rozwa˙zanego przedziału jest rzadsza ni˙z lewa
gdzie n 0 to cz˛esto´s´c przedziału klasowemu z najwi˛eksz ˛a cz˛esto´sci ˛a, xl to jego lewy brzeg, h to jego szeroko´s´c, n+ 1 i n− 1 to liczno´s´c przedziału nast˛epuj ˛acego po nim i jego poprzedzaj ˛acego.
Cwiczenie 1.2 — ´^ ´ Srednia, dominanta, sko´sno´s ´c i wariancja w szeregu rozdziel- czym. Otwórz arkusz kalkulacyjny dost˛epny pod nast˛epuj ˛acym linkiem: http://www. cs.put.poznan.pl/mlango/siad/data/excel/02/cw-5.xls i rozwi ˛a˙z ´cwiczenie.
Definicja 1.5 — ´Srednia geometryczna. Sredni ˛´ a geometryczn ˛a wyra˙zamy wzorem:
x¯G = n
n ∏ i= 1
xi
Definicja 1.6 — ´Srednia harmoniczna. Sredni ˛´ a harmoniczn ˛a wyra˙zamy wzorem:
x¯H =
1 n ∑
n i= 1
1 xi
n ∑ni= (^1) x^1 i
Przykład 1.6 — Jak ˛a ´sredni ˛a wybra ´c?. Prowadzimy analiz˛e systemu, który przewi- duje prognoz˛e pogody dla kierowców. Aby prawidłowo zmierzy´c jako´s´c takiego systemu zdefiniowali´smy dwa wska´zniki procentowe: skuteczno´s´c przewidywania deszczu d i sku- teczno´s´c przewidywania mgły m (m, h ∈ [0%, 100%]). Chcieliby´smy jednak zdefiniowa´c jeden współczynnik „jako´s´c systemu” poprzez wyci ˛agni˛ecie ´sredniej z d i m. Któr ˛a ´sredni ˛a powinni´smy wybra´c? Najpierw rozwa˙zmy kilka przypadków:
x¯ =
d + m 2
= 50% x¯G =
d · m = 0% x¯H =
1 m +^
1 d
x¯ =
d + m 2
= 50% x¯G =
d · m ≈ 49% x¯H =
1 m +^
1 d
x¯ =
d + m 2
= 50% x¯G =
d · m ≈ 45 , 8% x¯H =
1 m +^
1 d