Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 1, Notatki'z Analiza porównawcza. Rzeszów University
Andrzej_Ku
Andrzej_Ku28 February 2013

Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 1, Notatki'z Analiza porównawcza. Rzeszów University

PDF (721.3 KB)
10 strona
643Liczba odwiedzin
Opis
Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.
20punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 10
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.

ANALIZA SKUPIEŃ (KLASYFIKACJA, GRUPOWANIE) 1.1. ZASTOSOWANIE ANALIZY SKUPIEŃ Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę. Przykład 1: Społeczność nieformalnie dzieli się na „klasy” biorąc pod uwagę ogólnie rozumiany status społeczny, który jest często wypadkową stanu ich majątku oraz ich wykształcenia. Przykład 2: Samochody dzieli się na określone klasy, kierując się nie tylko rodzajem nadwozia, ale także pojemnością i mocą silnika. Analiza skupień ma zastosowanie np. w wyszukiwarkach internetowych – pomaga ona tworzyć sensowne grupy tematycznie powiązanych dokumentów, oraz opisać te grupy w sposób zrozumiały dla człowieka. 1.2. PODSTAWOWE POJĘCIA skupienie (grupa, klasa) - takizbiór obiektów, w którym podobieństwo pomiędzy dowolną parą obiektów jest większe niż podobieństwo pomiędzy jakimkolwiek obiektem należącym do klasy, a dowolnym obiektem do niej nie należącym 1 ; skupienia są rozłączne, czyli żaden obiekt nie może być częścią dwóch klas;

Ilustracja 1. Przykład tworzenia skupień

Źródło: opracowanie własne

Jak widać na prawym rysunku, czasami nie możemy stanowczo stwierdzić ile klas powinno powstać. O metodzie wyboru optymalnej liczby klas dowiemy się w głębi kursu. Odległość (między dwoma obiektami xi i xk)- istnieje wiele sposobów definiowania odległości. W tej pracy będziemy używali odległości euklidesowej, wyrażonej wzorem:

1 GATNAR Eugeniusz, WALESIAK Marek Metody statystycznej analizy wielowymiarowej w badaniach marketingowych. Wrocław : Wydawnictwo Akademii Ekonomicznej, 2004, s. 317

docsity.com

2

1 )(),( kjij

p

j ikki xxdxxd  

(1)

gdzie xij – wartość obiektu xi pod względem cechy j, natomiast p – liczba tych cech. W potocznym rozumowaniu jest to po prostu długość odcinka łączącego dwa punkty. Odległość (między dwoma skupieniami)- może być definiowana w różny sposób, przykłady metod przedstawia ilustracja 22:

2 GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988

docsity.com

Ilustracja 2. Przykład definiowania odległości między skupieniami

Źródło: opracowanie własne na podstawie 3

W tej pracy pokażemy zastosowanie metody środka ciężkości, a zatem należy przypomnieć następny termin: środek ciężkości skupienia – punkt o współrzędnych będących średnimi wartościami cech dla obiektów będących w skupieniu. Dla 2 i 3 cech (wymiarów) łatwo ten punkt zobaczyć (dla uproszczenia przyjęto iż skupienie ma 3 obiekty):

Ilustracja 3. Środek ciężkości w przestrzeni dwu- i trójwymiarowej

3 GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988

docsity.com

Źródło: opracowanie własne Dla więcej niż trzech cech musimy już uruchomić wyobraźnię – wzór ogólny na środek ciężkości ma postać:

 pxxxx ,..., 21 (2) gdzie: 

r

i ijj xr

x 1

1 , r to ilość obiektów w danym skupieniu, a p to ilość cech

opisujących obiekty.

1.3. METODY GRUPOWANIA – OGÓLNA CHARAKTERYSTYKA Ogólnie metody grupowania dzielimy na:

METODY HIERARCHICZNE METODY NIEHIERARCHICZNE

Metody te polegają na iteracyjnym łączeniu obiektów w coraz to większe lub coraz to mniejsze skupienia (budowanie hierarchii skupień w zależności od odległości między nimi)

Metody te polegają na przenoszeniu obiektów z jednego skupienia do innego, w poszukiwaniu najlepszego zestawu skupień wg zadanego kryterium (np. najmniejszej wariancji międzygrupowej)

Każda z tych grup metod jest bardzo rozbudowana i ma wiele wariantów. W tej pracy przedstawiono najczęściej z nich stosowane: procedurę aglomeracyjną (jako przykład metody hierarchicznej)oraz metodę k-średnich (jako przykład metody niehierarchicznej).

docsity.com

1.4. PROCEDURA AGLOMERACYJNA 1. Dysponując macierzą n obiektów i p zmiennych konstruujemy macierz odległości

między poszczególnymi obiektami:

 ikdD  , gdzie i,k=1,..n (3) gdzie ikd - odległość pomiędzy i-tym a k-tym obiektem, wyrażona wzorem (1);

2. Znajdujemy parę obiektów najbardziej podobnych – w sensie najmniejszej odległości - łącząc je w skupienie (wybieramy przy tym dowolną metodę odległości między skupieniami omówioną w rozdziale 1.3) Obiekty te zastąpimy od tej pory jednym, o współrzędnych punktu ciężkości skupienia.

3. Redukujemy wymiar macierzy D o jeden (dwa obiekty zostały zastąpione jednym) i

przeliczamy odległości di pomiędzy nowym skupieniem a pozostałymi obiektami (skupieniami).

4. Powtarzamy kroki 2-3 aż do uzyskania jednego skupienia zawierającego wszystkie

obiekty. Schemat ten dla przykładu 4 obiektów: A,B,C i D przedstawia wykres (zastosowano odległość między punktami skupień):

Ilustracja 4. Schemat procedury aglomeracyjnej

Źródło: opracowanie własne

1.5.PROCEDURA AGLOMERACYJNA – przykład w Excelu

Rozpatrzmy przypadek 10 uniwersytetów, które będą pełniły tu rolę obiektów. Trudno jednoznacznie powiedzieć który z nich jest najlepszy, mają one bowiem różne zalety i wady. W pewnym rankingu opisano je za pomocą trzech cech: X1 – liczba studentów (2005) X2 – liczba uczestników studiów doktoranckich (2005) X3 – liczba profesorów zwyczajnych pełnozatrudnionych (2005)

docsity.com

Ilustracja 5. Wartości cech X1, X2, X3 w wybranych 10 uniwersytetach

Źródło: opracowanie własne

Aby otrzymać grupy uniwersytetów o podobnych cechach, zastosowano hierarchiczną analizę skupień. Ponieważ każda z cech jest na innej skali, (liczba studentów w tysiącach, liczba profesorów w dziesiątkach), więc wymagają one standaryzacji według wzoru:

j

jij ij S

xx z

  (4)

gdzie: ijx - wartość dla i -tego obiektu i j-tej cechy, jx - średnia względem j-tej cech,

Sj – odchylenie standardowe względem j-tej cechy.

Otrzymane wartości zestandaryzowane przedstawiono w tabeli:

Ilustracja 6. Wartości zestandaryzowane cech X1, X2, X3

i Uniwersytet X1i X2i X3i 1 UG -0,19 0,23 -0,35 2 UŁ 0,54 0,29 0,38 3 UMCS 0,15 -0,08 0,04 4 UMKT 0,46 -0,07 0,47 5 UO -1,32 -0,69 -0,93 6 UR -0,88 -1,02 -0,82 7 US 0,23 -0,84 -0,53 8 UB -1,43 -0,91 -1,04 9 UW 1,87 2,25 2,33

10 UWroc 0,58 0,86 0,45 Źródło: opracowanie własne

Dzięki takiemu przekształceniu wszystkie cechy są porównywalne, tzn. mają tę samą średnią (równą 0) i to samo odchylenie standardowe (równe 1).

docsity.com

Procedurę aglomeracyjną zrealizowano w kilku krokach:

KROK 1: Wyznaczamy macierz odległości D daną wzorem (3).

Ilustracja 7. Macierz odległości, krok 1 i 1 2 3 4 5 6 7 8 9 10 1 0,0 1,0 0,6 1,1 1,6 1,5 1,2 1,8 3,9 1,3 2 1,0 0,0 0,6 0,4 2,5 2,3 1,5 2,7 3,1 0,6 3 0,6 0,6 0,0 0,5 1,9 1,6 1,0 2,1 3,7 1,1 4 1,1 0,4 0,5 0,0 2,3 2,1 1,3 2,6 3,3 0,9 5 1,6 2,5 1,9 2,3 0,0 0,6 1,6 0,3 5,4 2,8 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 0,6 5,3 2,7 7 1,2 1,5 1,0 1,3 1,6 1,2 0,0 1,7 4,5 2,0 8 1,8 2,7 2,1 2,6 0,3 0,6 1,7 0,0 5,7 3,1 9 3,9 3,1 3,7 3,3 5,4 5,3 4,5 5,7 0,0 2,7 10 1,3 0,6 1,1 0,9 2,8 2,7 2,0 3,1 2,7 0,0

Źródło: opracowanie własne

Widać, iż najmniejsza jest odległość pomiędzy obiektami o numerach 5 i 8 (UO i UB), stąd one właśnie utworzą pierwsze skupienie. Następnie ze wzoru (2) obliczamy środek ciężkości nowo utworzonego skupienia. W tabeli wartości zestandaryzowanych wiersze 5 i 8 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:

Ilustracja 8. Tabela wartości zestandaryzowanych, krok 1

i nr skup. X1i X2i X3i 1 1 -0,2 0,2 -0,3 2 2 0,5 0,3 0,4 3 3 0,2 -0,1 0,0 4 4 0,5 -0,1 0,5

5,8 5 -1,4 -0,8 -1,0 6 6 -0,9 -1,0 -0,8 7 7 0,2 -0,8 -0,5 9 8 1,9 2,2 2,3

10 9 0,6 0,9 0,5 Źródło: opracowanie własne

Widzimy także że skupienia uległy przenumerowaniu: odtąd w pierwszej kolumnie będą wpisywane numery obiektów w poszczególnych skupieniach, zaś w drugiej kolumnie – numery tych skupień. Uwaga: numery te mają jedynie rolę porządkującą, np. numer 5 nie oznacza, że obiekty 5 i 8 tworzą 5-te z kolei skupienie (jest to przecież skupienie pierwsze z kolei).

docsity.com

KROK 2: Wyznaczamy macierz odległości D z nowym skupieniem: Ilustracja 9. Macierz odległości, krok 2

D i 1 2 3 4 5,8 6 7 9 10 i nr skup. 1 2 3 4 5 6 7 8 9 1 1 0,0 1,0 0,6 1,1 1,7 1,5 1,2 3,9 1,3 2 2 1,0 0,0 0,6 0,4 2,6 2,3 1,5 3,1 0,6 3 3 0,6 0,6 0,0 0,5 2,0 1,6 1,0 3,7 1,1 4 4 1,1 0,4 0,5 0,0 2,4 2,1 1,3 3,3 0,9

5,8 5 1,7 2,6 2,0 2,4 0,0 0,6 1,7 5,5 2,9 6 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 5,3 2,7 7 7 1,2 1,5 1,0 1,3 1,7 1,2 0,0 4,5 2,0 9 8 3,9 3,1 3,7 3,3 5,5 5,3 4,5 0,0 2,7

10 9 1,3 0,6 1,1 0,9 2,9 2,7 2,0 2,7 0,0 Źródło: opracowanie własne

Najmniejsza jest odległość pomiędzy obiektami o numerach 2 i 4 (UŁ i UMKT), więc utworzą one drugie skupienie. Znowu ze wzoru (2) obliczamy środek ciężkości nowego skupienia. Wiersze 2 i 4 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:

Ilustracja 10. Tabela wartości zestandaryzowanych, krok 2

i nr skup. X1i X2i X3i 1 1 -0,2 0,2 -0,3

2,4 2 0,5 0,3 0,4 3 3 0,2 0,2 0,2

5,8 4 -1,4 -0,8 -1,0 6 5 -0,9 -1,0 -0,8 7 6 0,2 -0,8 -0,5 9 7 1,9 2,2 2,3

10 8 0,6 0,9 0,5 Źródło: opracowanie własne

oraz przenumerowujemy drugą kolumnę (mamy już tylko 8 skupień). Procedurę tą, jak się Czytelnik domyśla, powtarzamy jeszcze 7 razy. Szczegółowe obliczenia można sprawdzić w arkuszu Excela:

Tutaj zaś podamy tylko efekty ostatniej iteracji oraz końcowe wyniki. KROK 9: W ostatnim etapie okazało się że skupienia nie są regularne: obiekt nr 9 (UW) stanowi punkt izolowany, zaś pozostałe uczelnie tworzą jedno duże skupienie. Ostatnia macierz odległości ma postać:

Ilustracja 11. Macierz odległości, krok 9

D i 1,2,3,4,5,

6,7,8 9 i nr skup. 1 2

1,2,3,4, 5,6,7,8 1 0,0 4,2

9 2 4,2 0,0 Źródło: opracowanie własne

Link d arkusza

docsity.com

Jest rzeczą jasną, że najmniejsza odległość (bo jedyna) występuje pomiędzy skupieniem gromadzącym obiekty 1,2,3,4,5,6,7,8,10 oraz jednoelementowym skupieniem zawierającym obiekt nr 9. Doszliśmy więc do końcowego etapu, gdzie wszystkie obiekty zostają połączone w jedno skupienie. Przy wyborze optymalnej liczby skupień warto przyjrzeć się najmniejszym odległościom pomiędzy skupieniami na poszczególnych etapach. Wcześniej były one przedstawiane jako minimalne elementy macierzy D. Tutaj zostały przedstawione w żółtych tabliczkach na wykresie zwanym dendrogramem. Regułą jest, iż optymalną liczbę skupień otrzymujemy odcinając ramiona dendrogramu tam, gdzie zaczynają się robić dłuższe, czyli tam, gdzie odległości między skupieniami robią się istotnie większe. Wybór ten jest bardzo często subiektywny, arbitralny. W naszym zadaniu, jak wskazano czerwoną linią, dokonano podziału na 3 klasy. Podział ten jest nieregularny: Skupienie 1: obiekty 2,4,3,10,1,7 Skupienie 2: obiekty 5,6 i 8 Skupienie 3: obiekt 9

Ilustracja 12. Dendrogram

Źródło: opracowanie własne

1.6. PROCEDURA AGLOMERACYJNA – przykład w SPSS

Tą samą procedurę można wykonać dużo szybciej w pakietach statystycznych. Tutaj przedstawimy wyniki w dostępnym na Wirtualnej Uczelni pakiecie SPSS. Poniżej przedstawiono możliwość przeklejenia danych z Excela:

docsity.com

Ilustracja 13. Sposób przeklejenia danych tekstowych w SPSS

Źródło: opracowanie własne

Jak widzimy, pierwsza zmienna nie została przeklejona. Wystarczy wtedy wybrać dolną zakładkę „Zmienne” i ustawić typ komórek na „Tekstowy” (z dowolną liczbą znaków). Po tej operacji ponowne wklejenie danych w zakładce „Dane” powinno się udać. W zakładce „Zmienne” można też zmieniać inne ustawienia komórek: w naszym przykładzie zmienimy nazwy zmiennych (kolumna „nazwa”), możliwą do wklejenia liczbę znaków (kolumna „szerokość”) oraz liczbę miejsc po przecinku (kolumna „dziesiętne”), tak jak poniżej:

Ilustracja 14. Zmiana ustawienia komórek w SPSS

Źródło: opracowanie własne

docsity.com

komentarze (0)
Brak komentarzy
Bądź autorem pierwszego komentarza!
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.