Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 1, Notatki z Bankowość i finanse

Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.

Typologia: Notatki

2012/2013

Załadowany 28.02.2013

Andrzej_Ku
Andrzej_Ku 🇵🇱

4.9

(9)

283 dokumenty

Podgląd częściowego tekstu

Pobierz Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 1 i więcej Notatki w PDF z Bankowość i finanse tylko na Docsity!

ANALIZA SKUPIEŃ (KLASYFIKACJA, GRUPOWANIE)

1.1. ZASTOSOWANIE ANALIZY SKUPIEŃ

Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych , w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.

Przykład 1 : Społeczność nieformalnie dzieli się na „klasy” biorąc pod uwagę ogólnie rozumiany status społeczny, który jest często wypadkową stanu ich majątku oraz ich wykształcenia. Przykład 2 : Samochody dzieli się na określone klasy, kierując się nie tylko rodzajem nadwozia, ale także pojemnością i mocą silnika.

Analiza skupień ma zastosowanie np. w wyszukiwarkach internetowych – pomaga ona tworzyć sensowne grupy tematycznie powiązanych dokumentów, oraz opisać te grupy w sposób zrozumiały dla człowieka.

1.2. PODSTAWOWE POJĘCIA

skupienie (grupa, klasa) - taki zbiór obiektów, w którym podobieństwo pomiędzy dowolną parą obiektów jest większe niż podobieństwo pomiędzy jakimkolwiek obiektem należącym do klasy, a dowolnym obiektem do niej nie należącym 1 ; skupienia są rozłączne, czyli żaden obiekt nie może być częścią dwóch klas;

Ilustracja 1. Przykład tworzenia skupień

Źródło: opracowanie własne

Jak widać na prawym rysunku, czasami nie możemy stanowczo stwierdzić ile klas powinno powstać. O metodzie wyboru optymalnej liczby klas dowiemy się w głębi kursu.

Odległość (między dwoma obiektami xi i xk ) - istnieje wiele sposobów definiowania

odległości. W tej pracy będziemy używali odległości euklidesowej, wyrażonej wzorem:

(^1) GATNAR Eugeniusz, WALESIAK Marek Metody statystycznej analizy wielowymiarowej w badaniach

marketingowych. Wrocław : Wydawnictwo Akademii Ekonomicznej, 2004, s. 317

2 1

( , ) ( ij kj )

p

j

d xi xkdik   xx

gdzie xij – wartość obiektu xi pod względem cechy j , natomiast p – liczba tych cech.

W potocznym rozumowaniu jest to po prostu długość odcinka łączącego dwa punkty.

Odległość (między dwoma skupieniami) - może być definiowana w różny sposób, przykłady metod przedstawia ilustracja 2^2 :

(^2) GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988

Źródło: opracowanie własne

Dla więcej niż trzech cech musimy już uruchomić wyobraźnię – wzór ogólny na środek ciężkości ma postać:

x   x 1 , x 2 ,... xp  (2)

gdzie: 

r

i

j xij

r

x

1

, r to ilość obiektów w danym skupieniu, a p to ilość cech

opisujących obiekty.

1.3. METODY GRUPOWANIA – OGÓLNA CHARAKTERYSTYKA

Ogólnie metody grupowania dzielimy na:

METODY HIERARCHICZNE METODY NIEHIERARCHICZNE

Metody te polegają na iteracyjnym łączeniu obiektów w coraz to większe lub coraz to mniejsze skupienia (budowanie hierarchii skupień w zależności od odległości między nimi)

Metody te polegają na przenoszeniu obiektów z jednego skupienia do innego, w poszukiwaniu najlepszego zestawu skupień wg zadanego kryterium (np. najmniejszej wariancji międzygrupowej)

Każda z tych grup metod jest bardzo rozbudowana i ma wiele wariantów. W tej pracy przedstawiono najczęściej z nich stosowane: procedurę aglomeracyjną (jako przykład metody hierarchicznej) oraz metodę k-średnich (jako przykład metody niehierarchicznej).

1.4. PROCEDURA AGLOMERACYJNA
  1. Dysponując macierzą n obiektów i p zmiennych konstruujemy macierz odległości między poszczególnymi obiektami:

D   dik , gdzie i,k=1,..n (3)

gdzie d ik - odległość pomiędzy i -tym a k -tym obiektem, wyrażona wzorem (1) ;

  1. Znajdujemy parę obiektów najbardziej podobnych – w sensie najmniejszej odległości
    • łącząc je w skupienie (wybieramy przy tym dowolną metodę odległości między skupieniami omówioną w rozdziale 1.3) Obiekty te zastąpimy od tej pory jednym, o współrzędnych punktu ciężkości skupienia.

3. Redukujemy wymiar macierzy D o jeden (dwa obiekty zostały zastąpione jednym) i

przeliczamy odległości di pomiędzy nowym skupieniem a pozostałymi obiektami (skupieniami).

  1. Powtarzamy kroki 2-3 aż do uzyskania jednego skupienia zawierającego wszystkie obiekty.

Schemat ten dla przykładu 4 obiektów: A,B,C i D przedstawia wykres (zastosowano odległość między punktami skupień):

Ilustracja 4. Schemat procedury aglomeracyjnej

Źródło: opracowanie własne

1.5. PROCEDURA AGLOMERACYJNA – przykład w Excelu

Rozpatrzmy przypadek 10 uniwersytetów, które będą pełniły tu rolę obiektów. Trudno jednoznacznie powiedzieć który z nich jest najlepszy, mają one bowiem różne zalety i wady. W pewnym rankingu opisano je za pomocą trzech cech:

X1 – liczba studentów (2005) X2 – liczba uczestników studiów doktoranckich (2005) X3 – liczba profesorów zwyczajnych pełnozatrudnionych (2005)

Procedurę aglomeracyjną zrealizowano w kilku krokach:

KROK 1: Wyznaczamy macierz odległości D daną wzorem (3).

Ilustracja 7. Macierz odległości, krok 1 i 1 2 3 4 5 6 7 8 9 10 1 0,0 1,0 0,6 1,1 1,6 1,5 1,2 1,8 3,9 1, 2 1,0 0,0 0,6 0,4 2,5 2,3 1,5 2,7 3,1 0, 3 0,6 0,6 0,0 0,5 1,9 1,6 1,0 2,1 3,7 1, 4 1,1 0,4 0,5 0,0 2,3 2,1 1,3 2,6 3,3 0, 5 1,6 2,5 1,9 2,3 0,0 0,6 1,6 0,3 5,4 2, 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 0,6 5,3 2, 7 1,2 1,5 1,0 1,3 1,6 1,2 0,0 1,7 4,5 2, 8 1,8 2,7 2,1 2,6 0,3 0,6 1,7 0,0 5,7 3, 9 3,9 3,1 3,7 3,3 5,4 5,3 4,5 5,7 0,0 2, 10 1,3 0,6 1,1 0,9 2,8 2,7 2,0 3,1 2,7 0, Źródło: opracowanie własne

Widać, iż najmniejsza jest odległość pomiędzy obiektami o numerach 5 i 8 (UO i UB), stąd one właśnie utworzą pierwsze skupienie.

Następnie ze wzoru (2) obliczamy środek ciężkości nowo utworzonego skupienia. W tabeli wartości zestandaryzowanych wiersze 5 i 8 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:

Ilustracja 8. Tabela wartości zestandaryzowanych, krok 1

i nr skup. X1i X2i X3i

Źródło: opracowanie własne

Widzimy także że skupienia uległy przenumerowaniu: odtąd w pierwszej kolumnie będą wpisywane numery obiektów w poszczególnych skupieniach, zaś w drugiej kolumnie – numery tych skupień. Uwaga: numery te mają jedynie rolę porządkującą, np. numer 5 nie oznacza, że obiekty 5 i 8 tworzą 5-te z kolei skupienie (jest to przecież skupienie pierwsze z kolei).

KROK 2: Wyznaczamy macierz odległości D z nowym skupieniem:

Ilustracja 9. Macierz odległości, krok 2 D i 1 2 3 4 5,8 6 7 9 10 i nr skup. 1 2 3 4 5 6 7 8 9 1 1 0,0 1,0 0,6 1,1 1,7 1,5 1,2 3,9 1, 2 2 1,0 0,0 0,6 0,4 2,6 2,3 1,5 3,1 0, 3 3 0,6 0,6 0,0 0,5 2,0 1,6 1,0 3,7 1, 4 4 1,1 0,4 0,5 0,0 2,4 2,1 1,3 3,3 0, 5,8 5 1,7 2,6 2,0 2,4 0,0 0,6 1,7 5,5 2, 6 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 5,3 2, 7 7 1,2 1,5 1,0 1,3 1,7 1,2 0,0 4,5 2, 9 8 3,9 3,1 3,7 3,3 5,5 5,3 4,5 0,0 2, 10 9 1,3 0,6 1,1 0,9 2,9 2,7 2,0 2,7 0, Źródło: opracowanie własne

Najmniejsza jest odległość pomiędzy obiektami o numerach 2 i 4 (UŁ i UMKT), więc utworzą one drugie skupienie.

Znowu ze wzoru (2) obliczamy środek ciężkości nowego skupienia. Wiersze 2 i 4 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:

Ilustracja 10. Tabela wartości zestandaryzowanych, krok 2

i nr skup. X1i X2i X3i

Źródło: opracowanie własne

oraz przenumerowujemy drugą kolumnę (mamy już tylko 8 skupień).

Procedurę tą, jak się Czytelnik domyśla, powtarzamy jeszcze 7 razy. Szczegółowe obliczenia można sprawdzić w arkuszu Excela :

Tutaj zaś podamy tylko efekty ostatniej iteracji oraz końcowe wyniki.

KROK 9 : W ostatnim etapie okazało się że skupienia nie są regularne: obiekt nr 9 (UW) stanowi punkt izolowany, zaś pozostałe uczelnie tworzą jedno duże skupienie. Ostatnia macierz odległości ma postać:

Ilustracja 11. Macierz odległości, krok 9

D i

i nr skup. 1 2 1,2,3,4, 5,6,7,8 1 0,0^ 4, (^9 2) 4,2 0, Źródło: opracowanie własne

Link do arkusza

Ilustracja 13. Sposób przeklejenia danych tekstowych w SPSS

Źródło: opracowanie własne

Jak widzimy, pierwsza zmienna nie została przeklejona. Wystarczy wtedy wybrać dolną zakładkę „ Zmienne ” i ustawić typ komórek na „ Tekstowy ” (z dowolną liczbą znaków). Po tej operacji ponowne wklejenie danych w zakładce „ Dane ” powinno się udać.

W zakładce „ Zmienne ” można też zmieniać inne ustawienia komórek: w naszym przykładzie zmienimy nazwy zmiennych (kolumna „ nazwa ”), możliwą do wklejenia liczbę znaków (kolumna „ szerokość ”) oraz liczbę miejsc po przecinku (kolumna „ dziesiętne ”), tak jak poniżej:

Ilustracja 14. Zmiana ustawienia komórek w SPSS

Źródło: opracowanie własne