Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.
Typologia: Notatki
1 / 10
Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych , w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.
Przykład 1 : Społeczność nieformalnie dzieli się na „klasy” biorąc pod uwagę ogólnie rozumiany status społeczny, który jest często wypadkową stanu ich majątku oraz ich wykształcenia. Przykład 2 : Samochody dzieli się na określone klasy, kierując się nie tylko rodzajem nadwozia, ale także pojemnością i mocą silnika.
Analiza skupień ma zastosowanie np. w wyszukiwarkach internetowych – pomaga ona tworzyć sensowne grupy tematycznie powiązanych dokumentów, oraz opisać te grupy w sposób zrozumiały dla człowieka.
skupienie (grupa, klasa) - taki zbiór obiektów, w którym podobieństwo pomiędzy dowolną parą obiektów jest większe niż podobieństwo pomiędzy jakimkolwiek obiektem należącym do klasy, a dowolnym obiektem do niej nie należącym 1 ; skupienia są rozłączne, czyli żaden obiekt nie może być częścią dwóch klas;
Ilustracja 1. Przykład tworzenia skupień
Źródło: opracowanie własne
Jak widać na prawym rysunku, czasami nie możemy stanowczo stwierdzić ile klas powinno powstać. O metodzie wyboru optymalnej liczby klas dowiemy się w głębi kursu.
odległości. W tej pracy będziemy używali odległości euklidesowej, wyrażonej wzorem:
(^1) GATNAR Eugeniusz, WALESIAK Marek Metody statystycznej analizy wielowymiarowej w badaniach
marketingowych. Wrocław : Wydawnictwo Akademii Ekonomicznej, 2004, s. 317
2 1
p
j
d xi xk dik x x
W potocznym rozumowaniu jest to po prostu długość odcinka łączącego dwa punkty.
Odległość (między dwoma skupieniami) - może być definiowana w różny sposób, przykłady metod przedstawia ilustracja 2^2 :
(^2) GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988
Źródło: opracowanie własne
Dla więcej niż trzech cech musimy już uruchomić wyobraźnię – wzór ogólny na środek ciężkości ma postać:
r
i
1
opisujących obiekty.
Ogólnie metody grupowania dzielimy na:
Metody te polegają na iteracyjnym łączeniu obiektów w coraz to większe lub coraz to mniejsze skupienia (budowanie hierarchii skupień w zależności od odległości między nimi)
Metody te polegają na przenoszeniu obiektów z jednego skupienia do innego, w poszukiwaniu najlepszego zestawu skupień wg zadanego kryterium (np. najmniejszej wariancji międzygrupowej)
Każda z tych grup metod jest bardzo rozbudowana i ma wiele wariantów. W tej pracy przedstawiono najczęściej z nich stosowane: procedurę aglomeracyjną (jako przykład metody hierarchicznej) oraz metodę k-średnich (jako przykład metody niehierarchicznej).
D dik , gdzie i,k=1,..n (3)
przeliczamy odległości di pomiędzy nowym skupieniem a pozostałymi obiektami (skupieniami).
Schemat ten dla przykładu 4 obiektów: A,B,C i D przedstawia wykres (zastosowano odległość między punktami skupień):
Ilustracja 4. Schemat procedury aglomeracyjnej
Źródło: opracowanie własne
1.5. PROCEDURA AGLOMERACYJNA – przykład w Excelu
Rozpatrzmy przypadek 10 uniwersytetów, które będą pełniły tu rolę obiektów. Trudno jednoznacznie powiedzieć który z nich jest najlepszy, mają one bowiem różne zalety i wady. W pewnym rankingu opisano je za pomocą trzech cech:
X1 – liczba studentów (2005) X2 – liczba uczestników studiów doktoranckich (2005) X3 – liczba profesorów zwyczajnych pełnozatrudnionych (2005)
Procedurę aglomeracyjną zrealizowano w kilku krokach:
Ilustracja 7. Macierz odległości, krok 1 i 1 2 3 4 5 6 7 8 9 10 1 0,0 1,0 0,6 1,1 1,6 1,5 1,2 1,8 3,9 1, 2 1,0 0,0 0,6 0,4 2,5 2,3 1,5 2,7 3,1 0, 3 0,6 0,6 0,0 0,5 1,9 1,6 1,0 2,1 3,7 1, 4 1,1 0,4 0,5 0,0 2,3 2,1 1,3 2,6 3,3 0, 5 1,6 2,5 1,9 2,3 0,0 0,6 1,6 0,3 5,4 2, 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 0,6 5,3 2, 7 1,2 1,5 1,0 1,3 1,6 1,2 0,0 1,7 4,5 2, 8 1,8 2,7 2,1 2,6 0,3 0,6 1,7 0,0 5,7 3, 9 3,9 3,1 3,7 3,3 5,4 5,3 4,5 5,7 0,0 2, 10 1,3 0,6 1,1 0,9 2,8 2,7 2,0 3,1 2,7 0, Źródło: opracowanie własne
Widać, iż najmniejsza jest odległość pomiędzy obiektami o numerach 5 i 8 (UO i UB), stąd one właśnie utworzą pierwsze skupienie.
Następnie ze wzoru (2) obliczamy środek ciężkości nowo utworzonego skupienia. W tabeli wartości zestandaryzowanych wiersze 5 i 8 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:
Ilustracja 8. Tabela wartości zestandaryzowanych, krok 1
Źródło: opracowanie własne
Widzimy także że skupienia uległy przenumerowaniu: odtąd w pierwszej kolumnie będą wpisywane numery obiektów w poszczególnych skupieniach, zaś w drugiej kolumnie – numery tych skupień. Uwaga: numery te mają jedynie rolę porządkującą, np. numer 5 nie oznacza, że obiekty 5 i 8 tworzą 5-te z kolei skupienie (jest to przecież skupienie pierwsze z kolei).
Ilustracja 9. Macierz odległości, krok 2 D i 1 2 3 4 5,8 6 7 9 10 i nr skup. 1 2 3 4 5 6 7 8 9 1 1 0,0 1,0 0,6 1,1 1,7 1,5 1,2 3,9 1, 2 2 1,0 0,0 0,6 0,4 2,6 2,3 1,5 3,1 0, 3 3 0,6 0,6 0,0 0,5 2,0 1,6 1,0 3,7 1, 4 4 1,1 0,4 0,5 0,0 2,4 2,1 1,3 3,3 0, 5,8 5 1,7 2,6 2,0 2,4 0,0 0,6 1,7 5,5 2, 6 6 1,5 2,3 1,6 2,1 0,6 0,0 1,2 5,3 2, 7 7 1,2 1,5 1,0 1,3 1,7 1,2 0,0 4,5 2, 9 8 3,9 3,1 3,7 3,3 5,5 5,3 4,5 0,0 2, 10 9 1,3 0,6 1,1 0,9 2,9 2,7 2,0 2,7 0, Źródło: opracowanie własne
Najmniejsza jest odległość pomiędzy obiektami o numerach 2 i 4 (UŁ i UMKT), więc utworzą one drugie skupienie.
Znowu ze wzoru (2) obliczamy środek ciężkości nowego skupienia. Wiersze 2 i 4 zastępujemy jednym, w którym znajdują się współrzędne środka ciężkości:
Ilustracja 10. Tabela wartości zestandaryzowanych, krok 2
Źródło: opracowanie własne
oraz przenumerowujemy drugą kolumnę (mamy już tylko 8 skupień).
Procedurę tą, jak się Czytelnik domyśla, powtarzamy jeszcze 7 razy. Szczegółowe obliczenia można sprawdzić w arkuszu Excela :
Tutaj zaś podamy tylko efekty ostatniej iteracji oraz końcowe wyniki.
KROK 9 : W ostatnim etapie okazało się że skupienia nie są regularne: obiekt nr 9 (UW) stanowi punkt izolowany, zaś pozostałe uczelnie tworzą jedno duże skupienie. Ostatnia macierz odległości ma postać:
Ilustracja 11. Macierz odległości, krok 9
D i
i nr skup. 1 2 1,2,3,4, 5,6,7,8 1 0,0^ 4, (^9 2) 4,2 0, Źródło: opracowanie własne
Ilustracja 13. Sposób przeklejenia danych tekstowych w SPSS
Źródło: opracowanie własne
Jak widzimy, pierwsza zmienna nie została przeklejona. Wystarczy wtedy wybrać dolną zakładkę „ Zmienne ” i ustawić typ komórek na „ Tekstowy ” (z dowolną liczbą znaków). Po tej operacji ponowne wklejenie danych w zakładce „ Dane ” powinno się udać.
W zakładce „ Zmienne ” można też zmieniać inne ustawienia komórek: w naszym przykładzie zmienimy nazwy zmiennych (kolumna „ nazwa ”), możliwą do wklejenia liczbę znaków (kolumna „ szerokość ”) oraz liczbę miejsc po przecinku (kolumna „ dziesiętne ”), tak jak poniżej:
Ilustracja 14. Zmiana ustawienia komórek w SPSS
Źródło: opracowanie własne