Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 2, Notatki'z Analiza porównawcza. Rzeszów University
Andrzej_Ku
Andrzej_Ku28 February 2013

Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 2, Notatki'z Analiza porównawcza. Rzeszów University

PDF (819.5 KB)
9 strona
674Liczba odwiedzin
Opis
Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.
20punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 9
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.

Ostatecznie przeklejone dane mają postać :

Ilustracja 15. Dane przeklejone do SPSS

Źródło: opracowanie własne

Plik ten będzie używany także w innych rozdziałach, dlatego zapisano go pod przykładową nazwą „Uniwersytety.sav”.

docsity.com

Następnie dane należy poddać standaryzacji podanej wzorem (4). W programie SPSS robi się to szybko i łatwo, wystarczy w menu „Analiza” wybrać opcję „opisstatystyczny”, a później „statystykiopisowe”:

Ilustracja 16. Standaryzacja zmiennych w SPSS

Źródło: opracowanie własne

Dostępne tu opcje służą do obliczenia podstawowych charakterystyk takich jak średnia, odchylenie standardowe czy mediana, które można wybrać naciskając „opcje...” w prawym dolnym rogu. Nas jednak będzie interesowała tylko standaryzacja, więc zaznaczamy wszystkie cechy X1-X2, przenosząc ich do okna „zmienne” za pomocą podanej strzałki, w lewym dolnym rogu zakreślamy zaś opcję „Zapisz standaryzowane wartości jako zmienne”. W efekcie tej operacji utworzy się zupełnie nowy plik, zwany raportem, w którym wyświetlono obliczone przez program charakterystyki, które nas w tej chwili mniej interesują. W pliku tym jednak od tej pory będziemy otrzymywać następne wyniki, zatem warto go zapisać, choćby po tą samą nazwą „Uniwersytety”. W przypadku gdyby któraś liczba była nieczytelna, należy dwukrotnie klikając edytować tabelę oraz poszerzyć odpowiednią kolumnę za pomocą kursora:

docsity.com

Ilustracja 17. Edycja danych w raporcie SPSS

Źródło: opracowanie własne

Jak już wcześniej powiedziano, to okno nie będzie nas w tej chwili interesować najbardziej. Ważniejsze dla nas będzie, jeśli cofniemy się do pliku „Uniwersytety.sav”, że w trzech następnych kolumnach obliczone zostały właśnie interesujące nas wartości zestandaryzowane cech X1-X3, nazwane ZX1-ZX3. Jeśli czytelnik nie dowierza, że są one policzone prawidłowo, może je porównać z danymi w Excelu, otrzymanymi w poprzednim rozdziale.

Ilustracja 18. Dane zestandaryzowane (SPSS)

Źródło: opracowanie własne

Teraz przystępujemy do istoty rzeczy, czyli grupowania. Procedurę aglomeracyjną możemy w programie SPSS odnaleźć w menu „Analiza”, wybierając opcję „Klasyfikacja”, a następnie „Hierarchicznaanaliza skupień...”:

docsity.com

Ilustracja 19. Uruchomienie procedury aglomeracyjnej w SPSS

Źródło: opracowanie własne

Ukazuje się nam okienko dialogowe, w którym:

- jako „Zmienne” przenosimy z lewego okna zestandaryzowane zmienne ZX1-ZX3, - do okienka „Użyj do opisu obserwacji” przenosimy zmienną jakościową ze

skrótami nazw uniwersytetów: - w opcji „Skupienia” zaznaczamy „Obserwacje”, jako że chcemy grupować

uniwersytety, a nie opisujące ich zmienne - w opcji „Pokaż” warto zaznaczyć zarówno „Statystyki”, jak i „Wykresy”

Ilustracja 20. Procedura aglomeracyjna w SPSS - opcje

Źródło: opracowanie własne

Warto również przyjrzeć się bliżej opcjom w dolnej części okienka dialogowego: - w opcji „Statystyki..” warto zakreślić „Przegląd aglomeracji” oraz „Macierz

odległości” - w opcji „Wykresy..” warto zakreślić „Dendrogram” oraz „Wykres sopelkowy” dla

wszystkich aglomeracji - w opcji „Metoda..” jako metodę aglomeracji można wybrać dowolną, lecz my, dla

porównania z wynikami z Excela, wybierzemy stosowaną tam metodę środka ciężkości, podobnie jako miarę przyjęto jak poprzednio, odległość euklidesową:

docsity.com

Ilustracja 21. Procedura aglomeracyjna w SPSS - opcje

Źródło: opracowanie własne

Po wykonaniu operacji wyniki zostaną wyświetlone w raporcie ”Uniwersytety.spo”. Należy je interpretować następująco: Macierz odległości przedstawia odległości między poszczególnymi obiektami przed procedurą aglomeracyjną (można ją porównać z wynikami otrzymanymi w wersji Excela [link]):

docsity.com

Ilustracja 22. Wyniki procedury aglomeracyjnej w SPSS – macierz odległości

Źródło: opracowanie własne

W przeglądzie aglomeracji warto zwrócić uwagę, jakie skupienia powstają w kolejnych etapach: W etapie pierwszym obiekty {5} i {8} łączone są w jedno skupienie, które odtąd będzie oznaczone jako {5} (zaznaczone na wykresie). Z czwartej kolumny (współczynniki) można odczytać odległości między poszczególnymi skupieniami. Dla przykładu: na 5 etapie łączone są skupienia {2} i {10}, odległość między ich środkami ciężkości wynosi zaś 0,705. Ponieważ skupienie {2} zawierało na wcześniejszych etapach zgromadziło obiekty {2}, {4} i {3}, ostatecznie skupienie utworzone na 5 etapie zawiera obiekty nr {2,3,4,10}

Ilustracja 23. Wyniki procedury aglomeracyjnej w SPSS – przegląd aglomeracji

Źródło: opracowanie własne

docsity.com

Podobnie powstawanie aglomeracji można zaobserwować na wykresie sopelkowym:

Ilustracja 24. Wyniki procedury aglomeracyjnej w SPSS – wykres sopelkowy

Źródło: opracowanie własne

Jeszcze wyraźniej tworzenie się skupień widać na dendrogramie, gdzie dodatkowo długość ramienia świadczy o odległości między skupieniami:

Ilustracja 25. Wyniki procedury aglomeracyjnej w SPSS – dendrogram

Źródło: opracowanie własne

Ile skupień należy wybrać ? To już zależy od nas. Jedna z reguł mówi, jak już wspomniano wcześniej, iż optymalną liczbę skupień otrzymujemy odcinając ramiona dendrogramu tam, gdzie zaczynają się robić dłuższe, czyli tam, gdzie odległości między skupieniami robią się istotnie większe. W naszym zadaniu mamy zatem 4 możliwości: 2, 3 lub 4 skupienia, powstałe przez odcięcie dendrogramu czerwonymi liniami. Tu zdecydowaliśmy się na 3 skupienia.

docsity.com

Widać, iż podział ten jest nieregularny: Skupienie 1: obiekty 2,4,3,10,1,7 Skupienie 2: obiekty 5,6 i 8 Skupienie 3: obiekt 9

1.7. PROCEDURA AGLOMERACYJNA – interpretacja wyników Czytelnik może sobie postawić pytanie: czym się charakteryzują grupy wyodrębnione w rozdziałach 1.5 i 1.6 ? Odpowiedź można uzyskać obliczając dla każdej z grup średnią wartość i zestawiając ją ze średnią ogólną [link]: Dla pierwszej grupy, skupiającej uniwersytety w Gdańsku, Łodzi, Lublinie, Toruniu, Wrocławie i Katowicach możemy odczytać iż dla wszystkich trzech cech średnia grupowa jest porównywalna do średniej ogólnej. Można więc powiedzieć że jest to grupa „średnia”. Grupa 2 (Uniwersytety w Opolu, Rzeszowie i w Białymstoku) wydaje się najsłabsza pod względem każdej cechy; średnia grupowa jest zdecydowanie niższa od średniej ogólnej. Grupa nr 3, którą stanowi jedynie Uniwersytet Warszawski ma względem wszystkich cech dużo większe wartości od średniej ogólnej, zatem stanowi grupę najmocniejszą.

Ilustracja 26. Interpretacja profilów skupień

Źródło: opracowanie własne

docsity.com

Podobne wnioski można wyciągnąć, rysując dla każdej cechy wykresy i przedstawiając na nich średnie wyniki poszczególnych grup oraz średnią grupową: Cecha X1: Liczba studentów Najlepsza pod tym względem jest grupa 3 widać, iż Uniwersytet Warszawski znacznie przewyższa co do liczby studentów średnią dla pozostałych uniwersytetów. Cecha X2: Liczba uczestników studiów doktoranckich Najlepsza pod tym względem jest także grupa 3, wartości dla grupy 2 są „średnie”, zaś dla grupy 1 słabe. Cecha X3: Liczba profesorów zwyczajnych Także pod tym względem UW znacznie przewyższa inne grupy.

Ilustracja 27. Interpretacja profilów skupień wg cech

Źródło: opracowanie własne

WNIOSEK: Zastosowana metoda pozwoliła wykryć uczelnię zdecydowanie odcinającą się od pozostałych, ale jej wadą jest, iż skupienia przez nią wyodrębnione nie są regularne – grupa 1 zawiera aż 6 uczelni, zaś grupa 3 – tylko jedną.

Jak wiadomo, porównywanie jednoelementowej grupy 3 ze średnią z 6-elementowej grupy 1 jest obarczone dużym błędem i nie zawsze ma sens. Może się bowiem zdarzyć iż np. wysoki wynik bardzo dobrej uczelni w gr.1 (średniej) może być zaćmiony przez niskie wyniki innych obiektów tego skupienia. Porównywanie średnich ma więc charakter wyłącznie orientacyjny i powinien mieć zastosowanie do skupień regularnych.

docsity.com

komentarze (0)
Brak komentarzy
Bądź autorem pierwszego komentarza!
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
Docsity is not optimized for the browser you're using. In order to have a better experience we suggest you to use Internet Explorer 9+, Chrome, Firefox or Safari! Download Google Chrome