Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 2, Notatki z Bankowość i finanse

Analizę skupień stosujemy gdy chcemy wyróżnić grupy obiektów podobnych, w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.

Typologia: Notatki

2012/2013

Załadowany 28.02.2013

Andrzej_Ku
Andrzej_Ku 🇵🇱

4.9

(9)

283 dokumenty

1 / 9

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Ostatecznie przeklejone dane mają postać :
Ilustracja 15. Dane przeklejone do SPSS
Źródło: opracowanie własne
Plik ten będzie używany także w innych rozdziałach, dlatego zapisano go pod
przykładową nazwą „Uniwersytety.sav”.
docsity.com
pf3
pf4
pf5
pf8
pf9

Podgląd częściowego tekstu

Pobierz Analiza skupień - Notatki - Wielowymiarowa analiza porównawcza - Część 2 i więcej Notatki w PDF z Bankowość i finanse tylko na Docsity!

Ostatecznie przeklejone dane mają postać :

Ilustracja 15. Dane przeklejone do SPSS

Źródło: opracowanie własne

Plik ten będzie używany także w innych rozdziałach, dlatego zapisano go pod przykładową nazwą „Uniwersytety.sav”.

Następnie dane należy poddać standaryzacji podanej wzorem (4). W programie SPSS robi się to szybko i łatwo, wystarczy w menu „ Analiza ” wybrać opcję „ opis statystyczny ”, a później „ statystyki opisowe ”:

Ilustracja 16. Standaryzacja zmiennych w SPSS

Źródło: opracowanie własne

Dostępne tu opcje służą do obliczenia podstawowych charakterystyk takich jak średnia, odchylenie standardowe czy mediana, które można wybrać naciskając „ opcje... ” w prawym dolnym rogu. Nas jednak będzie interesowała tylko standaryzacja, więc zaznaczamy wszystkie cechy X1-X2, przenosząc ich do okna „ zmienne ” za pomocą podanej strzałki, w lewym dolnym rogu zakreślamy zaś opcję „ Zapisz standaryzowane wartości jako zmienne ”.

W efekcie tej operacji utworzy się zupełnie nowy plik, zwany raportem , w którym wyświetlono obliczone przez program charakterystyki, które nas w tej chwili mniej interesują. W pliku tym jednak od tej pory będziemy otrzymywać następne wyniki, zatem warto go zapisać, choćby po tą samą nazwą „Uniwersytety”. W przypadku gdyby któraś liczba była nieczytelna, należy dwukrotnie klikając edytować tabelę oraz poszerzyć odpowiednią kolumnę za pomocą kursora:

Ilustracja 19. Uruchomienie procedury aglomeracyjnej w SPSS

Źródło: opracowanie własne

Ukazuje się nam okienko dialogowe, w którym:

  • jako „ Zmienne ” przenosimy z lewego okna zestandaryzowane zmienne ZX1-ZX3,
  • do okienka „ Użyj do opisu obserwacji ” przenosimy zmienną jakościową ze skrótami nazw uniwersytetów:
  • w opcji „ Skupienia ” zaznaczamy „Obserwacje”, jako że chcemy grupować uniwersytety, a nie opisujące ich zmienne
  • w opcji „ Pokaż ” warto zaznaczyć zarówno „Statystyki”, jak i „Wykresy”

Ilustracja 20. Procedura aglomeracyjna w SPSS - opcje

Źródło: opracowanie własne

Warto również przyjrzeć się bliżej opcjom w dolnej części okienka dialogowego:

  • w opcji „ Statystyki.. ” warto zakreślić „Przegląd aglomeracji” oraz „Macierz odległości”
  • w opcji „ Wykresy.. ” warto zakreślić „Dendrogram” oraz „Wykres sopelkowy” dla wszystkich aglomeracji
  • w opcji „ Metoda.. ” jako metodę aglomeracji można wybrać dowolną, lecz my, dla porównania z wynikami z Excela, wybierzemy stosowaną tam metodę środka ciężkości, podobnie jako miarę przyjęto jak poprzednio, odległość euklidesową:

Ilustracja 21. Procedura aglomeracyjna w SPSS - opcje

Źródło: opracowanie własne

Po wykonaniu operacji wyniki zostaną wyświetlone w raporcie ”Uniwersytety.spo”. Należy je interpretować następująco: Macierz odległości przedstawia odległości między poszczególnymi obiektami przed procedurą aglomeracyjną (można ją porównać z wynikami otrzymanymi w wersji Excela [link] ):

Podobnie powstawanie aglomeracji można zaobserwować na wykresie sopelkowym:

Ilustracja 24. Wyniki procedury aglomeracyjnej w SPSS – wykres sopelkowy

Źródło: opracowanie własne

Jeszcze wyraźniej tworzenie się skupień widać na dendrogramie, gdzie dodatkowo długość ramienia świadczy o odległości między skupieniami:

Ilustracja 25. Wyniki procedury aglomeracyjnej w SPSS – dendrogram

Źródło: opracowanie własne

Ile skupień należy wybrać? To już zależy od nas. Jedna z reguł mówi, jak już wspomniano wcześniej, iż optymalną liczbę skupień otrzymujemy odcinając ramiona dendrogramu tam, gdzie zaczynają się robić dłuższe, czyli tam, gdzie odległości między skupieniami robią się istotnie większe.

W naszym zadaniu mamy zatem 4 możliwości: 2, 3 lub 4 skupienia, powstałe przez odcięcie dendrogramu czerwonymi liniami. Tu zdecydowaliśmy się na 3 skupienia.

Widać, iż podział ten jest nieregularny:

Skupienie 1: obiekty 2,4,3,10,1, Skupienie 2: obiekty 5,6 i 8 Skupienie 3: obiekt 9

1.7. PROCEDURA AGLOMERACYJNA – interpretacja wyników

Czytelnik może sobie postawić pytanie: czym się charakteryzują grupy wyodrębnione w rozdziałach 1.5 i 1.6? Odpowiedź można uzyskać obliczając dla każdej z grup średnią wartość i zestawiając ją ze średnią ogólną [link] :

Dla pierwszej grupy, skupiającej uniwersytety w Gdańsku, Łodzi, Lublinie, Toruniu, Wrocławie i Katowicach możemy odczytać iż dla wszystkich trzech cech średnia grupowa jest porównywalna do średniej ogólnej. Można więc powiedzieć że jest to grupa „średnia”.

Grupa 2 (Uniwersytety w Opolu, Rzeszowie i w Białymstoku) wydaje się najsłabsza pod względem każdej cechy; średnia grupowa jest zdecydowanie niższa od średniej ogólnej.

Grupa nr 3, którą stanowi jedynie Uniwersytet Warszawski ma względem wszystkich cech dużo większe wartości od średniej ogólnej, zatem stanowi grupę najmocniejszą.

Ilustracja 26. Interpretacja profilów skupień

Źródło: opracowanie własne