Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Laboratorium XI: Analiza składowych głównych, Ćwiczenia z Inżynieria biomedyczna

Wybór obliczania składowych jest rzeczą ważną, zwłaszcza że składowe otrzymane dla macierzy kowariancji i macierzy korelacji nie muszą byd takie same.

Typologia: Ćwiczenia

2022/2023

Załadowany 24.02.2023

Irena85
Irena85 🇵🇱

4.7

(88)

302 dokumenty

1 / 12

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Inżynieria biomedyczna, I rok, semestr letni 2014/2015
Analiza danych pomiarowych
1
Instrukcja do laboratorium
Laboratorium XI: Analiza składowych głównych
Spis treści
Laboratorium XI: Analiza składowych głównych ..................................................................................1
Wiadomości ogólne ............................................................................................................................2
1. Wstęp teoretyczny. .................................................................................................................2
1.1. Wprowadzenie. ...............................................................................................................2
1.2. Interpretacja geometryczna. ............................................................................................5
1.3. Założenia analizy składowych głównych. ..........................................................................5
2. Analiza składowych głównych w STATISTICE ............................................................................7
Dwiczenia.......................................................................................................................................... 12
pf3
pf4
pf5
pf8
pf9
pfa

Podgląd częściowego tekstu

Pobierz Laboratorium XI: Analiza składowych głównych i więcej Ćwiczenia w PDF z Inżynieria biomedyczna tylko na Docsity!

Analiza danych pomiarowych

Laboratorium XI: Analiza składowych głównych

Spis treści

Laboratorium XI: Analiza składowych głównych ..................................................................................

Wiadomości ogólne ............................................................................................................................

  1. Wstęp teoretyczny. ................................................................................................................. 1.1. Wprowadzenie. ............................................................................................................... 1.2. Interpretacja geometryczna. ............................................................................................ 1.3. Założenia analizy składowych głównych. ..........................................................................
  2. Analiza składowych głównych w STATISTICE ............................................................................

Dwiczenia.......................................................................................................................................... 12

Analiza danych pomiarowych

Wiadomości ogólne

1. Wstęp teoretyczny.

1.1. Wprowadzenie. Analiza składowych głównych to zespół metod i procedur statystycznych, pozwalających na: Redukcję liczby zmiennych Wykrycie struktury i ogólnych prawidłowości w związkach pomiędzy zmiennymi Zweryfikowanie wykrytych prawidłowości i powiązao Opis i klasyfikację badanych obiektów w nowych (ortogonalnych) przestrzeniach zdefiniowanych przez nowe zmienne (czynniki).

W analizie składowych głównych formułowane są modele matematyczne w postaci równao liniowych. Jest to zespół procedur statystycznych, które poprzez transformację początkowych zmiennych we wzajemnie ortogonalne nowe zmienne, budują teoretyczny model opisujący strukturę zależności między badanymi cechami.

Niech p oznacza zespół początkowych zmiennych. Chcemy zredukowad liczbę zmiennych, zachowując równocześnie tak dużo zmienności danych, jak to tylko jest możliwe. Analiza składowych głównych realizuje to zadanie poprzez tworzenie nowych, nieobserwowalnych zmiennych, które są kombinacją liniową zmiennych początkowych. Te nowe zmienne nazywają się składowe główne. Zgodnie z tym określeniem, pierwsza składowa główna, wyraża się w następujący sposób:

Gdzie to współczynniki wyznaczone przez początkowe zmienne.

Aby zachowad możliwie jak najwięcej zmienności danych, musimy wyznaczyd składową główną o maksymalnej wariancji. Stąd wynika, że celem analizy składowych głównych jest wyznaczenie takich wartości współczynników , aby wariancja była tak duża, jak to tylko możliwe. W języku geometrii polega to na poszukiwaniu linii prostej, która jest najlepiej dopasowana do chmur punktów w przestrzeni. Ponieważ wariancja dąży do nieskooczoności gdy współczynniki dążą do nieskooczoności, maksymalizujemy wariancję przy ograniczeniu. Warunek ten jest normalizowaniem wektora współczynników. Po przekształceniach matematycznych, postawiony problem sprowadza się do rozwiązania układu p równao, który w zapisie macierzowym przyjmuje następującą postad:

Gdzie:

  • wektor współczynników

S jest macierzą kowariancji zmiennych

I jest macierzą identycznosciową

Analiza danych pomiarowych

nazywane także ładunkami czynnikowymi. Ładunki czynnikowe są współczynnikami korelacji pomiędzy daną zmienną i składowymi. W naturalny sposób będziemy poszukiwad tych zmiennych, które mają najwyższe (w wartościach bezwzględnych) wartości współrzędnych czynnikowych dla danych składowych. Opisują one wkład zmiennej do poszczególnych składowych. Znak ładunków czynnikowych liczy się tylko w tym sensie, że zmienne o przeciwnych znakach ładunków dla danej składowej wnoszą odmienny wkład.

W analizie składowych głównych decydującą rolę odgrywają miary zmienności. W szczególności są to:

Wariancja – dla pomiaru zmienności, gdy rozważamy jedną zmienną. Dla n wartości pewnej zmiennej, wyliczymy ją według wzoru: , gdzie oznacza ich wartośd średnią Kowariancja – dla pomiaru współzmienności, gdy rozważamy dwie zmienne. Dla n wartości zmiennych wyliczymy ją według wzoru: , gdzie i oznaczają ich wartości średnie.

Dla wielu zmiennych miary te zapisujemy w postaci macierz kowariancji. Taka macierz zawiera całą informację potrzebną do wyznaczenia składowych głównych. Przykładowa macierz kowariancji dla dwóch zmiennych pokazana jest poniżej:

Prezentowaną macierz kowariancji można wykorzystad do dalszych rozważao pod warunkiem, że obie zmienne wyrażają się w tych samych jednostkach. W praktyce jednak rzadko taka sytuacja występuje, dlatego też wykorzystuje się standaryzowane wersje tych zmiennych. Standaryzację przeprowadza się według wzoru:

Gdzie i to średnia i odchylenie standardowe zmiennej x wyliczone z próby.

Tak standaryzowana zmienna ma wartośd średnią równą 0 i odchylenie standardowe (a zatem i wariancję) równe jedności. Macierz kowariancji dla zmiennych standaryzowanych przechodzi w tzw. Macierz korelacji postaci:

Gdzie jest współczynnikiem korelacji.

Wybór obliczania składowych jest rzeczą ważną, zwłaszcza że składowe otrzymane dla macierzy kowariancji i macierzy korelacji nie muszą byd takie same. Reasumując:

Jeżeli zmienne mają różne jednostki lub są różnego rzędu, analizę składowych głównych przeprowadzamy wykorzystując macierz korelacji

Analiza danych pomiarowych

Jeżeli analizowane zmienne są porównywalne, to wykorzystujemy macierz kowariancji. W tym przypadku wyniki analizy zależą od różnic w zakresie zmienności w obrębie zmiennych aktywnych. Dlatego też analizę bazującą na macierzy kowariancji stosuje się tylko w przypadku, gdy wykrycie takich różnic ma związek z rodzajem badao, które przeprowadzamy.

1.2. Interpretacja geometryczna. Jak wiadomo, i-ta składowa jest kombinacją liniową , gdzie współczynniki to elementy wektora własnego odpowiadającego i-tej co do wielkości wartości łasnej macierzy kowariancji S. Zestawiając obok siebie wszystkie składowe, otrzymamy zestaw kombinacji liniowych, co możemy zapisad w postaci równania macierzowego:

Po wprowadzeniu umownych oznaczeo, podstawowe równanie w metodzie składowych głównych jest transformacją liniową postaci Z = AX. Ponieważ kolejne składowe mają byd wzajemnie ortogonalne, macierz A musi byd macierzą ortogonalną. Wówczas to równanie przedstawia szczególny przypadek transformacji liniowej, a mianowicie obrót.

Położenie osi , czyli pierwszej składowej, jest tak dobrane, aby stanowiła „główną os” chmury punktów w układzie OXY. Wówczas rzuty punktów na tę os będą miały największy rozrzut.

Uogólniając możemy powiedzied, że układ składowych głównych w przestrzeni n-wymiarowej powstaje w wyniku obrotu układu oryginalnego opisującego obiekty wielowymiarowe. Oczywiście początek tego układu pokrywa się z punktem centralnym reprezentowanym przez średnie wartości wszystkich zmiennych (środek ciężkości). Obrót ten następuje w taki sposób, aby kolejne osie wyjaśniały coraz mniejszy odsetek wariancji oryginalnych zmiennych.

1.3. Założenia analizy składowych głównych. Analizę składowych głównych przeprowadza się z założenia na zmiennych mierzalnych na skali co najmniej przedziałowej. Zmienne te powinny pozostawad w liniowej zależności, a korelacja powinna byd mierzona współczynnikiem r Pearsona. Jeżeli zmienne nie są powiązane, to każda zmienna będzie stanowid osobną składową – wówczas nic nie zyskujemy. Jeżeli wszystkie korelacje są mniejsze od 0,30, to stosowanie analizy składowych głównych praktycznie nie ma sensu. Im wyższe korelacje, tym bardziej usprawiedliwione zastosowanie analizy składowych głównych. Stąd wynika, że na początku powinniśmy ocenid zasadnośd stosowania tej metody. W tym celu wykorzystuje się test Barletta, który odpowiada na pytanie, czy warto w ogóle przeprowadzad analizę składowych głównych. W teście tym weryfikacji podlega hipoteza zerowa, że macierz korelacji jest macierzą jednostkową (H 0 : R = I ), co oznacza, że wszystkie współczynniki korelacji są równe zero. Sprawdzianem hipotezy zerowej jest statystyka:

Analiza danych pomiarowych

Liczba zmiennych. W analizie składowych głównych możemy rozważad dowolną liczbę zmiennych. Należy jednak pamiętad, że przy dużej liczbie zmiennych bardzo mocno wzrasta prawdopodobieostwo współliniowości. Zwiększa się zatem szansa pojawienia się bardzo małych lub nawet zerowych wartości własnych. Odpowiadające im składowe wyjaśniają trywialną częśd zmienności. Zmienne wysoko skorelowane z innymi powinniśmy odrzucid i ponownie przeprowadzid analizę składowych głównych. Braki danych. Jeśli analizowane przypadki mają brakujące dane, to możemy albo usunąd przypadki z brakującymi danymi, albo te braki zastąpid średnimi. To drugie wyjscie jest wskazane, jeśli usunięcie przypadków z brakującymi danymi znacznie zmniejsza liczebnośd próby. Musimy tu jednak uważad, aby nie doprowadzid do zbyt dobrego dopasowania podnoszącego wielkośd korelacji. Zatem przy interpretacji takich danych należy postępowad bardzo ostrożnie.

2. Analiza składowych głównych w STATISTICE

W STATISTICE analizę składowych głównych można przeprowadzid w module Analiza składowych głównych i klasyfikacja , który wywołuje się z menu Statystyka / Wielowymiarowe techniki eksploracyjne. Moduł ten oblicza składowe główne oraz cały szereg powiązanych z nimi statystyk. Jest on przeznaczony do rozwiązywania zagadnieo związanych z dużym wymiarem danych. Po otwarciu tego modułu ukazuje się okno przedstawione na rys. 1.

Rys. 1. Okno wstępne modułu Analiza składowych głównych i klasyfikacja

Okno to udostępnia podstawowe opcje umożliwiające rozpoczęcie analizy składowych głównych. Kartę Podstawowe wykorzystujemy do wskazania zmiennych przeznaczonych do analizy. W module tym wybieramy dwa rodzaje zmiennych: aktywne i dodatkowe (po naciśnięciu przycisku Zmienne ).

Program umożliwia wybranie czterech rodzajów zmiennych:

Zmienne do analizy (zmienne aktywne) – to zmienne, które są brane pod uwagę podczas obliczania składowych głównych

Analiza danych pomiarowych

Zmienne z przypadkami aktywnymi – to pomocnicze zmienne (nie musimy ich wybierad), które pełnią rolę zmiennych objaśniających i są uwzględniane dopiero po określeniu składowych głównych. Jest to zmienna jakościowa, która określa status każdego przypadku jako aktywny lub dodatkowy. Jeśli wybierzemy zmienne z przypadkami aktywnymi, to musimy także podad kody dla przypadków aktywnych. Zmienne dodatkowe – nie są brane pod uwagę w trakcie obliczeo, ale mogą byd później „rzutowane” w układzie składowych głównych generowanym przez zmienne i przypadki aktywne. Ta własnośd sprawia, że moduł PCAA staje się potężnym narzędziem użytecznym do klasyfikacji i w technikach zgłębiania danych ( data mining ). Zmienne grupujące – na koocu możemy wybrad zmienną (jakościową lub skategoryzowaną) dla grupowania przypadków. Wartości zawarte w tej zmiennej nie są wykorzystywane w żadnych obliczeniach, ale możemy je później wykorzystad (opcjonalnie) do etykietowania i rozróżniania różnych typów lub grup obserwacji na wykresach rozrzutu. Etykiety służące do grupowania przypadków mogą byd później wyświetlane we wszystkich arkuszach wynikowych lub na wykresach.

Podobnie jak w pozostałych modułach, możemy wykorzystad opcję Usuwanie BD do usunięcia bądź zastąpienia średnimi brakujących danych. W tym przypadku średnie są obliczane na podstawie wszystkich przypadków, tzn. zarówno aktywnych, jak i dodatkowych.

Po wybraniu karty Więcej umieszczonej w oknie wstępnym modułu, uzyskujemy dostęp do dodatkowych opcji, zgrupowanych w dwa obszary

Analiza na podstawie – w tej grupie opcji wybieramy obliczanie składowych głównych na podstawie macierzy korelacji lub macierzy kowariancji dla zmiennych aktywnych. Oblicz wariancje – w tej grupie opcji mamy możliwośd wyboru pomiędzy dwoma sposobami obliczania wariancji: na podstawie sumy kwadratów odchyleo od średniej podzielonej przez N (liczba poprawnych przypadków) lub przez N-1. Jeśli w mianowniku stosujemy N-1, wówczas otrzymane wariancje są ocenami parametrów populacji, jeśli natomiast dzielimy przez N, wtedy otrzymane wariancje stanowią jedynie statystyki opisowe próby. Te same argumenty dotyczą obliczania kowariancji. W opisywanej grupie opcji możemy zatem wybrad obliczenie wariancji i kowariancji w module składowych głównych na podstawie próby (opcja SS/(N-1)) lub na podstawie populacji (opcja SS/N ).

Po zdefiniowaniu zmiennych i wyborze opcji, klikamy na przycisk OK w celu wyświetlenia okna Wyniki analizy składowych głównych i analizy klasyfikacyjnej (rys. 2). W oknie tym znajdują się cztery karty: Podstawowe , Zmienne , Przypadki oraz Opisowe.

Analiza danych pomiarowych

Histogramy – po wybraniu tego przycisku zostaną utworzone histogramy dla zmiennych uwzględnionych w aktualnie przeprowadzanej analizie Wykresy rozrzutu 3W – przycisk powoduje pojawienie się okna wyboru, w którym wybieramy trzy zmienne (dla osi X, Y oraz Z) dla których zostanie utworzony trójwymiarowy wykres rozrzutu Wykresy normalności – przycisk powoduje utworzenie wykresów normalności dla zmiennych uwzględnionych w aktualnie przeprowadzanej analizie Wykresy powierzchniowe – wybranie tego przycisku powoduje pojawienie się standardowego okna wyboru zmiennych (wybieramy trzy: dla osi X, Y oraz Z), dla których zostanie utworzony wykres powierzchniowy. W przypadku niemożności obliczenia dopasowania powierzchni do danych otrzymamy trójwymiarowy wykres rozrzutu.

Wybierając jeden z przycisków opcji w polu Umieśd na wykresie , możemy zadecydowad, co chcemy umieścid na wykresach, czyli: wszystkie przypadki, tylko przypadki aktywne lub tylko przypadki dodatkowe.

Po przeglądnięciu statystyk opisowych przechodzimy do najważniejszych wyników analizy składowych głównych, dostępnych na kartach Podstawowe i Zmienne (rys. 3).

Rys. 3. Karta Zmienne w oknie Wyniki analizy składowych głównych i klasyfikacji.

Przycisk Wartości własne umożliwia wyświetlenie arkusza zawierającego wartości własne, procent całkowitej wariancji, skumulowane wartości własne oraz skumulowany procent. Wyświetlane wartości własne są obliczane jedynie na podstawie korelacji zmiennych aktywnych. Wartości własne są podane w arkuszu w kolejności malejącej, pokazując w ten sposób ważnośd odpowiednich składowych w wyjaśnianiu zmienności danych.

Wektory własne odpowiadające znalezionym wartościom własnym, będące współczynnikami składowych, możemy wyświetlid za pomocą przycisku Wektory własne.

W praktyce stosowanych jest wiele kryteriów wyboru najbardziej odpowiedniej liczby składowych do interpretacji. Najprostsze z nich (kryterium Kaisera) polega na pozostawieniu do interpretacji składowych, którym odpowiadają wartości własne większe od 1. Drugi sposób określenia liczby składowych do interpretacji polega na utworzeniu tzw. wykresu osypiska Cattella. Wykres ten

Analiza danych pomiarowych

pokazuje kolejne wartości własne. Utworzenie go jest możliwe po kliknięciu przycisku Wykres osypiska.

W dalszych analizach możemy zredukowad liczbę czynników do najważniejszych składowych. W każdym momencie analizy możemy zmienid tą liczbę w polu Liczba czynników. Dla każdej wprowadzonej liczby w tym polu, w polu Jakośd reprezentacji wyświetlany jest odsetek całkowitej wariancji wyjaśnianej przez odpowiednią liczbę czynników. Domyślnie pole to pokazuje jakośd odwzorowania na poziomie 100%, odpowiadającej maksymalnej liczbie składowych.

Przycisk Współrz. czynnik. przypadków na karcie Podstawowe umożliwia wyświetlenie arkusza zawierającego współrzędne czynnikowe przypadków, czyli współrzędne wszystkich przypadków w nowym układzie, w którym osiami są otrzymane składowe.

Dla ułatwienia zadania wykrycia rozważanej struktury, możemy utworzyd dwuwymiarowe wykresy współrzędnych czynnikowych – zarówno dla zmiennych, jak i dla przypadków. Wykres 2W współrzędnych czynnikowych zmiennych przedstawia graficznie informacje o własnościach składowych. W opcjach można wybrad dodatkowe obiekty, które mogą byd uwzględnione na wykresie:

Wektory – pole to pozwala wykreślid wektory kierunkowe łączące początek układu współrzędnych ze współrzędnymi czynnikowymi Koło jednostkowe – zaznaczone pole pozwala wykreślid koło jednostkowe, otaczające ładunki czynnikowe. Opcja ta jest dostępna tylko wtedy, gdy analiza opiera się na macierzy korelacji. Wówczas obszar wewnątrz koła jednostkowego odpowiada obszarowi poprawnych (dopuszczalnych) ładunków czynnikowych. Im bliżej brzegu koła leży wykreślana zmienna, tym lepsza jest jej reprezentacja przez czynniki na wykresie. Nazwy zmiennych – wybranie tej opcji powoduje wyświetlenie nazw zmiennych rzutowanych na płaszczyznę składowych Numery zmiennych – wybranie tej opcji powoduje wyświetlenie numerów zmiennych rzutowanych na płaszczyznę składowych Bez numerów i nazw – opcja pozwala na wyświetlenie punktów dla współrzędnych czynnikowych bez numerów i nazw zmiennych rzutowanych na płaszczyznę składowych.

Po kliknięciu tego przycisku otrzymujemy dwuwymiarowy wykres rozrzutu bieżącego zbioru ładunków czynnikowych dla wybranej pary składowych. Składowe dla osi czynnikowych wybieramy w pojawiającym się oknie. Punkty na tym wykresie to istotne ładunki czynnikowe (czyli korelacje między zmiennymi a składowymi) dla wybranych składowych. Im dalej od środka koła znajduje się dany punkt (ładunek), tym wyższa jest korelacja odpowiedniej zmiennej z osią czynnikową. Dzięki temu można zidentyfikowad, które zmienne są skorelowane z danym czynnikiem, dostarczając w ten sposób informacji, do których zmiennych należy odnieśd interpretację danego czynnika.

Położenie punktów względem osi (składowych) klasyfikuje je do odpowiedniej kategorii, w zależności od tego, po której stronie osi czynnikowej leżą odpowiednie ładunki czynnikowe, czyli klasyfikacja zmiennych jest dokonywana na podstawie znaku ładunków czynnikowych.

Z omawianego wykresu można też wnioskowad o korelacji zmiennych. Im bliżej położone wektory (punkty), tym większa dodatnia korelacja między zmiennymi. Jeśli wektory są prostopadłe, wtedy