Pobierz Klasyfikacja spektralna a skale pomiaru zmiennych i więcej Publikacje w PDF z Statystyka, statystyka opisowa tylko na Docsity! PRZEGLĄD STATYSTYCZNY R. LIX – ZESZYT 1 – 2012 MAREK WALESIAK KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH1 1. WPROWADZENIE Analiza skupień bazująca na dekompozycji spektralnej (spectral clustering) rozwija się w literaturze poświęconej wielowymiarowej analizie danych od końca XX w. Nazwa metody „klasyfikacja spektralna” wywodzi się stąd, że w jednym z jej podstawowych kroków wyznacza się spektrum (widmo) macierzy Laplace’a. W matematyce zbiór wartości własnych macierzy nazywa się spektrum (widmem) macierzy (zob. np. [7], s. 182). Podstawowy algorytm klasyfikacji spektralnej dla danych metrycznych za- proponowano w pracy [8]. Inne algorytmy klasyfikacji spektralnej scharakteryzowano m.in. w pracach [10] i [14]. W artykule scharakteryzowano metodę klasyfikacji spektralnej z punktu widzenia skal pomiaru zmiennych. Rozpatrzono jej zastosowanie w klasyfikacji danych nomi- nalnych, porządkowych, przedziałowych oraz ilorazowych. W tym celu w procedurze tej metody przy wyznaczaniu macierzy podobieństwa (affinity matrix) zastosowano funkcję (1) z miarami odległości właściwymi dla danych mierzonych na różnych skalach pomiaru. Dzięki takiemu podejściu dla danych niemetrycznych (nominalnych i porządkowych) możliwe jest pośrednie wzmocnienie skali pomiaru zmiennych. Zaproponowana metoda klasyfikacji spektralnej może być z powodzeniem stosowa- na we wszystkich zagadnieniach klasyfikacyjnych, w tym dotyczących pomiaru, analizy i wizualizacji preferencji. 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa w pracy [13]. Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa, przedziałowa, ilorazowa. Skale przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną i porządkową do niemetrycznych. Podstawowe własności skal pomiaru przedstawia tab. 1. 1 Praca naukowa finansowana ze środków na naukę w latach 2009-2012 jako projekt badawczy nr N N111 446037 nt. „Pomiar, analiza i wizualizacja preferencji ujawnionych i wyrażonych z wykorzys- taniem metod wielowymiarowej analizy statystycznej i programu R”. 14 Marek Walesiak Tabela 1. Podstawowe własności skal pomiaru Typ skali Dozwolone przekształcenia matematyczne Dopuszczalne relacje Dopuszczalne operacje arytmetyczne Nominalna z = f (x), f (x)− dowolne przekształcenie wzajemnie jednoznaczne równości (xA = xB), różności (xA xB) zliczanie zdarzeń (liczba relacji równości, różno- ści) Porządkowa z = f (x), f (x)− dowolna ściśle monotonicznie rosnąca funkcja powyższe oraz większości (xA > xB) i mniejszości (xA < xB) zliczanie zdarzeń (liczba relacji równości, różno- ści, większości, mniej- szości) Przedziałowa z = bx + a (b > 0), z ∈ R dla wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana arbitralnie lub na podstawie konwencji* powyższe oraz równości różnic i przedziałów (xA − xB = xC − xD) powyższe oraz dodawanie i odejmowanie Ilorazowa z = bx (b > 0), z ∈ R+ dla wszystkich x zawartych w R+, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali) powyższe oraz równości ilorazów ( xA xB = xC xD ) powyższe oraz mnożenie i dzielenie * Por. [1], s. 240. Źródło: [18], s. 15. Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. [11], s. 17; [12], s. 19; [16], s. 40; [23]; [24]). Bezpośrednia transformacja skal pomiaru zmiennych polegająca na ich wzmacnianiu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W klasyfikacji spektralnej możliwe jest pośrednie wzmocnienie skali pomiaru zmiennych. Pierwotna macierz danych, w której zmienne mierzone są na skali nominalnej lub porządkowej zostaje przekształcona w macierz danych, w której zmienne mierzone są na skali przedziałowej. 3. KLASYFIKACJA SPEKTRALNA DLA RÓŻNYCH SKAL POMIARU ZMIENNYCH Rys. 1 przedstawia trzy pierwsze etapy klasyfikacji spektralnej (występujące także w klasycznej analizie skupień), obejmujące ustalenie zbioru obiektów i zmiennych (po zgromadzeniu danych konstruuje się macierz danych, a w przypadku danych me- trycznych w następnym kroku znormalizowaną macierz danych), dobór zmiennych oraz wybór miary odległości. Szczegółową charakterystykę tych etapów zaprezentowano m.in. w pracach [17] i [19]. Klasyfikacja spektralna a skale pomiaru zmiennych 17 tej normalizacji długość każdego wektora wierszowego macierzy Y = [ yi j ] jest równa jeden. 8. Macierz Y stanowi punkt wyjścia zastosowania klasycznych metod analizy skupień (proponuje się tutaj wykorzystanie metody k-średnich). Rys. 2 pokazuje wybrane kroki postępowania w klasyfikacji spektralnej i odpowiada- jące im skale pomiaru. Rysunek 2. Wybrane kroki postępowania w klasyfikacji spektralnej i odpowiadające im skale pomiaru Źródło: Opracowanie własne. Jeśli dane pierwotne X = [xi j] mierzone są na skali niemetrycznej (porządkowej, nominalnej) w wyniku zastosowania funkcji (1) z jedną z odległości właściwych dla tych skal pomiaru (zob. tab. 2) podobieństwa w macierzy A = [Aik] mierzone są na skali przedziałowej. Ostatecznie w kroku 7 otrzymuje się metryczną macierz danych Y o wymiarach n× u. Pozwala ona na zastosowanie dowolnych metod analizy skupień (w tym metod bazujących bezpośrednio na macierzy danych, np. metodę k-średnich). 4. PARAMETR σ W KLASYFIKACJI SPEKTRALNEJ Parametr σ ma fundamentalne znaczenie w klasyfikacji spektralnej. W literaturze zaproponowano wiele heurystycznych sposobów wyznaczania wartości tego parametru (zob. np. [3]; [9]; [25]). W metodach heurystycznych wyznacza się wartość σ na pod- stawie pewnych statystyk opisowych macierzy odległości [dik]. Lepszy sposób wyz- naczania parametru σ zaproponował Karatzoglou w pracy [6]. Poszukuje się takiej 18 Marek Walesiak wartości parametru σ, która minimalizuje zmienność wewnątrzklasową przy zadanej liczbie klas u. Jest to heurystyczna metoda poszukiwania minimum lokalnego. Zbliżony koncepcyjnie algorytm znajdowania optymalnego parametru σ zaproponowano w pracy [20]: Krok 0. Wybierana jest próba bootstrapowa X′ składającą się z n′ obiektów opisanych wszystkimi m zmiennymi (wartość n′ jest najczęściej tak dobierana, aby 1 2 n ≤ n′ ≤ 3 4 n). Początkowy przedział przeszukiwania optymalnej wartości parametru σ ustalany jest jako S0 = [0; D] (gdzie D oznacza sumę odległości w dolnym trójką- cie macierzy odległości a dla kwadratu odległości euklidesowej – pierwiastek z sumy odległości w dolnym trójkącie macierzy odległości). Krok 1. Przedział Sk (gdzie k oznacza numer iteracji; na początku Sk = S0) dzielony jest na przedziały jednakowej długości: pkr = [p k r ; p k r ], r = 1, . . . ,R (R – liczba przedziałów w każdej iteracji; domyślnie R = 10). Krok 2. Dla każdego przedziału pkr obliczamy jego środek: σ k r = pkr+p k r 2 . Dla wszys- tkich wartości σkr przeprowadzana jest klasyfikacja spektralna zbioru X ′ na ustaloną liczbę klas u. Krok 3. Wybierane jest takie σkr , dla którego zmienność wewnątrzklasowa jest minimalna. Krok 4. Z przedziałem zawierającym wybraną wartość σkr w kroku 3 przechodzi się do kroku 1 i kontynuuje procedurę do osiągnięcia zadanej liczby iteracji (domyślnie: 3). 5. OPROGRAMOWANIE W ŚRODOWISKU R Klasyfikację spektralną zgodną z algorytmem zmodyfikowanym w artykule prze- prowadza się z wykorzystaniem funkcji speccl pakietu clusterSim (zob. [22]): speccl(data,nc,distance="GDM1",sigma="automatic", sigma.interval="default",mod.sample=0.75,R=10,iterations=3) Argumenty: data macierz danych nc liczba klas distance miary odległości z tabeli 2 ("sEuclidean" – kwadrat odległości euklidesowej, "euclidean" – odległość euklidesowa, "manhat- tan" – odległość miejska, "maximum" – odległość Czebyszewa, "canberra" – odległość Canberra, "BC" – odległość Braya- Curtisa, "GDM1" – odległość GDM dla danych metrycznych, "GDM2" – odległość GDM dla danych porządkowych, "SM" – odległość Sokala-Michenera dla danych nominalnych) Klasyfikacja spektralna a skale pomiaru zmiennych 19 sigma parametr skali: sigma="automatic" – parametr ustalany automatycznie zgo- dnie z algorytmem z punktu 4 sigma=200 – parametr podany przez użytkownika, np. 200 sigma.interval przedział przeszukiwania parametru sigma: sigma.interval="default" – przedział wartości od zera do sumy odległości w dolnym trójkącie macierzy odległości (dla kwadratu odległości euklidesowej – do pierwiastka z sumy odległości w dolnym trójkącie macierzy odległości) sigma.interval=1000 – przedział wartości od zera do wartości podanej przez użytkownika, np. 1000 mod.sample proporcja danych stosowanych do estymacji parametru sigma R liczba przedziałów w każdej iteracji iterations maksymalna liczba iteracji Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych me- trycznych przedstawiających strukturę dwóch klas zobrazowano na rys. 3. Do wygen- erowania zbioru danych metrycznych wykorzystano funkcję mlbench.spirals pakietu mlbench (zob. rys. 3a). Do klasyfikacji zbioru obiektów zastosowano metodę klasy- fikacji spektralnej wyznaczając w kroku 4 macierz podobieństw zgodnie ze wzorem (1) z odległością GDM1. Rys. 3b i 3c prezentują odpowiednio obiekty z macierzy E o wymiarach 200 × 2 (krok 6) oraz obiekty ze znormalizowanej macierz Y = [ yi j ] o wymiarach 200 × 2 (krok 7). Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych porząd- kowych przedstawiających strukturę trzech klas zobrazowano na rys. 4. Do wygen- erowania zbioru danych porządkowych3 wykorzystano funkcję cluster.Gen paki- etu clusterSim (zob. rys. 4a). Do klasyfikacji zbioru obiektów zastosowano metodę klasyfikacji spektralnej wyznaczając w kroku 4 macierz podobieństw zgodnie ze wzorem (1) z odległością GDM2. Rys. 4b i 4c prezentują odpowiednio obiekty z macierzy E o wymiarach 150 × 3 (krok 6) oraz obiekty ze znormalizowanej macierz Y = [ yi j ] o wymiarach 150 × 3 (krok 7). 3 Przy tworzeniu wykresu rozrzutu dla danych porządkowych trzeba wziąć pod uwagę częstość występowania identycznych par kategorii. W funkcji plotCategorial znajduje to wyraz w długości promienia koła. 22 Marek Walesiak 6. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI SPEKTRALNEJ Z METODAMI ANALIZY SKUPIEŃ DLA DANYCH O ZNANEJ STRUKTURZE KLAS Analizę porównawczą metod klasyfikacji spektralnej z metodami analizy skupień, z uwzględnieniem różnych miar odległości, dla danych o znanej strukturze klas przepro- wadzono dla trzech typów danych. W eksperymencie pierwszym i trzecim wykorzystano odpowiednio dane metryczne oraz porządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem funkcji cluster.Gen pakietu clusterSim na podstawie modeli zawartych w tab. 3. Tabela 3. Charakterystyka modeli w analizie symulacyjnej Nr modelu m nk* u lo środki ciężkości klas Macierz kowariancji ks 5 3 7 3 40 (1,5; 6, – 3), (3; 12; –6) (4,5; 18; –9) σ j j = 1 (1 ≤ j ≤ 3) σ12 = σ13 = −0, 9, σ23 = 0, 9 1 6 2 5, 7 5 40, 20, 25, 25, 20 (5; 5), (–3; 3), (3; –3), (0; 0), (–5; –5) σ j j = 1, σ jl = 0, 9 2 10 2 6, 8 4 35 (–4; 5), (5; 14), (14; 5), (5; –4) σ j j = 1, σ jl = 0 3 23 2 5 3 30, 60, 35 (0; 4), (4; 8), (8; 12) Σ1 = [ 1 −0, 9 −0, 9 1 ] , Σ2 = [ 1 0 0 1 ] , Σ3 = [ 1 0, 9 0, 9 1 ] 4 * tylko dla danych porządkowych; m – liczba zmiennych, nk – liczba kategorii (jedna liczba oznacza stałą liczbę kategorii); u – liczba klas; lo – liczba obiektów w klasach (jedna liczba oznacza klasy równoliczne); ks – kształt skupień: a) skupienia dobrze separowalne (1 – skupienia wydłużone, 3 – skupienia normalne), skupienia słabo separowalne (2 – skupienia wydłużone, 4 – skupienia zróżnicowane dla klas). Źródło: [21]. Na rys. 5 i 6 przedstawiono graficzną prezentację przykładowych zbiorów danych utworzonych z wykorzystaniem funkcji cluster.Gen pakietu clusterSim dla danych metrycznych (rys. 5) i danych porządkowych (rys. 6). W eksperymencie drugim zbiory danych zawierające 360 obiektów (zob. rys. 7) wygenerowano z wykorzystaniem funkcji pakietów mlbench (mlbench.spirals), geozoo (dini.surface) oraz zbiorów worms [20] i banana [2]. Dla modeli w każdym eksperymencie wygenerowano 40 zbiorów danych, przepro- wadzono procedurę klasyfikacyjną i porównano otrzymane rezultaty klasyfikacji ze znaną strukturą klas przy pomocy skorygowanego indeksu Randa (zob. [5]). Klasyfikacja spektralna a skale pomiaru zmiennych 23 Rysunek 5. Graficzna prezentacja przykładowych zbiorów danych utworzonych z wykorzystaniem funkcji cluster.Gen pakietu clusterSim (dane metryczne) Źródło: opracowanie własne z wykorzystaniem programu R. 24 Marek Walesiak Rysunek 6. Graficzna prezentacja przykładowych zbiorów danych utworzonych z wykorzystaniem funkcji cluster.Gen pakietu clusterSim (dane porządkowe) Źródło: opracowanie własne z wykorzystaniem programu R. Klasyfikacja spektralna a skale pomiaru zmiennych 27 cd. Tabela 4. 21 diana(2) 0,534 0,988 0,757 0,983 0,846 0,894 0,438 0,270 22 centroid(1) 0,513 0,989 0,964 1,000 0,959 0,978 0,371 0,190 23 kmeans 0,502 0,819 0,839 0,898 0,967 0,881 0,406 0,219 24 diana(4) 0,491 0,966 0,762 0,992 0,582 0,826 0,404 0,242 25 diana(1) 0,457 0,988 0,735 0,992 0,678 0,848 0,345 0,179 26 complete(4) 0,447 0,894 0,912 1,000 0,886 0,923 0,281 0,135 27 complete(2) 0,437 0,960 0,869 1,000 0,931 0,940 0,253 0,119 27 complete(1) 0,437 0,960 0,869 1,000 0,931 0,940 0,253 0,119 29 centroid(2) 0,427 0,989 0,942 1,000 0,926 0,964 0,298 0,019 * (k8+k9+k10)/3, gdzie k8 = (k4+k5+k6+k7)/4 Liczba w nawiasie przy nazwach metod klasyfikacji: (1) – kwadrat odległości euklidesowej, (2) – odległość euklidesowa, (3) – odległość miejska, (4) – odległość GDM1. Źródło: obliczenia własne z wykorzystaniem programu R4. W przypadku typowych zbiorów danych metrycznych metody klasyfikacji spektral- nej sprawdzają się dobrze w odkrywaniu rzeczywistej struktury klas (pozycje: 4, 6, 7 i 8 w zestawieniu). W przeprowadzonym eksperymencie najlepiej strukturę klas odkrywały metody klasyczne (ward, average i pam) z odległością miejską. Wśród metod klasy- fikacji spektralnej dominuje klasyfikacja spektralna z odległością euklidesową. Nieco gorsze rezultaty otrzymuje się z wykorzystaniem klasyfikacji spektralnej z odległością GDM1 (poz. 6 w zestawieniu). Tab. 5 prezentuje uporządkowanie analizowanych metod klasyfikacji (z 4 odległoś- ciami) według średnich wartości skorygowanego indeksu Randa policzonego z 40 symulacji dla nietypowych danych metrycznych wygenerowanych z wykorzystaniem pakietów mlbench (mlbench.spirals), geozoo (dini.surface) oraz zbiorów worms i banana. Dla nietypowych zbiorów danych metody klasyfikacji spektralnej zdecydowanie lepiej od klasycznych metod analizy skupień odkrywają prawidłową strukturę klas. Klasyfikacja spektralna z odległością GDM1 daje rezultaty lepsze od metod klasyfikacji spektralnej z pozostałymi odległościami. Tab. 6 prezentuje uporządkowanie analizowanych metod klasyfikacji według śred- nich wartości skorygowanego indeksu Randa policzonego z 40 symulacji dla danych porządkowych wygenerowanych w pakiecie clusterSim. W przypadku zbiorów danych porządkowych bez zmiennych zakłócających najlep- sza jest metoda Warda. Metoda klasyfikacji spektralnej z odległością GDM2 daje gorsze rezultaty od klasycznych metod analizy skupień (za wyjątkiem metody diana). Należy jednak pamiętać, że zbiory tego typu bardzo rzadko występują w rzeczywistych prob- lemach klasyfikacyjnych. Uwzględnienie zmiennych zakłócających pokazuje wyraźną przewagę metody klasyfikacji spektralnej z odległością GDM2. 4 Skrypty do analiz symulacyjnych z punktu 6 są autorstwa dra Andrzeja Dudka. 28 Marek Walesiak Tabela 5. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa dla danych metrycznych otrzymanych z pakietów mlbench (mlbench.spirals), geozoo (dini.surface) oraz zbiorów worms i banana Poz. Metoda średnia* Zbiory danych spirals worms dini banana 1 2 3 4 5 6 7 1 speccl(4) 0,837 0,961 0,929 0,916 0,544 2 speccl(3) 0,822 0,901 0,959 0,694 0,736 3 speccl(2) 0,779 0,938 0,985 0,563 0,631 4 speccl(1) 0,741 1,000 0,889 0,407 0,671 5 pam(3) 0,259 0,006 0,438 0,274 0,316 6 average(3) 0,251 0,030 0,468 0,221 0,284 7 ward(3) 0,249 0,034 0,474 0,214 0,276 8 pam(2) 0,220 0,025 0,503 0,184 0,169 9 complete(3) 0,216 0,022 0,440 0,206 0,195 10 pam(4) 0,214 0,016 0,519 0,172 0,147 10 pam(1) 0,214 0,026 0,517 0,175 0,138 12 ward(1) 0,213 0,036 0,499 0,170 0,148 13 average(2) 0,211 0,039 0,517 0,152 0,135 13 diana(2) 0,211 0,040 0,528 0,155 0,120 15 diana(4) 0,210 0,037 0,516 0,158 0,129 16 diana(3) 0,209 -0,001 0,486 0,181 0,172 16 complete(2) 0,209 0,033 0,488 0,141 0,172 16 complete(1) 0,209 0,033 0,488 0,141 0,172 19 ward(2) 0,208 0,053 0,471 0,144 0,165 20 average(4) 0,205 0,029 0,471 0,143 0,177 20 kmeans 0,205 0,032 0,519 0,159 0,111 22 diana(1) 0,204 0,032 0,515 0,159 0,112 22 average(1) 0,204 0,034 0,503 0,150 0,130 24 ward(4) 0,202 0,046 0,487 0,142 0,132 25 centroid(1) 0,197 0,022 0,520 0,141 0,107 26 centroid(4) 0,194 0,038 0,478 0,145 0,116 27 complete(4) 0,193 0,041 0,464 0,140 0,126 28 centroid(3) 0,170 0,006 0,460 0,134 0,079 29 centroid(2) 0,167 0,020 0,487 0,083 0,078 * (k4+k5+k6+k7)/4 Liczba w nawiasie przy nazwach metod klasyfikacji: (1) – kwadrat odległości euklidesowej, (2) – odległość euklidesowa, (3) – odległość miejska, (4) – odległość GDM1. Źródło: obliczenia własne z wykorzystaniem programu R. Klasyfikacja spektralna a skale pomiaru zmiennych 29 Tabela 6. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa dla danych porządkowych wygenerowanych w pakiecie clusterSim Poz. Metoda średnia* Kształt skupień Liczba zmiennych zakłócających 1 2 3 4 0 1 2 1 2 3 4 5 6 7 8 9 10 1 speccl(5) 0,696 0,998 0,951 0,798 0,777 0,881 0,709 0,497 2 average(5) 0,602 1,000 0,968 1,000 0,962 0,982 0,495 0,327 3 pam(5) 0,593 1,000 0,971 1,000 0,934 0,976 0,483 0,321 4 ward(5) 0,591 1,000 0,971 1,000 0,973 0,986 0,471 0,317 5 centroid(5) 0,560 1,000 0,962 1,000 0,965 0,982 0,451 0,248 6 diana(5) 0,493 0,959 0,753 0,998 0,595 0,826 0,388 0,266 7 complete(5) 0,444 0,882 0,885 1,000 0,851 0,904 0,279 0,149 * (k8+k9+k10)/3, gdzie: k8 = (k4+k5+k6+k7)/4 Liczba (5) w nawiasie przy nazwach metod klasyfikacji oznacza odległość GDM2. Źródło: obliczenia własne z wykorzystaniem programu R. 7. PODSUMOWANIE W artykule zaproponowano modyfikację metody klasyfikacji spektralnej umożli- wiającą jej zastosowanie w klasyfikacji danych prezentowanych na różnych skalach pomiaru. W procedurze klasyfikacji spektralnej, zaproponowanej przez autorów Ng, Jordan i Weiss [8], wprowadzono modyfikację polegającą na zastosowaniu funkcji (1) z miarami odległości właściwymi dla danych mierzonych na różnych skalach pomiaru. Dodatkowo dzięki takiemu podejściu pośrednio wzmacnia się skale pomiaru zmien- nych. Dane niemetryczne zostają przekształcone w dane przedziałowe. Umożliwia to zastosowanie w klasyfikacji zbioru obiektów m.in. metody k-średnich. Scharaktery- zowano funkcję speccl pakietu clusterSim umożliwiającą klasyfikację spektralną zgodną z algorytmem zmodyfikowanym w artykule. W tym miejscu wskazać trzeba na ograniczenia związane z klasyfikacją spek- tralną. Efektywne wykorzystanie metod klasyfikacji spektralnej jest uzależnione od prawidłowego doboru parametru skali σ. W części 4 zaprezentowano heurystyczną metodę poszukiwania minimum lokalnego. W części 6 poświęconej analizie porównawczej metod klasyfikacji spektralnej z metodami analizy skupień dla danych o znanej strukturze klas przeprowadzono analizy symulacyjne dla danych metrycznych oraz porządkowych. Nie uwzględniono badań symulacyjnych dotyczących takiego porównania dla danych nominalnych. Wynikało to z braku metod generowania danych nominalnych o znanej strukturze klas. Uniwersytet Ekonomiczny we Wrocławiu