Analiza danych wielowymiarowych, ćwiczenie - Notatki - Bazy danych - Część 2, Notatki'z System Zarządzania Bazą Danych. Warsaw School of Economics
Irena85
Irena8524 marca 2013

Analiza danych wielowymiarowych, ćwiczenie - Notatki - Bazy danych - Część 2, Notatki'z System Zarządzania Bazą Danych. Warsaw School of Economics

PDF (943 KB)
10 strona
1000+Liczba odwiedzin
Opis
W notatkach wyeksponowane zostają tematy z zakresu bazy danych: analiza danych wielowymiarowych. Część 2.
20 punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 10

To jest jedynie podgląd.

3 shown on 10 pages

Pobierz dokument

To jest jedynie podgląd.

3 shown on 10 pages

Pobierz dokument

To jest jedynie podgląd.

3 shown on 10 pages

Pobierz dokument

To jest jedynie podgląd.

3 shown on 10 pages

Pobierz dokument

Uruchomienie procesów eksploracji danych wymaga danych dobrej jakości, zintegrowanych, prawdziwych i stanowiących reprezentatywną próbę. W przeciwnym wypadku możemy otrzymać wyniki o mniejszej dokładności lub po prostu nieprawdziwe. Z wykorzystaniem różnych metod statystycznych, ekonometrycznych czy metod sztucznej inteligencji (np. analiza dyskryminacyjna, regresja logistyczna, drzewa klasyfikacyjne, generowanie reguł rozmytych, analiza skupień, analiza korespondencji, sieci neuronowe) tworzone są modele, które wykorzystuje się do analizy danych, celem sprawdzenia czy występują w nich ukryte relacje, prawidłowości czy też inne związki.

Częstym zastosowaniem metod eksploracji danych jest segmentacja klientów, pracowników i produktów. W naszych ćwiczeniach wykonamy modele poszukujące opisu pracownika efektywnego, czyli takiego, który realizuje dużą liczbę projektów przy wysokim udziale własnym w realizacji tych projektów.

4.2. Zadanie

Przygotować analizę eksploracyjną danych, która umożliwi zbadanie, jakie cechy mają wpływ na zaangażowanie pracowników w realizację projektów. Firma zatrudnia ponad 450 osób, ale tylko niecałe 60 osób bierze udział w realizacji projektów. Zarząd firmy chce zaktywować swoich pracowników (ewentualnie doprowadzić do zmian w strukturze zatrudnienia), ale chce też wiedzieć na jakie cechy swoich obecnych lub przyszłych pracowników powinien zwracać szczególną uwagę.

4.3. Wykonanie zadania

 Realizację zadania rozpoczniemy od utworzenia kilku kolejnych widoków w bazie danych Kadry. Pierwszy to AktywnoscPrac (Rys. 26) – określający liczbę zrealizowanych projektów oraz najwyższy udział przy realizacji dla każdego pracownika. Połączenie pomiędzy tabelami należy tak zdefiniować, aby w wyniku wyświetlani byli wszyscy pracownicy.

docsity.com

Rys. 26 Definicja widoku AktywnoscPrac

 Kolejny widok to Liczba dzieci (Rys. 27). Tutaj też połączenie pomiędzy tabelami należy zmienić na takie, które pokazuje wszystkie rekordy z tabeli Pracownicy.

Rys. 27 Definicja widoku Liczba dzieci

 Ostatnim widokiem jest AnalizaDM (Rys. 28), który zawiera wszystkie cechy pracownika mogące mieć wpływ na jego aktywność zawodową. Dodatkowy atrybut – Efektywnosc wyznacza wartość zmiennej predykcyjnej badania eksploracyjnego, przyjmując wartość 1 dla pracowników aktywnych (liczba zrealizowanych projektów > 10, najwyższy udział przy realizacji projektu > 30) i wartość 0 dla pozostałych pracowników: CASE WHEN LiczbaProj>10 and MaxUdzial>30 THEN 1 ELSE 0 END.

docsity.com

Rys. 28 Definicja widoku AnalizaDM

 Teraz należy przejść do aplikacji SQL Server Business Intelligence Development Studio i utworzyć nowy projekt analityczny o nazwie AnalizaDM (Rys. 29).

Rys. 29 Tworzenie projektu AnalizaDM

 Najpierw trzeba udostępnić widok AnalizaDM i w tym celu tworzymy nowy Data Source View, połączony z widokiem AnalizaDM w bazie danych Kadry (Rys. 30).

docsity.com

Rys. 30 Udostępnianie widoku AnalizaDM

 Teraz tworzymy nową strukturę eksploracyjną (Rys. 31).

Rys. 31 Tworzenie nowej struktury eksploracji danych

 Uruchomiony zostanie kreator, w którym na początku trzeba zdecydować czy struktura będzie tworzona w oparciu o zdefiniowany dostęp do bazy danych czy też w oparciu o utworzone kostki wielowymiarowe. Wybieramy pierwszą możliwość (Rys. 32)

Rys. 32 Tworzenie struktury eksploracyjnej na podstawie bazy danych

 W następnym oknie kreatora należy dokonać wyboru techniki eksploracyjnej. Zacznijmy od modelu drzewa decyzyjnego ().

docsity.com

Rys. 33 Eksploracja techniką drzew decyzyjnych

 Następny krok to wybór widoku źródła danych, które będzie wykorzystane do modelowania struktury eksploracyjnej – będzie to widok AnalizaDM (Rys. 34).

Rys. 34 Wybór źródła danych

 Teraz trzeba wyspecyfikować tabelę, która zostanie użyta do analizy – jest to nadal widok AnalizaDM (Rys. 35).

Rys. 35 Wybór tabeli do analizy

 Kolejny etap to specyfikacja ról, jakie będą spełniały poszczególne atrybuty podczas analizy (Rys. 36). Efektywność to zmienna predykcyjna, która stanowi cel badania. Wszystkie atrybuty typu Input to zmienne, których wpływ na zmienną predykcyjną jest badany. IdPrac to identyfikator rekordów w tabeli AnalizaDM – oczywiście nie podlega badaniu.

docsity.com

Rys. 36 Lista atrybutów i ich role w analizie

 Następny krok to automatyczne wykrywanie atrybutów, które przyjmują skończoną listę wartości – są atrybutami dyskretnymi (w przeciwieństwie do pozostałych, które są atrybutami ciągłymi). Atrybuty dyskretne są wykorzystywane do uszczegóławiania analizy eksploracyjnej i opisu jej wyników. Wykrywanie zmiennych dyskretnych uruchamia się przyciskiem Detect w oknie Specify Columns’ Content and Data Type (Rys. 37).

Rys. 37 Dyskretyzacja zmiennych

docsity.com

 Strukturę eksploracyjną należy nazwać Analiza DM, a zbudowany model Drzewo Decyzyjne (Rys. 38). Na tym kończy się praca kreatora struktury eksploracyjnej.

Rys. 38 Zakończenie tworzenia struktury eksploracyjnej

 Pierwszy model eksploracyjny jest już gotowy i można go uruchomić (Rys. 39).

Rys. 39 Uruchamianie struktury eksploracyjnej

 Wyniki modelu można obejrzeć w oknie Analiza DM.dmm (Design) w zakładce Mining Model Viewer (Rys. 40).

docsity.com

Rys. 40 Wyniki modelu Drzewo Decyzyjne

 Wynika z tego modelu, że jedyna cechą mającą wpływ na efektywność pracowników jest ich staż pracy. Od 4 roku pracy obserwowany jest wysoki wzrost zaangażowania w realizację projektów.

 Model drzew decyzyjnych nie dał zbyt wyczerpującego opisu, dlatego zbudujemy jeszcze dwa modele (w oparciu o ten sam zbiór danych) – model regresji logistycznej i model sieci neuronowych. W tym celu należy w zakładce Mining Models wybrać przycisk Create Related Mining Models (Rys. 41) i utworzyć model o nazwie Regresja (wykorzystujący technikę regresji logistycznej) oraz SiecNeuronowa (wykorzystujący technikę sieci neuronowych).

Rys. 41 Tworzenie nowego modelu eksploracyjnego

 Struktura tych modeli jest dostępna w zakładce Mining Models (Rys. 42).

docsity.com

Rys. 42 Różne modele tej samej struktury eksploracyjnej

 Trzeba ponownie uruchomić proces dla struktury Analiza DM (Rys. 39) i wyniki modeli znowu będą dostępne w zakładce Data Mining Viewer (Rys. 43). Na liście Mining Model można wskazać model eksploracyjny, którego wyniki chcemy obejrzeć.

Rys. 43 Wyniki modelu Regresja

 Na Rys. 43 prezentowane są wyniki regresji logistycznej, które wskazują na następujące cechy podnoszące efektywność pracowników:

o 4 dzieci w rodzinie, o płaca rzędu 5 tys. zł i więcej, o wzięta pożyczka rzędu 20 tys. zł, o staż pracy od 4 do 8 lat.

 Model sieci neuronowej (Rys. 44) wskazuje na następujące istotne cechy pracownika:

o płaca rzędu 5 tys. zł i więcej,

docsity.com

o wzięta pożyczka rzędu 20 tys. zł, o wiek pracownika od 32 do 44 lat.

Rys. 44 Wyniki modelu SiecNeuronowa

 Na podstawie wyników tych trzech modeli analityk sporządzi profil pracownika efektywnego (np. jest to pracownik w średnim wieku, posiadający liczną rodzinę, z doświadczeniem zawodowym, dobrze zarabiający i związany z firmą przez wysoką pożyczkę) i nieefektywnego, a następnie przekaże go do osób podejmujących decyzje w sprawach polityki personalnej.

5. Zadanie do wykonania Przeprowadzić wielowymiarową analizę danych w oparciu o utworzoną kostkę OLAP i widok DM, zaprojektowane dla swojego projektu. Zadanie stanowi element oceniany.

docsity.com

komentarze (0)

Brak komentarzy

Bądź autorem pierwszego komentarza!

To jest jedynie podgląd.

3 shown on 10 pages

Pobierz dokument