Analiza danych wielowymiarowych, ćwiczenie - Notatki - Bazy danych - Część 1, Notatki'z Baza danych. Warsaw School of Economics
Irena85
Irena8524 March 2013

Analiza danych wielowymiarowych, ćwiczenie - Notatki - Bazy danych - Część 1, Notatki'z Baza danych. Warsaw School of Economics

PDF (1.1 MB)
15 strona
748Liczba odwiedzin
Opis
W notatkach wyeksponowane zostają tematy z zakresu bazy danych: analiza danych wielowymiarowych. Część 1.
20punkty
Punkty pobierania niezbędne do pobrania
tego dokumentu
Pobierz dokument
Podgląd3 strony / 15
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.

WIELOWYMIAROWA ANALIZA DANYCH Z WYKORZYSTANIEM NARZĘDZIA

MS SQL SERVER

docsity.com

Spis treści

1. WPROWADZENIE .............................................................................................. 3

2. TWORZENIE HURTOWNI DANYCH.................................................................. 3

2.1. Wprowadzenie .......................................................................................................................... 3

2.2. Zadanie ...................................................................................................................................... 4

2.3. Wykonanie zadania .................................................................................................................. 5

3. ANALIZA OLAP.................................................................................................. 7

3.1. Wprowadzenie .......................................................................................................................... 7

3.2. Zadanie ...................................................................................................................................... 7

3.3. Wykonanie zadania .................................................................................................................. 7

4. ANALIZA EKSPLORACYJNA DANYCH ......................................................... 15

4.1. Wprowadzenie ........................................................................................................................ 15

4.2. Zadanie .................................................................................................................................... 16

4.3. Wykonanie zadania ................................................................................................................ 16

5. ZADANIE DO WYKONANIA............................................................................. 25

docsity.com

1. Wprowadzenie

W przedsiębiorstwie istnieje wiele potrzeb związanych z analizą klasyfikacyjną (opisem rzeczywistości) i predykcyjną (prognozowaniem przyszłości) gromadzonych danych. Na podstawie wyników tych analiz podejmowane są decyzje biznesowe na różnych szczeblach zarządzania. Tego typu analizy oparte na technologii OLAP i eksploracji danych (ang. data mining) są również możliwe do przeprowadzenia w MS SQL Server. Wymagają zazwyczaj innej organizacji danych niż w bazie transakcyjnej. Dlatego w celu przeprowadzenia wielowymiarowej analizy danych tworzone są bazy analityczne (zazwyczaj hurtownie danych), dla których źródłem danych są bazy transakcyjne.

2. Tworzenie hurtowni danych

2.1. Wprowadzenie

Hurtownia danych jest bazą przechowującą dane historyczne przedsiębiorstwa. Dane te są niezbędne do ekstrahowania wiedzy wspomagającej podejmowanie decyzji biznesowych w różnych obszarach decyzyjnych - od planowania strategicznego do wspomagania ewaluacji poszczególnych jednostek organizacyjnych.

Dane w hurtowni są zorganizowane w taki sposób, aby mogły być efektywnie wykorzystywane w zaawansowanych analizach statystycznych, ekonometrycznych i eksploracyjnych. Wiąże się to z koniecznością przekształcenia rozdrobnionej struktury bazy transakcyjnej w hierarchiczną strukturę hurtowni. Hurtownia danych zawiera zupełnie inne typy danych jak baza transakcyjna, a należą do nich:

o fakty – dane ilościowe stanowiące główny cel analiz przeprowadzanych w hurtowni,

o wymiary – dane określające położenie poszczególnych faktów w przestrzeni danych (fakty analizowane są względem poszczególnych wymiarów),

o agregaty - dane zagregowane zawierające fakty, które zostały zsumowane prostym obliczeniem matematycznym lub za pomocą funkcji statystycznych (np. minimum, maksimum, średnia, wariancja),

 metadane - różnią się od faktów, wymiarów i agregatów tym, że bezpośrednio nie zawierają danych, ale informacje o ich położeniu, strukturze i znaczeniu, a także informacje o ich mapowaniu ( na przykład przy zastosowaniu aliasów w narzędziach OLAP) oraz przewodnik do algorytmów użytych w agregacjach. W związku z tym metadane są często definiowane jako „dane o danych”.

Fakty i wymiary łączą się w modelu danych hurtowni w następujące struktury:

 strukturę gwiazdy – jedna tabela faktów łączy się z wieloma pojedynczymi tabelami wymiarów:

Tabela faktów

Tabela wymiaru

Tabela wymiaru Tabela wymiaru

Tabela wymiaru

Rys. 1 Struktura gwiazdy

docsity.com

 strukturę płatka śniegu – jedna tabela faktów łączy się z wieloma tabelami wymiarów, przy czym niektóre wymiary mogą tworzyć hierarchie:

Tabela faktów

Tabela wymiaru

Tabela wymiaru Tabela wymiaru

Tabela wymiaru

Tabela podwymiaruTabela podwymiaru Tabela podwymiaru

Tabela podwymiaru

Tabela podwymiaru

Rys. 2 Struktura płatka śniegu

 strukturę burzy śniegowej – kilka tabel faktów łączy się z wieloma wymiarami, przy czym niektóre wymiary mogą być wspólne dla różnych tabel faktów (wymiary oczywiście mogą tworzyć hierarchie):

Tabela faktów

Tabela wymiaru

Tabela wymiaru Tabela wymiaru

Tabela wymiaru

Tabela faktów

Tabela wymiaruTabela podwymiaru Tabela podwymiaru

Rys. 3 Struktura burzy śniegowej

Wszystkie prezentowane struktury modelu danych pozwalają na wykorzystanie OLAP’wej technologii przetwarzania danych. Główną jej zasługą jest efektywne wykorzystywanie danych hurtowni do analiz opartych na złożonych zapytaniach iteracyjnych. Wielowymiarowe struktury OLAP’owe i narzędzia agregacji danych umożliwiają łatwe i szybkie przetwarzanie, agregowanie i podsumowywanie ogromnych zbiorów danych i udostępnianie wyników tych analiz w sposób przyjazny dla użytkownika. Informatycznym narzędziem umożliwiającym realizację tych analiz jest SQL Server Business Intelligence Studio, będące komponentem systemu MS SQL Server.

2.2. Zadanie

Przygotować strukturę analitycznej bazy danych, która umożliwiałaby prowadzenie analiz OLAP i eksploracji danych. Będzie to struktura gwiazdy, zgodna ze schematem prezentowanym na

FAKTY_PROJWYMIAR_PROJ WYMIAR_PRAC

WYMIAR_ADRES

Rys. 4 Struktura hurtowni danych

docsity.com

2.3. Wykonanie zadania

 Na użytek ćwiczeń stworzymy jedynie kilka dodatkowych widoków w bazie danych Kadry, aby w wygodny sposób można było zdefiniować wielowymiarową kostkę OLAP.

 Realizację zadania należy rozpocząć od przygotowania nowych widoków w bazie danych Kadry, które zostaną wykorzystane przy tworzeniu kostki OLAP’owej. Jako pierwszy utworzymy Fakty_Proj, będzie to widok definiujący fakty związane z realizacją projektów. Definicję tego widoku prezentuje Rys. 5. Atrybut CzasProj jest liczony w dniach od daty rozpoczęcia do daty zakończenia projektu: Cast(DataZak-DataRoz as int.

Rys. 5 Definicja widoku Fakty_Proj

 Kolejny widok to Wymiar_Adres, który pozwoli na analizę realizacji projektów pod kątem miejsca zamieszkania osób, które brały w nich udział. Jego definicję prezentuje Rys. 6. W celu umożliwienia bardziej precyzyjnej analizy alokacji geograficznej atrybut KodMiasto został rozdzielony na dwie składowe: Kod i Miasto.

Rys. 6 Definicja widoku Wymiar_Adres

docsity.com

 Kolejny wymiar to Wymiar_Proj (Rys. 7). Jest to jednocześnie wymiar czasu, który pozwoli na analizę realizacji projektów w zdefiniowanych przedziałach czasowych.

Rys. 7 Definicja widoku Wymiar_Proj

 Ostatni wymiar to Wymiar_Prac, który opiera się na definicji widoku Lista zatrudnionych (Rys. 8). Pozwoli on na analizę realizacji projektów pod kątem miejsca zatrudnienia, stanowiska, wieku, stażu pracy oraz płacy pracownika.

Rys. 8 Definicja widoku Wymiar_Prac

docsity.com

3. Analiza OLAP

3.1. Wprowadzenie

OLAP (ang. Online Analytical Processing) to komputerowe przetwarzanie, które umożliwia użytkownikowi łatwe i selektywne wydobywanie i oglądanie danych względem różnych wymiarów.

Analiza OLAP wykorzystuje koncepcję tzw. kostki OLAP, która posiada wymiary (ang. dimensions), zwane także perspektywami, hierarchie (ang. hierarchies) i miary (ang. measures). Przykład analizy OLAP to badanie liczby zrealizowanych projektów przez poszczególne jednostki organizacyjne w kolejnych latach działalności firmy. Jednostki organizacyjne i lata to właśnie wymiary analizy, a liczba zrealizowanych projektów - miara.

Dane zapisywane są w kostce OLAP hierarchicznie. Dzięki temu możemy je analizować na różnych poziomach szczegółowości, rozpoczynając od informacji zagregowanych (np. liczba projektów zrealizowanych w poszczególnych latach) i dochodząc do bardzo szczegółowych, obejmujących pojedyncze operacje (np. liczba projektów zrealizowanych przez konkretnego pracownika w określonym miesiącu).

Analiza OLAP pozwala na odpowiadanie na pytania: "kto?", "co?", "kiedy?", "jak?", "dlaczego?", a także na wszechstronną analizę scenariuszową ("co jeśli?"). Umożliwia prognozowanie przyszłych trendów kształtowania się zjawiska na podstawie danych historycznych. Przykładowe pytania, na które odpowiedzi dostarczają narzędzia OLAP:

o Jak kształtuje się liczba zrealizowanych projektów w określonych jednostkach organizacyjnych w określonych miesiącach roku?

o Którzy pracownicy są najbardziej efektywni – biorą udział w największej liczbie realizowanych projektów?

o Jak długo realizowane są projekty przez poszczególne jednostki organizacyjne w określonych kwartałach roku?

o Gdzie szukać pracowników najbardziej efektywnych (realizujących największą liczbę projektów w najkrótszym czasie)?

3.2. Zadanie

Należy przygotować kostkę OLAP, która pozwoli analizować dane z tabeli Fakty_Proj względem wymiarów: Wymiar_Proj, Wymiar_Prac, Wymiar_Adres.

3.3. Wykonanie zadania

 Elementy strukturalne kostki OLAP’owej są już gotowe, więc można przystąpić do jej tworzenia. Pierwszym krokiem jest uruchomienie aplikacji SQL Server Business Intelligence Development Studio. Wcześniej wykorzystaliśmy ją do importu danych z systemu MS Access do MS SQL Server. Teraz wykorzystamy ja do tworzenia i uruchamiania projektów analitycznych.

 W oknie startowym należy wybrać Create Project. Tworzymy nowy projekt w narzędziu Analysis Services o nazwie AnalizaOLAP, zapisywany na Pulpicie w folderze Instrukcje BD – Ćwiczenie 13-14 – Wykonanie ćw 13-14 (Rys. 9).

docsity.com

Rys. 9 Analysis Services Project

 Pierwszym krokiem tworzenia nowego projektu jest ustalenie połączenia ze źródłową bazą danych (Rys. 10). Należy w eksploratorze projektu wybrać na folderze Data Sources opcję New Data Source.

Rys. 10 Nowe źródło danych

 Zgłasza się Data Source Wizard, który przeprowadzi użytkownika przez proces tworzenie źródła danych na potrzeby analizy. W pierwszym kroku (po przejściu przez ekran powitalny) należy wybrać przycisk New. Otworzy się okno Connection Manager, w którym należy wybrać z listy typ połączenia (Provider: Native OLE DB\Microsoft OLE DB Provider for SQl Server), wpisać nazwę serwera (Server name) oraz wybrać z listy bazę danych (Select or enter database name). Na koniec należy przetestować istnienie połączenia (przycisk Test connection). Prawidłowe parametry dla tego okna prezentuje Rys. 11.

docsity.com

Rys. 11 Tworzenie połączenia ze źródłem danych

 W kroku drugim należy zalogować się poprawnie do źródła danych, podając nazwę użytkownika i hasło takie jak przy logowaniu do bazy danych Kadry.

Rys. 12 Logowanie do źródła danych

 W ostatnim oknie następuje ostateczne zatwierdzenie połączenia i po wybraniu przycisku Finish nowe źródło danych jest gotowe do użycia.

docsity.com

Rys. 13 Źródło danych Kadry

 Teraz należy ograniczyć całą strukturę bazy danych Kadry tylko do tych elementów, które będą wykorzystywane w projekcie. W tym celu wybieramy New Data Source View na folderze Data Source Views (Rys. 14).

Rys. 14 Przygotowywanie nowego widoku danych źródłowych

 Ponownie uruchomi się kreator, gdzie w oknie Select a Data Source należy wybrać przycisk Next na połączeniu z bazą Kadry (Rys. 15).

Rys. 15 Tworzenie widoku danych dla projektu

docsity.com

 Otworzy się okno, w którym ze wszystkich elementów bazy danych Kadry wybieramy tylko te, które są niezbędne dla projektu. Należy wskazać widoki zawierające fakty i wymiary kostki (Rys. 16).

Rys. 16 Wybór elementów struktury kostki

 Po zakończeniu selekcji w kolejnym oknie nastąpi otwarcie panelu o nazwie Kadry.dsv Design, w którym zostaną umieszczone wszystkie dołączone elementy. Pomiędzy wymiarami i faktami należy utworzyć ręcznie relacje zgodnie z Rys. 17.

Rys. 17 Struktura relacji pomiędzy widokami

docsity.com

 W ten sposób powstał model danych o strukturze gwiazdy, gdzie tabelą faktów jest widok Fakty_Proj, a wymiarami są widoki Wymiar_Proj, Wymiar_Prac i Wymiar_Adres. W kolejnym etapie zadania wygenerujemy kostkę OLAP’ową (Cube) w oparciu o utworzoną strukturę gwiazdy.

 W eksploratorze projektu na folderze Cubes należy wybrać z menu podręcznego opcję New Cube (Rys. 18)

Rys. 18 Tworzenie nowej kostki OLAP

 Ponieważ struktura danych została dobrze przygotowana, więc w kreatorze można wybrać automatyczne generowanie kostki (Rys. 19).

Rys. 19 Automatyczne generowanie struktury kostki

 Jako źródło danych należy wskazać utworzone połączenie z bazą Kadry (Rys. 20).

docsity.com

Rys. 20 Wybór źródła danych dla kostki

 Aplikacja automatycznie wykrywa i definiuje fakty i wymiary w kostce, a następnie wyświetla wyniki na kolejnym ekranie (Rys. 21). Jeżeli automatyczne propozycje są różne od Rys. 21 to należy dostosować je do wzorca.

Rys. 21 Fakty i wymiary w strukturze kostki

 Proponowane są też miary obliczane w oparciu o dane liczbowe zawarte w tabeli faktów (Rys. 22). Można też dokonać zmiany nazw poszczególnych wartości obliczanych (pp. Rys. 22).

Rys. 22 Miary obliczane dla kostki

docsity.com

 Kolejne okna kreatora to akceptacja atrybutów dla poszczególnych wymiarów i zakończenie tworzenia struktury kostki. W ostatnim oknie należy wybrać przycisk Finisz, aby przejść do Kadry.Cube (Design).

 Kostka OLAP jest już gotowa (Rys. 23). Na żółto zaznaczone są fakty w strukturze kostki. Niebieskie są poszczególne wymiary.

Rys. 23 Okno projektowe kostki OLAP

 Aby zacząć korzystać z kostki należy ją wygenerować poprzez wybranie opcji Process z menu podręcznego folderu Kadry.Cube (Rys. 24).

Rys. 24 Generowanie kostki

 Kostka jest już dostępna w postaci tabeli przestawnej w zakładce Browser panelu Kadry.Cube (Design). Wymiary oraz miary można przeciągać myszką w wybrane

docsity.com

obszary tabeli – wymiary mogą tworzyć hierarchicznie powiązane nagłówki wierszy i kolumn, a miary stanowią analizowane wnętrze tabeli. Analityk może wygenerować raport prezentujący takie zestawienia analityczne, które są potrzebne do podejmowania decyzji biznesowych. Przykładowo, Rys. 25 prezentuje liczbę zrealizowanych projektów oraz sumaryczny czas poświęcony na realizację tych projektów (w dniach) w podziale na miejsce zatrudnienia (jednostki organizacyjne) oraz stanowiska pracowników (pracujących w zespołach projektowych) w pierwszym kwartale (1-3 miesiąc) każdego roku.

Rys. 25 Tabela przestawna

4. Analiza eksploracyjna danych

4.1. Wprowadzenie

Eksploracja danych (ang data mining) to metody statystyczne i metody sztucznej inteligencji, które umożliwiają odkrywanie nieznanych jeszcze zależności (prawidłowości) między danymi w nagromadzonych zbiorach danych. Są to takie metody, które pozwalają z danych tworzyć wiedzę (znajdywać zależności, wzorce, trendy).

Możemy wyróżnić dwa podstawowe rodzaje eksploracji danych:

o weryfikacja hipotez - stosowana jest w sytuacji, gdy mamy pewne przypuszczenie co do istotnej zależności między pewnymi danymi i chcemy zweryfikować ten pogląd,

o odkrywanie wiedzy - stosowane jest wówczas, gdy chcemy sprawdzić czy między danymi mają miejsce związki, których człowiek sam nie jest w stanie wychwycić.

docsity.com

komentarze (0)
Brak komentarzy
Bądź autorem pierwszego komentarza!
To jest jedynie podgląd.
Zobacz i pobierz cały dokument.
Docsity is not optimized for the browser you're using. In order to have a better experience we suggest you to use Internet Explorer 9+, Chrome, Firefox or Safari! Download Google Chrome