Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Uczenie maszynowe, metody uczenia maszynowego, sztuczna inteligencja, Notatki z Sztuczna inteligencja

Dokument zawiera skrupulatne opracowanie dziedziny uczenia maszynowego, od wprowadzenia, podstawowych pojęć, przez omówienie technik uczenia maszynowego (nadzorowanego, nienadzorowanego, ze wzmocnieniem), algorytmów uczenia maszynowego, metod oceny algorytmów uczenia maszynowego.

Typologia: Notatki

2022/2023

W sprzedaży od 16.10.2024

informatyka-ai-ml-inz-biomedyczna
informatyka-ai-ml-inz-biomedyczna 🇵🇱

5 dokumenty

1 / 64

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Uczenie Maszynowe
1 PODSTAWOWE POJĘCIA
Wydobywanie danych (data mining) algorytmy wykrywają nieoczywiste wzorce ze zbioru danych. Może to
pomóc w procesie trenowania.
Zbiór uczący (dataset) – dane uczące, zbiór przeznaczony do uczenia algorytmu, może służyć do oceny wydajności
modelu. Wyróżnić można:
Zbiór poetykietowany (labeled) w którym dane przynależą do danej klasy.
Nieetykietowany (unlabeled) nie zawiera danych o przynależności obiektu do etykiety klasy.
Obiekt, próbka (sample, object) – opis pojedynczego elementu zestawy danych. Dane np. w tabeli.
Cecha (feature) – opisuje obiekt.
Dane:
Strukturalne [structured data] – występują związki między danym – relacyjne bazy danych.
Pół-strukturalne [semi-structured data] najczęściej pojedyncza tabela, nie musi spełniać wymogu tabeli
relacyjnej.
Nieustrukturyzowane dane [unstructured data] – zdjęcia, dźwięk, dokumenty tekstowe, strony internetowe.
Kryteria uczenia maszyn:
Nadzór
oNadzorowane
oNienadzorowane
oPółnadzorowane
oZe wzmocnieniem
oSamo-nadzorowane
Uczenie w czasie:
oWsadowe (batch learning)
oPrzyrostowe (online learning)
Sposoby pracy:
oModel predykcyjny
oPorównanie bezpośrednie
Definicje uczenia maszyn (maszynowego):
Uczenie maszyn [maszynowe] to dziedzina nauki dająca komputerom możliwość uczenia się bez
konieczności ich jawnego programowania (Arthur Samuel, 1959)
Program komputerowy uczy się z doświadczenia E (Experience) w kontekście pewnego zadania T (Task) i
miary wydajności P (Performance), jeżeli jego wydajność na T, mierzona P, wzrasta wraz z doświadczeniem E
(Tom Mitchell, 1997)
Algorytm uczenia maszynowego buduje model matematyczny na podstawie przykładowych danych, zwanych
zbiorem uczącym, w celu prognozowania lub podejmowania decyzji bez konieczności programowania
(budowania modelu) przez człowieka (Zamiast sztywnych instrukcji, naucz na przykładach)
Uczenie maszyn vs Sztuczna Inteligencja vs Eksploracja danych:
Uczenie maszyn:
oDziedzina AI, która na podstawie przykładów, wyszukiwania relacji zawartych w danych uczących
buduje model,
oUkierunkowane na miarę(y) wydajności,
oBudowa modelu z danych – sposób opracowania danych.
Sztuczna inteligencja:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40

Podgląd częściowego tekstu

Pobierz Uczenie maszynowe, metody uczenia maszynowego, sztuczna inteligencja i więcej Notatki w PDF z Sztuczna inteligencja tylko na Docsity!

Uczenie Maszynowe

1 PODSTAWOWE POJĘCIA

Wydobywanie danych (data mining) – algorytmy wykrywają nieoczywiste wzorce ze zbioru danych. Może to pomóc w procesie trenowania. Zbiór uczący (dataset) – dane uczące, zbiór przeznaczony do uczenia algorytmu, może służyć do oceny wydajności modelu. Wyróżnić można:  Zbiór poetykietowany (labeled) w którym dane przynależą do danej klasy.  Nieetykietowany (unlabeled) nie zawiera danych o przynależności obiektu do etykiety klasy. Obiekt, próbka (sample, object) – opis pojedynczego elementu zestawy danych. Dane np. w tabeli. Cecha (feature) – opisuje obiekt. Dane :  Strukturalne [structured data] – występują związki między danym – relacyjne bazy danych.  Pół-strukturalne [semi-structured data] – najczęściej pojedyncza tabela, nie musi spełniać wymogu tabeli relacyjnej.  Nieustrukturyzowane dane [unstructured data] – zdjęcia, dźwięk, dokumenty tekstowe, strony internetowe. Kryteria uczenia maszyn:Nadzór o Nadzorowane o Nienadzorowane o Półnadzorowane o Ze wzmocnieniem o Samo-nadzorowane  Uczenie w czasie: o Wsadowe (batch learning) o Przyrostowe (online learning)  Sposoby pracy: o Model predykcyjny o Porównanie bezpośrednie Definicje uczenia maszyn (maszynowego):  Uczenie maszyn [maszynowe] to dziedzina nauki dająca komputerom możliwość uczenia się bez konieczności ich jawnego programowania (Arthur Samuel, 1959)  Program komputerowy uczy się z doświadczenia E (Experience) w kontekście pewnego zadania T (Task) i miary wydajności P (Performance), jeżeli jego wydajność na T, mierzona P, wzrasta wraz z doświadczeniem E (Tom Mitchell, 1997)  Algorytm uczenia maszynowego buduje model matematyczny na podstawie przykładowych danych, zwanych zbiorem uczącym, w celu prognozowania lub podejmowania decyzji bez konieczności programowania (budowania modelu) przez człowieka (Zamiast sztywnych instrukcji, naucz na przykładach) Uczenie maszyn vs Sztuczna Inteligencja vs Eksploracja danych:Uczenie maszyn : o Dziedzina AI, która na podstawie przykładów, wyszukiwania relacji zawartych w danych uczących buduje model, o Ukierunkowane na miarę(y) wydajności, o Budowa modelu z danych – sposób opracowania danych.  Sztuczna inteligencja :

o Pojęcie szersze niż ML, celem jest naśladowanie przejawów ludzkiej inteligencji, o Ukierunkowana na odniesienie sukcesu – symulowanie inteligencji, o Myślenie i wykonywanie zadań jak człowiek  Eksploracja danych : o Jest etapem procesu Odkrywania wiedzy w bazach danych, o Ukierunkowana na objaśnianie – odkrywanie wiedzy – nowa wiedza dla człowieka, o Ukierunkowana na uzyskanie informacji, którą interpretuje człowiek.

2 KATEGORIE UCZENIA MASZYNOWEGO

2.1 NADZÓR

2.1.1 UCZENIE NADZOROWANE

Dane: etykietowane Algorytm uczący korzysta z danych, w których wszystkie obiekty ze zbioru uczącego są poetykietowane (mają przypisaną etykietę klasy). Etykieta klasy jest też wyjściem algorytmu uczenia nadzorowanego. Sposób pracy: predykcja, przewidywanie docelowej wartości numerycznej  Klasyfikacja – etykieta klasy (atrybut decyzyjny) ma wartość dyskretną (binarną, nominalną). W przypadku binarnej etykiety klasy mówimy o klasyfikacji binarnej.  Regresja, predykcja – atrybut decyzyjny jest liczbą rzeczywistą. Celem regresji jest przewidywanie wartości numerycznej, a cechy nazywane są czynnikami prognostycznymi, predykatorami. Niektóre algorytmy mogą być używane do zadań regresji oraz klasyfikacji np. regresja logistyczna (przewiduje prawdopodobieństwo), sieci neuronowe. Cel: klasyfikacja Algorytmy uczenia maszynowego:  K-najbliższych sąsiadów  Regresja liniowa  Regresja logistyczna  Maszyny wektorów nośnych  Drzewa decyzyjne i las losowy  Sieci neuronowe

2.1.2 UCZENIE NIENADZOROWANE

Dane: nieetykietowane Sposób pracy: model Wzorzec, relacja, struktura, model są wynikiem działania procesu uczenia. Cel: znalezienie relacji, wzorca z danych Algorytmy uczenia maszynowego:  Analiza skupień (clustering): o K-średnich, centroidów, HCA-hierarchiczna analiza skupień  Wykrywanie anomalii i nowości: o Las izolowany, SVM  Wizualizacja i redukcja wymiarowości: o PCA – analiza głównych składowych, jądrowe PCA, LLE- lokalne liniowe zanurzenie, t-SNE  Reguły asocjacyjne: o Algorytmy Apriori, algorytm Eclot

3 EWALUACJA MODELU

Ewaluacja modelu (model evaluation) - proces sprawdzający i oceniający uzyskany model. Celem jest określenie, jak dobrze (trafnie) utworzony model spełnia swoją rolę. Rola zależna jest od typu uczenia np. dla uczenia nadzorowanego jest to etykieta klasy nowego obiektu. Ocena modelu powinna odbywać się z wykorzystaniem danych, które nie brały udziału w uczeniu.  Miara(y), metryka, wskaźnik ocenyMetoda(y) oceny

3.1 MACIERZ POMYŁEK

Jest to macierz klasy rzeczywistej oraz klasy przewidywanej, prognozowanej.

3.1.1 METRYKI JAKOŚCI KLASYFIKACJI

3.1.1.1 Precision / Precyzja 3.1.1.2 Negative Predictive / Negatywna predykcja 3.1.1.3 Specificity / Specyficzność 3.1.1.4 Sensitivity, recall / Czułość 3.1.1.5 Accuracy / Dokładność 3.1.1.6 Balanced accuracy / Zbalansowana dokładność

3.1.1.7 F 1 – score / Statystyka F 1 3.1.1.8 G-mean / Średnia G

3.2 KRZYWA ROC – RECEIVER OPERATING CHARACTERISTIC

Jest funkcją, gdzie zmienną niezależną jest 1-specyficzność, zmienną zależną czułość. Pozwala „szybko” graficznie ocenić skuteczność klasyfikacji. Jest to wykres odsetka prawdziwie pozytywnych do odsetka fałszywie negatywnych.  Punkt (0,1) – idealna klasyfikacja  Punkt (0,0) – wszystkie obiekty do klasy negatywnej  Punkt (1,0) – całkowicie błędna klasyfikacja  Punkt (1,1) – wszystkie obiekty do klasy pozytywnej  Pole pod krzywą (AUC) (Area Under ROC Curve)

3.3 WALIDACJA KRZYŻOWA, KROSWALIDACJA, CROSS-VALIDATION

Walidacja krzyżowa (kroswalidacja, sprawdzanie krzyżowe) – (cross-validation), to metoda walidacji modelu służących do oceny, w jaki sposób wyniki analizy statystycznej zostaną uogólnione na niezależny zbiór danych. Polega na podziale danych na podzbiory, a następnie uczeniu modelu z wykorzystaniem zbioru uczącego, podczas gdy pozostałe podzbiory służą do weryfikacji wyników modelu (zbiór testowy, zbiór walidacyjny). Data snoping bias – obciążenie związane z podglądaniem danych. Kiedy wyniki okazują się nadmiernie pozytywne, błąd uogólnienia jest mniejszy niż rzeczywisty. Dzieje się jeśli podano do algorytmu wszystkie dane. Rodzaje kroswalidacji:

 Walidacja prosta - Próba dzielona jest losowo na rozłączne zbiory: uczący oraz testujący.
 Leave-p-out (LpO CV) - Wykorzystuje p obserwacji jako zbiór testowy, a pozostałe obserwacje
jako zbiór uczący; Szczególny przypadek LOO CV – dla małych zbiorów danych.
 Kroswalidacja stratyfikowana - Zachowuje „oryginalne” proporcje pomiędzy etykietami klas
w zbiorze uczącym oraz testującym.

4 PROBLEMATYKA ML

„Przekleństwo wielowymiarowości” – liczba cech skutkuje wzrostem liczby parametrów, złożonością modelu, rośnie ryzyko przeuczenia i spadkiem generalizacji

4.2 BŁĄD OBCIĄŻENIA I BŁĄD WARIANCJI

Błąd obciążenia (bias) – skłonności do ciągłego uczenia się tej samej „złe” rzeczy. Może wynikać z błędnych założeń, źle dobranych parametrów początkowych modelu.  Błąd wariancji (variance) – skłonność do uczenia się „przypadkowych” rzeczy niezależnie od danych wejściowych. Nadmierna wrażliwość modelu na małe różnice w danych uczących.  Błąd nieredukowalny – wynika z zaszumienia danych, odstających danych.

5 ATRYBUTY

Atrybut – cecha Typy atrybutów:Kategoryczny: o Nominalny

  • dyskretna, skończona (niewielka), wyliczalna przestrzeń dopuszczalnych wartości
  • nie jest zdefiniowany porządek między wartościami atrybutu
  • nie można zdefiniować odległości między wartościami atrybutu
  • zwykle dane testowe, znakowe
  • Przykład: kolor, miasto, urządzenie, płeć o Porządkowy
  • dyskretna, skończona (niewielka), wyliczalna przestrzeń dopuszczalnych wartości
  • są zdefiniowane relacje (równość oraz nierówność) między wartościami atrybutu
  • nie można zdefiniować odległości między wartościami atrybutu
  • dane testowe, znakowe, liczbowe - Przykład: rozmiar ubrań, stan wody, zachmurzenie, przystanek (1, 2, 3, 4, 5)  Numeryczny, liczbowy o Interwałowy, przedziałowy
  • liczby rzeczywiste lub całkowite
  • są zdefiniowane relacje (równość oraz nierówność) między wartościami atrybutu
  • można zdefiniować odległości między wartościami atrybutu - operatory mnożenia oraz dzielenia nie dają interpretowalnych wyników – nie stosować - Przykład: temperatura wody w stopniach, daty kalendarzowe – stała różnica między dniami o Ilorazowy
  • liczby rzeczywiste lub całkowite
  • są zdefiniowane relacje (równość oraz nierówność) między wartościami atrybutu
  • można zdefiniować odległości między wartościami atrybutu
  • można stosować operatory mnożenia oraz dzielenia
  • posiada „zero” w stosunku, do którego porównuje się poszczególne wyniki
  • Przykład: cena, wzrost.

6 PRZETWARZANIE WSTĘPNE – PREPROCESSING

Cele przetwarzania wstępnego:  Analiza zgromadzonych danych, spojrzenie krytyczne  Uzyskanie lepszych wyników uczenia  Przyspieszenie procesu uczenia/wizualizacja  Zmniejszenie wymiarowości danych  Umożliwienie zastosowania wybranego algorytmu uczenia o k-NN, k-średnich – wykorzystują pojęcie odległości (możliwość zast.) o SVM, NN – metody gradientu (przyspieszenie) Czyszczenie danych:  Brakujące wartości: o Usunięcie rekordu/wiersza – nie zawsze o Wartość losowa o Wartość średnia, mediana – atrybut ilorazowy o Wartość najczęściej występująca o Metody regresyjne, wybór najlepszych atrybutów/cech jako zmienne niezależne, atrybut z brakującymi wartościami jako zmienna zależna o Metoda k-NN, wybierane są najbliższe wiersze/obiekty z bez braku danych  Dane zaszumione Transformacja danych:  Skalowanie:

  • dotyczy algorytmów wykorzystujących miarę odległości (zazwyczaj)
  • proporcjonalnie przekształca wartości atrybutu, tak aby znalazły się w ustalonym przedziale
  • Skalowanie do przedziału [a, b]:
  • Skalowanie do przedziału [0, 1]: o Normalizacja (min-max scaling) – wartości między 0 i 1. Iloraz różnicy próbki i minimum oraz różnicy max-min:
x

'

x − xmin
xmax − xmin

o Standaryzacja (standarization) – po standaryzacji wartość oczekiwana (średnia) wynosi 0, a wariancja jest równa 1.  Porównanie różnych atrybutów z wykorzystaniem notacji Z (Z = 1 oznacza, że dany wynik jest wyższy od średniej o 1 odchylenie standardowe):

x

'

x − μ ( X )
σ ( X )

Gdzie:

μ – średnia,

 odrzucane są składowe główne, które najmniej wyjaśniają dane  w zależności od implementacji algorytm może wykorzystywać macierzy korelacji, albo macierzy kowariancji utworzonej ze zbioru wejściowego  wykorzystanie macierzy korelacji odpowiada wstępnej normalizacji (standaryzacji do RN) zbioru wejściowego  wykorzystanie macierzy kowariancji wymaga wcześniejszej standaryzacji do RN  “Szukana prosta: minimalizuje sumę odległości punktów od prostej”  “Kąt α definiuje stosunek poszczególnych zmiennych, których kombinacja liniowa z wagami równymi stosunkowi wyznacza składową główną”

7 ELEMENTY ANALIZY STATYSTYCZNEJ

Wynik danego testu statystycznego nie wskazuje, że przyjęta hipoteza jest prawdziwa, a jedynie w jakim stopniu (prawdopodobieństwo) próba jest zgodna z hipotezą. Istnieje prawdopodobieństwo, że wniosek (przyjęta hipoteza) jest błędna. Wnioski zależą od wykorzystanych zbiorów danych – dla innych zbiorów danych można otrzymać inne wnioski.

7.1 TEST T-STUDENTA

Test t-Studenta dzieli się na test dla zmiennych zależnych i niezależnych. Max 2 zmienne.

7.1.1 TEST T-STUDENTA DLA ZMIENNYCH NIEZALEŻNYCH

Podstawowe założenia:  testowane są różnice w wartościach średnich w 2 grupach,  porównywane grupy mają podobną liczność,  zmienna grupująca może przyjmować tylko dwie wartości,  analizowane zmienne niepowiązane mierzone są na skali ilościowej,  analizowane zmienne niepowiązane mają rozkład normalny,  wariancje w grupach są homogeniczne (jednorodne)*, Wyróżnia się 2 rodzaje hipotez:  Hipoteza zerowa – średnie w porównywalnych grupach nie różnią się,  Hipoteza alternatywna – średnie w porównywalnych grupach różnią się. Decyzję podejmujemy na podstawie wyniku prawdopodobieństwa p. Z reguły zakładamy poziom

prawdopodobieństwa na p =0,05.

Obszar krytyczny testu t-Studenta jest prawostronny.

7.1.2 TEST T-STUDENTA DLA ZMIENNYCH ZALEŻNYCH

Weryfikacja hipotezy o różności średnich pomiaru. Dla dwóch zmiennych (test parowy). Podstawowe założenia:  testowana jest średnia różnica pomiędzy dwoma wynikami,  zmienna jest mierzona na dwóch poziomach (powtarzany pomiar),  analizowane zmienne niepowiązane mierzone są na skali ilościowej,  analizowane zmienne niepowiązane mają rozkład normalny. Wyróżnia się 2 rodzaje hipotez:

 Hipoteza zerowa - wartość średnia serii składającej się z różnic rozpatrywanych par jest równa zeru

 Hipoteza alternatywna – wartość średnia serii składającej się z różnic rozpatrywanych par nie jest równa zeru Decyzję podejmujemy na podstawie wyniku prawdopodobieństwa p. Z reguły zakładamy poziom

prawdopodobieństwa na p =0,05.

Obszar krytyczny testu t-Studenta jest prawostronny.

W zależności od wyniki metryki p podejmuje się decyzję o odrzuceniu hipotezy zerowej na rzecz hipotezy alternatywnej.

7.2 TEST WILCOXONA

Odpowiednik nieparametryczny testu t-Studenta dla zmiennych powiązanych. Metrykę którą poddajemy sprawdzeniu jest mediana dla sumy rang dodatnich i ujemnych badanej populacji. Test wykonujemy jeśli nie mamy rozkładu normalnego zmiennych decyzyjnych.

Jest różnica bo osobno mamy test znaków, a osobno Wilcoxona. W teście znaków, w odróżnieniu od testu
Wilcoxona, nie uwzględniamy różnic pomiędzy wartościami w parach, a jedynie ich znaki.

Podstawowe założenia:  zmienna niezależna (powtarzany pomiar) jest mierzona na dwóch poziomach,  badana cecha ma rozkład typu ciągłego,  zmienne znajdują się na skali porządkowej lub zmienna ma ilościowy poziom pomiaru, ale dane nie spełniają założenia testu parametrycznego. Zastosowanie:

 porównanie dwóch klasyfikatorów na wielu zbiorach danych,

HIPOTEZA ZEROWA (H0): Mediana dla sumy rang dodatnich i ujemnych w badanej populacji równa jest zero. HIPOTEZA ALTERNATYWNA (HA): Mediana dla sumy rang dodatnich i ujemnych w badanej populacji nie jest równa zero. Jak liczymy:

 dla małych prób n ≤ 25 :
W = min ¿ ¿

Gdzie:

∑ T +¿ , ∑T −¿¿ ¿ - odpowiednio suma rang dodatnich, suma rang ujemnych
 dla dużych prób n > 25 wyznacza się statystykę Z:
Z =
T −
N ( N + 1 )
N (^ N + 1 )^ (^2 N + 1 )

Gdzie:

N – liczność próby

Interpretacja testu:

Należy odczytać dla danej liczności próby oraz zadanego poziomu istotności (najczęściej α =0,05) wartość krytyczną

testu. Obszar krytyczny testu Wilcoxona jest prawostronny.

Jeżeli wartość statystyki testowej W znajduje się w obszarze krytycznym ( W ≥ Wkryt ) nie ma podstaw do
odrzucenia H 0 ; jeżeli wartość statystyki testowej W nie mieści się w obszarze krytycznym (W < Wkryt ) należy
odrzucić H 0 na rzecz HA.

o Tukeya, NIR, Duncana o procedury przeszukiwania par: Holm, Hochberg

7.4 MACIERZ WYGANA-PRZEGRANA-REMIS

Porównanie metod zliczając parami wygrane, przegrane oraz remisy. Liczba zwycięstw jest zgodna z rozkładem dwumianowym.

8 PLANOWANIE EKSPERYMENTU

Planowanie eksperymentu uczenia maszynowego obejmuje kolejne etapy:Zdefiniowanie problemu: o z jakim problemem mamy do czynienia: regresja, klasyfikacja nienadzorowana, uczenie ze wzmocnieniem? o czy posiadamy właściwe dane: uczenie nadzorowane vs. uczenie nienadzorowane o wybór właściwych metryk: błąd całkowity nie jest właściwą metryką dla danych silnie niezbalansowanych o metryki liczbowe a możliwość wizualizacji oraz objaśniania modelu  Dostarczenie danych – Jakość danych: o śmieci na wejściu – śmieci na wyjściu Garbage In, Garbage Out – GIGO o proces czyszczenia danych jest najbardziej czasochłonny w inżynierii danych i zgodnie z podanymi statystykami obejmuje nawet 57% z wszystkich czynności  Dobór modelu: o Twierdzenie „no free lunch” (NFL) – David Wolpert “Nie istnieje algorytm uczenia maszynowego, który ma charakter uniwersalny dla wszystkich problemów”:  wzorzec, model a kontrprzykład, czyli paradoks „czarnego łabędzia”  uczenie maszynowe – rozumowanie indukcyjne – wnioski o problemie z wykorzystaniem obserwacji z przeszłości  wyuczony model może dobrze działać dla jednego problemu, ale nie daje to powodu by sądzić, że równie dobrze nadaje się do dowolnie innego problemu o - analiza danych, zrozumienie problemu o - zacząć od prostych modeli o - modele proste (np. regresja logistyczna) – zazwyczaj duże obciążenie i mniejsze dopasowanie o - modele złożone (np. sieci neuronowe) – zazwyczaj większa wariancja i nadmierne dopasowanie o - kompromis między prostymi a złożonymi modelami o - porównanie wielu modeli o - dobór parametrów i hiperparametrów  Parametry i hiperparametry: o parametr – wartość zostaje ustalona podczas procesu uczenia, dostrajanie parametru wykonywane jest przez algorytm podczas procesu uczenia. Na przykład:  wagi w sieci neuronowej o hiperparametr – parametr „wyższego rzędu”, model nie dostraja hiperparametru, ustalony jest przed uczeniem. Na przykład:  głębokość drzewa decyzyjnego  liczba warstw sieci neuronowej  liczba drzew w lesie losowym  Hiperparametry o metody heurystyczne - pomagają rozwiązać problem w warunkach niedostatecznej informacji i zrekompensować jej brak intuicją oraz wyobraźnią  najlepsze założenie, wybieramy przypuszczalnie najlepszy zestaw hiperparametrów oraz małą liczbę ich wartości – duże doświadczenie w analizie danych może ułatwić trafny wybór

 analiza zmian wartości jednego hipermaprametru przy ustalonych wartościach innych parametrów – wada to założenie, że hiperparametry nie są skorelowane o metoda siatki (grid search) – wszystkie możliwe kombinacje interesujących wartości parametrów  np. dwa hiperparametry po 5 wartości: 5x5=  zakładając, że model wyliczany jest w ciągu 1s, to w czasie jednego semestru akademickiego można wyliczyć mniej modeli niż dla siedmiu hiperparametrów o możliwych 10 wartościach  można stosować do hiperparametrów o małej liczbie przeszukiwań o metoda losowania (random search) – wybrane kombinacje interesujących wartości parametrów,  ogranicza przestrzeń poszukiwań  wynik zależy od prawidłowego wyboru przestrzeni poszukiwań  dla każdego problemu należy wyznaczyć niezależnie przestrzeń poszukiwań  można po kilku iteracjach zmienić przestrzeń poszukiwań  można stosować do hiperparametrów o dużej liczbie przeszukiwań o metoda optymalizacji baysowskiej (Baysian optimalization) – probabilistyczne przeszukiwanie przestrzeni hiperparametrów, oszacowanie jaka będzie wartość metryki w wybranym punkcie przeszukiwań (siatce) jeśli znane są wartości metryki w innych punktach siatki przez zdefiniowanie prostszej funkcji zastępczej  względnie mała potrzebna liczba przeszukiwań w celu znalezienia maksimum metryki  skuteczna w przypadku wielu maksimów lokalnych, nie wpada w lokalne optimum  Definicja ukończenia o pojęcie zaczerpnięte z metodyk zwinnych zarządzania projektem – „definition of done” o należy ustalić pewne założenia (wartości metryki/metryk), które pozwalają określić, że model jest wystarczająco dobry, może być weryfikowany w praktyce o jakie różnice w wartościach metryki są znaczące: praktyka akademicka, praktyka wdrożeń przemysłowych, konkursy uczenia maszynowego

Przykład: Zbiór danych pogoda

If outlook = overcast then yes
If humidity = normal
and windy = false then yes
If temperature = mild
and humidity = normal then yes
If outlook = rainy
and windy = false then yes
If outlook = sunny
and humidity = high then no
If outlook = rainy
and windy = true then no

9.2 ALGORYTM ONE-RULE

Dla każdego atrybutu, Dla każdej wartości atrybutu, Utwórz regułę: wartość atrybutu → etykieta klasy oblicz błąd dla reguły Oblicz błąd dla wszystkich reguł atrybutu Wybierz atrybut, który generuje najmniejszy błąd Przykład:

10 REGUŁY ASOCJACYJNE

Reguły asocjacyjne, czyli takie dla których prawa i lewa strona implikacji ( X → Y ) mogą dotyczyć dowolnie

wybranych atrybutów. Decyzja (prawa strona implikacji) nie jest z góry określona, tzn. nie wiemy na którym atrybucie ma się opierać. Jest to przykład nauki bez nauczyciela: algorytm nie ma z góry określonej prawidłowej odpowiedzi, zamiast tego ma opisywać wewnętrzne zależności między atrybutami np.:

a 1 = v 1 ∧ a 9 = v 9 =¿ a 4 = v 4
From IBM site → https://www.ibm.com/docs/pl/spss-modeler/saas?topic=nodes-association-rules

Reguły asocjacyjne kojarzą konkretny wniosek (np. decyzję o zakupie konkretnego produktu) ze zbiorem warunków (np. zakupem kilku innych produktów). Algorytmy reguł asocjacyjnych automatycznie znajdują związki, które można byłoby znaleźć ręcznie przy użyciu technik wizualizacji (por. węzeł sieciowy). Przewagą algorytmów reguł asocjacyjnych wobec bardziej standardowych algorytmów drzew decyzyjnych (C5.0 i C&RTs) jest fakt, że dozwolone są w nich związki między dowolnymi atrybutami. Algorytm drzewa decyzyjnego pozwala utworzyć reguły z tylko jednym wnioskiem, podczas gdy algorytmy powiązań próbują znaleźć wiele reguł, z których każda może mieć inny wniosek. Wadą algorytmów asocjacyjnych jest fakt, że próbują one znaleźć wzorce w potencjalnie bardzo dużej przestrzeni wyszukiwania i w związku z tym ich wykonanie może trwać znacznie dłużej niż wykonanie algorytmu drzewa decyzyjnego. Algorytmy te do znajdowania reguł stosują metodę generowania i testowania — początkowo generują proste reguły i walidują je względem zbioru danych. Dobre reguły są zachowywane, a wszystkie reguły, z zachowaniem różnych ograniczeń, podlegają specjalizacji. Specjalizacja polega na dodawaniu warunków do reguły. Uzyskane nowe reguły są walidowane względem danych i proces znów zapisuje najlepsze i najbardziej interesujące reguły. Użytkownik zwykle nakłada jakieś ograniczenie na liczbę poprzedników dozwolonych w regule. Ponadto w celu ograniczenia potencjalnie dużej przestrzeni wyszukiwania stosowane są różne techniki oparte na teorii informacji i systemach efektywnego indeksowania. Po zakończeniu przetwarzania prezentowana jest tabela najlepszych reguł. W odróżnienia od drzewa decyzyjnego ten zestaw reguł asocjacyjnych nie może być używany bezpośrednio do generowania predykcji, tak jak model standardowy (np. drzewo decyzyjne lub sieć neuronowa). Wynika to z faktu, że reguły mogą prowadzić do wielu różnych wniosków. Konieczny jest kolejny poziom transformacji , który przekształci reguły asocjacyjne w zestaw reguł klasyfikacji. Dlatego reguły asocjacyjne wygenerowane przez algorytmy asocjacyjne nazywamy modelami surowymi. Mimo że użytkownik może przeglądać takie modele surowe, nie można ich używać wprost jako modeli klasyfikacyjnych, jeśli użytkownik nie nakaże systemowi wygenerowania modelu klasyfikacyjnego z modelu surowego. Wyróżnia się dwa algorytmy reguł asocjacyjnych:Węzeł Apriori pozwala wyodrębnić zestaw reguł na podstawie danych, pobierając reguły o najwyższej możliwej zawartości informacji. Apriori oferuje pięć różnych metod wybierania reguł i korzysta ze złożonego schematu indeksowania do efektywnego przetwarzania dużych zbiorów danych. W przypadku dużych problemów czas uczenia Apriori jest zwykle krótszy. Brak jest arbitralnego limitu co do liczby reguł do utrzymania, możliwa jest obsługa reguł z maksymalnie 32 predykcjami. Apriori wymaga, aby wszystkie zmienne wejściowe i wyjściowe były zmiennymi jakościowymi, lecz oferuje wyższą wydajność z uwagi na optymalizację pod kątem tego typu danych.  Węzeł Sekwencje wykrywa reguły asocjacyjne w danych sekwencyjnych lub zorientowanych czasowo. Sekwencja to lista zbiorów elementów z tendencją do występowania w przewidywalnej kolejności. Na przykład klient dokonujący zakupu brzytwy i balsamu po goleniu przy następnej wizycie w sklepie może dokonać zakupu kremu po goleniu. Węzeł Sekwencje bazuje na algorytmie reguł asocjacyjnych CARMA , który korzysta z efektywnej metody dwu przejść do znajdowania sekwencji. Pozwoliłam sobie na chamską kopie o tych koszykach z tej stronki: https://edu.pjwstk.edu.pl/wyklady/adn/scb/wyklad12/w12.htm Jak chcecie poczytać więcej to se looknijcie Analiza koszykowa jest pierwotną motywacją do rozwoju reguł asocjacyjnych, gdyż badała zachowanie klientów na przykładzie kupowanych produktów, połączeń pomiędzy nimi tzn. które produkty kupowano ze sobą. Reguła asocjacyjna to implikacja:

X → Y

Gdzie:

Uczenie Maszynowe

Metody parametryczne i nieparametryczne estymacji funkcji gęstości

11 POJĘCIA

11.1 ZDARZENIE ELEMENTARNE

Zdarzenie wchodzące w skład przestrzeni zdarzeń np. wynik rzutu kostką.

11.2 PRZESTRZEŃ ZDARZEŃ

Zbiór wszystkich zdarzeń elementarnych. Jeśli można zrobić mapowanie mowa o nieskończoności policzalnej, jeśli nie niepoliczalnej. Nie każde zdarzenie o zerowym prawdopodobieństwie jest niemożliwe.

11.3 ZDARZENIE LOSOWE

Podzbiór w przestrzeni zdarzeń.

11.4 ZMIENNA LOSOWA

Funkcja określona na przestrzeni zdarzeń. (Niech (Ω, F, P) oznacza podstawową przestrzeń probabilistyczną. Zmienną losową oznaczamy funkcję określoną na przestrzeni zdarzeń elementarnych Ω o wartościach ze zbioru liczb rzeczywistych X : Ω 7→ R, taką że dla każdego x ∈ R {ω : X(ω) < x} ∈F)

11.5 GĘSTOŚĆ DYSTRYBUANTY

Funkcja f(x) która określa jakie jest prawdopodobieństwo wystąpienia zdarzenia w zależności od parametru x. Przyjmuje wartości od 0 do 1 (jak prawdopodobieństwo).

11.6 DYSTRYBUANTA

Całka po gęstości, ma to do siebie, że nie maleje ma wartość 0 na początku i 1 na końcu dziedziny x. O dystrybuancie i gęstości można mówić w kontekście wielowymiarowym.

11.7 NIEZALEŻNOŚĆ ZMIENNYCH LOSOWYCH

Zmiana wartości żadnej ze zmiennych losowych nie wpływa na inne.

12 ESTYMATORY

Oszacowanie parametru. Estymacji stosowana np. w Bayesowkich naiwnych - założenie o niezależności rozkładów cech.

12.1 BIAS I WARIANCJA

Estymator jest obciążony jeśli jego wskazania różnią się od rzeczywistych wartości. Jeśli estymator jest asymptotycznie nieobciążony bias zanika gdy liczba próbek rośnie do nieskończoności - prawo wielkich liczb. Estymator jest losowy więc posiada wariancję. Wariancja jest przykładem momentu centralnego, który jest miarą rozproszenia.

12.2 ZGODNOŚĆ

Wariacja jest rozłożona w taki sposób, że gdy n -> nieskończoność wariancja dąży do 0. Estymator jest zgodny gdy jest nieobciążony i ilość próbek dąży do nieskończoności.

12.3 METODA MOMENTÓW

Polega na ustaleniu empirycznie wartości rozkładów np. średniej i odchylenia standardowego w przypadku rozkładu normalnego.

12.4 METODA NAJWIĘKSZEJ WIARYGODNOŚCI

Rozwiązuje się zadanie optymalizacyjne szukając klasyfikatora tak, żeby prawdopodobieństwo otrzymania rzeczywistych wyników było jak największe.

13 MODELE MIESZANE I ALGORYTM EM

Gdy rozkład jest mieszany zakładamy np. mieszankę rozkładów Gausowkich - tutaj korzystając z algorytku EM możemy określić największe prawdopodobieństwo. Algorytm opiera się na losowym zainicjalizowaniu parametrów estymatorów - krok E, a następnie maksymalizacji wiarygodności poprzez zmienianie parametrów. Metoda kontynuowana jest aż do braku poprawy wartości.

14 ESTYMACJA NIEPARAMETRYCZNA

Empirycznie wyznacza się dystrybuantę i funkcję gęstości na podstawie punktów. Nie tworzy założeń dotyczących rozkładu danych jednak otrzymanie estymatora jest bardziej kosztowne. Estymatory jądrowe - wybiera się taki rozkład jaki dobrze opisuje zebrane dane - przesuwa się funkcję jądra na daną próbkę. W ten sposób dostaje się wartości gładkie. Parametr h wpływa na szczegółowość - za duże h 1 rozkład, za małe h overfitting. Są różne reguły wyznaczania h.