
























































Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Dokument zawiera skrupulatne opracowanie dziedziny uczenia maszynowego, od wprowadzenia, podstawowych pojęć, przez omówienie technik uczenia maszynowego (nadzorowanego, nienadzorowanego, ze wzmocnieniem), algorytmów uczenia maszynowego, metod oceny algorytmów uczenia maszynowego.
Typologia: Notatki
1 / 64
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Wydobywanie danych (data mining) – algorytmy wykrywają nieoczywiste wzorce ze zbioru danych. Może to pomóc w procesie trenowania. Zbiór uczący (dataset) – dane uczące, zbiór przeznaczony do uczenia algorytmu, może służyć do oceny wydajności modelu. Wyróżnić można: Zbiór poetykietowany (labeled) w którym dane przynależą do danej klasy. Nieetykietowany (unlabeled) nie zawiera danych o przynależności obiektu do etykiety klasy. Obiekt, próbka (sample, object) – opis pojedynczego elementu zestawy danych. Dane np. w tabeli. Cecha (feature) – opisuje obiekt. Dane : Strukturalne [structured data] – występują związki między danym – relacyjne bazy danych. Pół-strukturalne [semi-structured data] – najczęściej pojedyncza tabela, nie musi spełniać wymogu tabeli relacyjnej. Nieustrukturyzowane dane [unstructured data] – zdjęcia, dźwięk, dokumenty tekstowe, strony internetowe. Kryteria uczenia maszyn: Nadzór o Nadzorowane o Nienadzorowane o Półnadzorowane o Ze wzmocnieniem o Samo-nadzorowane Uczenie w czasie: o Wsadowe (batch learning) o Przyrostowe (online learning) Sposoby pracy: o Model predykcyjny o Porównanie bezpośrednie Definicje uczenia maszyn (maszynowego): Uczenie maszyn [maszynowe] to dziedzina nauki dająca komputerom możliwość uczenia się bez konieczności ich jawnego programowania (Arthur Samuel, 1959) Program komputerowy uczy się z doświadczenia E (Experience) w kontekście pewnego zadania T (Task) i miary wydajności P (Performance), jeżeli jego wydajność na T, mierzona P, wzrasta wraz z doświadczeniem E (Tom Mitchell, 1997) Algorytm uczenia maszynowego buduje model matematyczny na podstawie przykładowych danych, zwanych zbiorem uczącym, w celu prognozowania lub podejmowania decyzji bez konieczności programowania (budowania modelu) przez człowieka (Zamiast sztywnych instrukcji, naucz na przykładach) Uczenie maszyn vs Sztuczna Inteligencja vs Eksploracja danych: Uczenie maszyn : o Dziedzina AI, która na podstawie przykładów, wyszukiwania relacji zawartych w danych uczących buduje model, o Ukierunkowane na miarę(y) wydajności, o Budowa modelu z danych – sposób opracowania danych. Sztuczna inteligencja :
o Pojęcie szersze niż ML, celem jest naśladowanie przejawów ludzkiej inteligencji, o Ukierunkowana na odniesienie sukcesu – symulowanie inteligencji, o Myślenie i wykonywanie zadań jak człowiek Eksploracja danych : o Jest etapem procesu Odkrywania wiedzy w bazach danych, o Ukierunkowana na objaśnianie – odkrywanie wiedzy – nowa wiedza dla człowieka, o Ukierunkowana na uzyskanie informacji, którą interpretuje człowiek.
Dane: etykietowane Algorytm uczący korzysta z danych, w których wszystkie obiekty ze zbioru uczącego są poetykietowane (mają przypisaną etykietę klasy). Etykieta klasy jest też wyjściem algorytmu uczenia nadzorowanego. Sposób pracy: predykcja, przewidywanie docelowej wartości numerycznej Klasyfikacja – etykieta klasy (atrybut decyzyjny) ma wartość dyskretną (binarną, nominalną). W przypadku binarnej etykiety klasy mówimy o klasyfikacji binarnej. Regresja, predykcja – atrybut decyzyjny jest liczbą rzeczywistą. Celem regresji jest przewidywanie wartości numerycznej, a cechy nazywane są czynnikami prognostycznymi, predykatorami. Niektóre algorytmy mogą być używane do zadań regresji oraz klasyfikacji np. regresja logistyczna (przewiduje prawdopodobieństwo), sieci neuronowe. Cel: klasyfikacja Algorytmy uczenia maszynowego: K-najbliższych sąsiadów Regresja liniowa Regresja logistyczna Maszyny wektorów nośnych Drzewa decyzyjne i las losowy Sieci neuronowe
Dane: nieetykietowane Sposób pracy: model Wzorzec, relacja, struktura, model są wynikiem działania procesu uczenia. Cel: znalezienie relacji, wzorca z danych Algorytmy uczenia maszynowego: Analiza skupień (clustering): o K-średnich, centroidów, HCA-hierarchiczna analiza skupień Wykrywanie anomalii i nowości: o Las izolowany, SVM Wizualizacja i redukcja wymiarowości: o PCA – analiza głównych składowych, jądrowe PCA, LLE- lokalne liniowe zanurzenie, t-SNE Reguły asocjacyjne: o Algorytmy Apriori, algorytm Eclot
Ewaluacja modelu (model evaluation) - proces sprawdzający i oceniający uzyskany model. Celem jest określenie, jak dobrze (trafnie) utworzony model spełnia swoją rolę. Rola zależna jest od typu uczenia np. dla uczenia nadzorowanego jest to etykieta klasy nowego obiektu. Ocena modelu powinna odbywać się z wykorzystaniem danych, które nie brały udziału w uczeniu. Miara(y), metryka, wskaźnik oceny Metoda(y) oceny
Jest to macierz klasy rzeczywistej oraz klasy przewidywanej, prognozowanej.
3.1.1.1 Precision / Precyzja 3.1.1.2 Negative Predictive / Negatywna predykcja 3.1.1.3 Specificity / Specyficzność 3.1.1.4 Sensitivity, recall / Czułość 3.1.1.5 Accuracy / Dokładność 3.1.1.6 Balanced accuracy / Zbalansowana dokładność
3.1.1.7 F 1 – score / Statystyka F 1 3.1.1.8 G-mean / Średnia G
Jest funkcją, gdzie zmienną niezależną jest 1-specyficzność, zmienną zależną czułość. Pozwala „szybko” graficznie ocenić skuteczność klasyfikacji. Jest to wykres odsetka prawdziwie pozytywnych do odsetka fałszywie negatywnych. Punkt (0,1) – idealna klasyfikacja Punkt (0,0) – wszystkie obiekty do klasy negatywnej Punkt (1,0) – całkowicie błędna klasyfikacja Punkt (1,1) – wszystkie obiekty do klasy pozytywnej Pole pod krzywą (AUC) (Area Under ROC Curve)
Walidacja krzyżowa (kroswalidacja, sprawdzanie krzyżowe) – (cross-validation), to metoda walidacji modelu służących do oceny, w jaki sposób wyniki analizy statystycznej zostaną uogólnione na niezależny zbiór danych. Polega na podziale danych na podzbiory, a następnie uczeniu modelu z wykorzystaniem zbioru uczącego, podczas gdy pozostałe podzbiory służą do weryfikacji wyników modelu (zbiór testowy, zbiór walidacyjny). Data snoping bias – obciążenie związane z podglądaniem danych. Kiedy wyniki okazują się nadmiernie pozytywne, błąd uogólnienia jest mniejszy niż rzeczywisty. Dzieje się jeśli podano do algorytmu wszystkie dane. Rodzaje kroswalidacji:
„Przekleństwo wielowymiarowości” – liczba cech skutkuje wzrostem liczby parametrów, złożonością modelu, rośnie ryzyko przeuczenia i spadkiem generalizacji
Błąd obciążenia (bias) – skłonności do ciągłego uczenia się tej samej „złe” rzeczy. Może wynikać z błędnych założeń, źle dobranych parametrów początkowych modelu. Błąd wariancji (variance) – skłonność do uczenia się „przypadkowych” rzeczy niezależnie od danych wejściowych. Nadmierna wrażliwość modelu na małe różnice w danych uczących. Błąd nieredukowalny – wynika z zaszumienia danych, odstających danych.
Atrybut – cecha Typy atrybutów: Kategoryczny: o Nominalny
Cele przetwarzania wstępnego: Analiza zgromadzonych danych, spojrzenie krytyczne Uzyskanie lepszych wyników uczenia Przyspieszenie procesu uczenia/wizualizacja Zmniejszenie wymiarowości danych Umożliwienie zastosowania wybranego algorytmu uczenia o k-NN, k-średnich – wykorzystują pojęcie odległości (możliwość zast.) o SVM, NN – metody gradientu (przyspieszenie) Czyszczenie danych: Brakujące wartości: o Usunięcie rekordu/wiersza – nie zawsze o Wartość losowa o Wartość średnia, mediana – atrybut ilorazowy o Wartość najczęściej występująca o Metody regresyjne, wybór najlepszych atrybutów/cech jako zmienne niezależne, atrybut z brakującymi wartościami jako zmienna zależna o Metoda k-NN, wybierane są najbliższe wiersze/obiekty z bez braku danych Dane zaszumione Transformacja danych: Skalowanie:
'
o Standaryzacja (standarization) – po standaryzacji wartość oczekiwana (średnia) wynosi 0, a wariancja jest równa 1. Porównanie różnych atrybutów z wykorzystaniem notacji Z (Z = 1 oznacza, że dany wynik jest wyższy od średniej o 1 odchylenie standardowe):
'
Gdzie:
odrzucane są składowe główne, które najmniej wyjaśniają dane w zależności od implementacji algorytm może wykorzystywać macierzy korelacji, albo macierzy kowariancji utworzonej ze zbioru wejściowego wykorzystanie macierzy korelacji odpowiada wstępnej normalizacji (standaryzacji do RN) zbioru wejściowego wykorzystanie macierzy kowariancji wymaga wcześniejszej standaryzacji do RN “Szukana prosta: minimalizuje sumę odległości punktów od prostej” “Kąt α definiuje stosunek poszczególnych zmiennych, których kombinacja liniowa z wagami równymi stosunkowi wyznacza składową główną”
Wynik danego testu statystycznego nie wskazuje, że przyjęta hipoteza jest prawdziwa, a jedynie w jakim stopniu (prawdopodobieństwo) próba jest zgodna z hipotezą. Istnieje prawdopodobieństwo, że wniosek (przyjęta hipoteza) jest błędna. Wnioski zależą od wykorzystanych zbiorów danych – dla innych zbiorów danych można otrzymać inne wnioski.
Test t-Studenta dzieli się na test dla zmiennych zależnych i niezależnych. Max 2 zmienne.
Podstawowe założenia: testowane są różnice w wartościach średnich w 2 grupach, porównywane grupy mają podobną liczność, zmienna grupująca może przyjmować tylko dwie wartości, analizowane zmienne niepowiązane mierzone są na skali ilościowej, analizowane zmienne niepowiązane mają rozkład normalny, wariancje w grupach są homogeniczne (jednorodne)*, Wyróżnia się 2 rodzaje hipotez: Hipoteza zerowa – średnie w porównywalnych grupach nie różnią się, Hipoteza alternatywna – średnie w porównywalnych grupach różnią się. Decyzję podejmujemy na podstawie wyniku prawdopodobieństwa p. Z reguły zakładamy poziom
Obszar krytyczny testu t-Studenta jest prawostronny.
Weryfikacja hipotezy o różności średnich pomiaru. Dla dwóch zmiennych (test parowy). Podstawowe założenia: testowana jest średnia różnica pomiędzy dwoma wynikami, zmienna jest mierzona na dwóch poziomach (powtarzany pomiar), analizowane zmienne niepowiązane mierzone są na skali ilościowej, analizowane zmienne niepowiązane mają rozkład normalny. Wyróżnia się 2 rodzaje hipotez:
Hipoteza alternatywna – wartość średnia serii składającej się z różnic rozpatrywanych par nie jest równa zeru Decyzję podejmujemy na podstawie wyniku prawdopodobieństwa p. Z reguły zakładamy poziom
Obszar krytyczny testu t-Studenta jest prawostronny.
W zależności od wyniki metryki p podejmuje się decyzję o odrzuceniu hipotezy zerowej na rzecz hipotezy alternatywnej.
Odpowiednik nieparametryczny testu t-Studenta dla zmiennych powiązanych. Metrykę którą poddajemy sprawdzeniu jest mediana dla sumy rang dodatnich i ujemnych badanej populacji. Test wykonujemy jeśli nie mamy rozkładu normalnego zmiennych decyzyjnych.
Podstawowe założenia: zmienna niezależna (powtarzany pomiar) jest mierzona na dwóch poziomach, badana cecha ma rozkład typu ciągłego, zmienne znajdują się na skali porządkowej lub zmienna ma ilościowy poziom pomiaru, ale dane nie spełniają założenia testu parametrycznego. Zastosowanie:
HIPOTEZA ZEROWA (H0): Mediana dla sumy rang dodatnich i ujemnych w badanej populacji równa jest zero. HIPOTEZA ALTERNATYWNA (HA): Mediana dla sumy rang dodatnich i ujemnych w badanej populacji nie jest równa zero. Jak liczymy:
Gdzie:
Gdzie:
Interpretacja testu:
testu. Obszar krytyczny testu Wilcoxona jest prawostronny.
o Tukeya, NIR, Duncana o procedury przeszukiwania par: Holm, Hochberg
Porównanie metod zliczając parami wygrane, przegrane oraz remisy. Liczba zwycięstw jest zgodna z rozkładem dwumianowym.
Planowanie eksperymentu uczenia maszynowego obejmuje kolejne etapy: Zdefiniowanie problemu: o z jakim problemem mamy do czynienia: regresja, klasyfikacja nienadzorowana, uczenie ze wzmocnieniem? o czy posiadamy właściwe dane: uczenie nadzorowane vs. uczenie nienadzorowane o wybór właściwych metryk: błąd całkowity nie jest właściwą metryką dla danych silnie niezbalansowanych o metryki liczbowe a możliwość wizualizacji oraz objaśniania modelu Dostarczenie danych – Jakość danych: o śmieci na wejściu – śmieci na wyjściu Garbage In, Garbage Out – GIGO o proces czyszczenia danych jest najbardziej czasochłonny w inżynierii danych i zgodnie z podanymi statystykami obejmuje nawet 57% z wszystkich czynności Dobór modelu: o Twierdzenie „no free lunch” (NFL) – David Wolpert “Nie istnieje algorytm uczenia maszynowego, który ma charakter uniwersalny dla wszystkich problemów”: wzorzec, model a kontrprzykład, czyli paradoks „czarnego łabędzia” uczenie maszynowe – rozumowanie indukcyjne – wnioski o problemie z wykorzystaniem obserwacji z przeszłości wyuczony model może dobrze działać dla jednego problemu, ale nie daje to powodu by sądzić, że równie dobrze nadaje się do dowolnie innego problemu o - analiza danych, zrozumienie problemu o - zacząć od prostych modeli o - modele proste (np. regresja logistyczna) – zazwyczaj duże obciążenie i mniejsze dopasowanie o - modele złożone (np. sieci neuronowe) – zazwyczaj większa wariancja i nadmierne dopasowanie o - kompromis między prostymi a złożonymi modelami o - porównanie wielu modeli o - dobór parametrów i hiperparametrów Parametry i hiperparametry: o parametr – wartość zostaje ustalona podczas procesu uczenia, dostrajanie parametru wykonywane jest przez algorytm podczas procesu uczenia. Na przykład: wagi w sieci neuronowej o hiperparametr – parametr „wyższego rzędu”, model nie dostraja hiperparametru, ustalony jest przed uczeniem. Na przykład: głębokość drzewa decyzyjnego liczba warstw sieci neuronowej liczba drzew w lesie losowym Hiperparametry o metody heurystyczne - pomagają rozwiązać problem w warunkach niedostatecznej informacji i zrekompensować jej brak intuicją oraz wyobraźnią najlepsze założenie, wybieramy przypuszczalnie najlepszy zestaw hiperparametrów oraz małą liczbę ich wartości – duże doświadczenie w analizie danych może ułatwić trafny wybór
analiza zmian wartości jednego hipermaprametru przy ustalonych wartościach innych parametrów – wada to założenie, że hiperparametry nie są skorelowane o metoda siatki (grid search) – wszystkie możliwe kombinacje interesujących wartości parametrów np. dwa hiperparametry po 5 wartości: 5x5= zakładając, że model wyliczany jest w ciągu 1s, to w czasie jednego semestru akademickiego można wyliczyć mniej modeli niż dla siedmiu hiperparametrów o możliwych 10 wartościach można stosować do hiperparametrów o małej liczbie przeszukiwań o metoda losowania (random search) – wybrane kombinacje interesujących wartości parametrów, ogranicza przestrzeń poszukiwań wynik zależy od prawidłowego wyboru przestrzeni poszukiwań dla każdego problemu należy wyznaczyć niezależnie przestrzeń poszukiwań można po kilku iteracjach zmienić przestrzeń poszukiwań można stosować do hiperparametrów o dużej liczbie przeszukiwań o metoda optymalizacji baysowskiej (Baysian optimalization) – probabilistyczne przeszukiwanie przestrzeni hiperparametrów, oszacowanie jaka będzie wartość metryki w wybranym punkcie przeszukiwań (siatce) jeśli znane są wartości metryki w innych punktach siatki przez zdefiniowanie prostszej funkcji zastępczej względnie mała potrzebna liczba przeszukiwań w celu znalezienia maksimum metryki skuteczna w przypadku wielu maksimów lokalnych, nie wpada w lokalne optimum Definicja ukończenia o pojęcie zaczerpnięte z metodyk zwinnych zarządzania projektem – „definition of done” o należy ustalić pewne założenia (wartości metryki/metryk), które pozwalają określić, że model jest wystarczająco dobry, może być weryfikowany w praktyce o jakie różnice w wartościach metryki są znaczące: praktyka akademicka, praktyka wdrożeń przemysłowych, konkursy uczenia maszynowego
Przykład: Zbiór danych pogoda
Dla każdego atrybutu, Dla każdej wartości atrybutu, Utwórz regułę: wartość atrybutu → etykieta klasy oblicz błąd dla reguły Oblicz błąd dla wszystkich reguł atrybutu Wybierz atrybut, który generuje najmniejszy błąd Przykład:
wybranych atrybutów. Decyzja (prawa strona implikacji) nie jest z góry określona, tzn. nie wiemy na którym atrybucie ma się opierać. Jest to przykład nauki bez nauczyciela: algorytm nie ma z góry określonej prawidłowej odpowiedzi, zamiast tego ma opisywać wewnętrzne zależności między atrybutami np.:
Reguły asocjacyjne kojarzą konkretny wniosek (np. decyzję o zakupie konkretnego produktu) ze zbiorem warunków (np. zakupem kilku innych produktów). Algorytmy reguł asocjacyjnych automatycznie znajdują związki, które można byłoby znaleźć ręcznie przy użyciu technik wizualizacji (por. węzeł sieciowy). Przewagą algorytmów reguł asocjacyjnych wobec bardziej standardowych algorytmów drzew decyzyjnych (C5.0 i C&RTs) jest fakt, że dozwolone są w nich związki między dowolnymi atrybutami. Algorytm drzewa decyzyjnego pozwala utworzyć reguły z tylko jednym wnioskiem, podczas gdy algorytmy powiązań próbują znaleźć wiele reguł, z których każda może mieć inny wniosek. Wadą algorytmów asocjacyjnych jest fakt, że próbują one znaleźć wzorce w potencjalnie bardzo dużej przestrzeni wyszukiwania i w związku z tym ich wykonanie może trwać znacznie dłużej niż wykonanie algorytmu drzewa decyzyjnego. Algorytmy te do znajdowania reguł stosują metodę generowania i testowania — początkowo generują proste reguły i walidują je względem zbioru danych. Dobre reguły są zachowywane, a wszystkie reguły, z zachowaniem różnych ograniczeń, podlegają specjalizacji. Specjalizacja polega na dodawaniu warunków do reguły. Uzyskane nowe reguły są walidowane względem danych i proces znów zapisuje najlepsze i najbardziej interesujące reguły. Użytkownik zwykle nakłada jakieś ograniczenie na liczbę poprzedników dozwolonych w regule. Ponadto w celu ograniczenia potencjalnie dużej przestrzeni wyszukiwania stosowane są różne techniki oparte na teorii informacji i systemach efektywnego indeksowania. Po zakończeniu przetwarzania prezentowana jest tabela najlepszych reguł. W odróżnienia od drzewa decyzyjnego ten zestaw reguł asocjacyjnych nie może być używany bezpośrednio do generowania predykcji, tak jak model standardowy (np. drzewo decyzyjne lub sieć neuronowa). Wynika to z faktu, że reguły mogą prowadzić do wielu różnych wniosków. Konieczny jest kolejny poziom transformacji , który przekształci reguły asocjacyjne w zestaw reguł klasyfikacji. Dlatego reguły asocjacyjne wygenerowane przez algorytmy asocjacyjne nazywamy modelami surowymi. Mimo że użytkownik może przeglądać takie modele surowe, nie można ich używać wprost jako modeli klasyfikacyjnych, jeśli użytkownik nie nakaże systemowi wygenerowania modelu klasyfikacyjnego z modelu surowego. Wyróżnia się dwa algorytmy reguł asocjacyjnych: Węzeł Apriori pozwala wyodrębnić zestaw reguł na podstawie danych, pobierając reguły o najwyższej możliwej zawartości informacji. Apriori oferuje pięć różnych metod wybierania reguł i korzysta ze złożonego schematu indeksowania do efektywnego przetwarzania dużych zbiorów danych. W przypadku dużych problemów czas uczenia Apriori jest zwykle krótszy. Brak jest arbitralnego limitu co do liczby reguł do utrzymania, możliwa jest obsługa reguł z maksymalnie 32 predykcjami. Apriori wymaga, aby wszystkie zmienne wejściowe i wyjściowe były zmiennymi jakościowymi, lecz oferuje wyższą wydajność z uwagi na optymalizację pod kątem tego typu danych. Węzeł Sekwencje wykrywa reguły asocjacyjne w danych sekwencyjnych lub zorientowanych czasowo. Sekwencja to lista zbiorów elementów z tendencją do występowania w przewidywalnej kolejności. Na przykład klient dokonujący zakupu brzytwy i balsamu po goleniu przy następnej wizycie w sklepie może dokonać zakupu kremu po goleniu. Węzeł Sekwencje bazuje na algorytmie reguł asocjacyjnych CARMA , który korzysta z efektywnej metody dwu przejść do znajdowania sekwencji. Pozwoliłam sobie na chamską kopie o tych koszykach z tej stronki: https://edu.pjwstk.edu.pl/wyklady/adn/scb/wyklad12/w12.htm Jak chcecie poczytać więcej to se looknijcie Analiza koszykowa jest pierwotną motywacją do rozwoju reguł asocjacyjnych, gdyż badała zachowanie klientów na przykładzie kupowanych produktów, połączeń pomiędzy nimi tzn. które produkty kupowano ze sobą. Reguła asocjacyjna to implikacja:
Gdzie:
Metody parametryczne i nieparametryczne estymacji funkcji gęstości
Zdarzenie wchodzące w skład przestrzeni zdarzeń np. wynik rzutu kostką.
Zbiór wszystkich zdarzeń elementarnych. Jeśli można zrobić mapowanie mowa o nieskończoności policzalnej, jeśli nie niepoliczalnej. Nie każde zdarzenie o zerowym prawdopodobieństwie jest niemożliwe.
Podzbiór w przestrzeni zdarzeń.
Funkcja określona na przestrzeni zdarzeń. (Niech (Ω, F, P) oznacza podstawową przestrzeń probabilistyczną. Zmienną losową oznaczamy funkcję określoną na przestrzeni zdarzeń elementarnych Ω o wartościach ze zbioru liczb rzeczywistych X : Ω 7→ R, taką że dla każdego x ∈ R {ω : X(ω) < x} ∈F)
Funkcja f(x) która określa jakie jest prawdopodobieństwo wystąpienia zdarzenia w zależności od parametru x. Przyjmuje wartości od 0 do 1 (jak prawdopodobieństwo).
Całka po gęstości, ma to do siebie, że nie maleje ma wartość 0 na początku i 1 na końcu dziedziny x. O dystrybuancie i gęstości można mówić w kontekście wielowymiarowym.
Zmiana wartości żadnej ze zmiennych losowych nie wpływa na inne.
Oszacowanie parametru. Estymacji stosowana np. w Bayesowkich naiwnych - założenie o niezależności rozkładów cech.
Estymator jest obciążony jeśli jego wskazania różnią się od rzeczywistych wartości. Jeśli estymator jest asymptotycznie nieobciążony bias zanika gdy liczba próbek rośnie do nieskończoności - prawo wielkich liczb. Estymator jest losowy więc posiada wariancję. Wariancja jest przykładem momentu centralnego, który jest miarą rozproszenia.
Wariacja jest rozłożona w taki sposób, że gdy n -> nieskończoność wariancja dąży do 0. Estymator jest zgodny gdy jest nieobciążony i ilość próbek dąży do nieskończoności.
Polega na ustaleniu empirycznie wartości rozkładów np. średniej i odchylenia standardowego w przypadku rozkładu normalnego.
Rozwiązuje się zadanie optymalizacyjne szukając klasyfikatora tak, żeby prawdopodobieństwo otrzymania rzeczywistych wyników było jak największe.
Gdy rozkład jest mieszany zakładamy np. mieszankę rozkładów Gausowkich - tutaj korzystając z algorytku EM możemy określić największe prawdopodobieństwo. Algorytm opiera się na losowym zainicjalizowaniu parametrów estymatorów - krok E, a następnie maksymalizacji wiarygodności poprzez zmienianie parametrów. Metoda kontynuowana jest aż do braku poprawy wartości.
Empirycznie wyznacza się dystrybuantę i funkcję gęstości na podstawie punktów. Nie tworzy założeń dotyczących rozkładu danych jednak otrzymanie estymatora jest bardziej kosztowne. Estymatory jądrowe - wybiera się taki rozkład jaki dobrze opisuje zebrane dane - przesuwa się funkcję jądra na daną próbkę. W ten sposób dostaje się wartości gładkie. Parametr h wpływa na szczegółowość - za duże h 1 rozkład, za małe h overfitting. Są różne reguły wyznaczania h.