Pripremite ispite
Nabavite poene
Školska orijentacija
Prodajte na Docsity-u
Docsity AI

Pripremite ispite

Studirajte zahvaljujući brojnim resursima koji su dostupni na Docsity-u

Nabavite poene za preuzimanje

Zaradite bodove pomažući drugim studentima ili ih kupite uz Premium plan

Školska orijentacija

Prodajte na Docsity-u

Docsity AI

Prijavite se Registrujte se

Pripremite ispite

Studirajte zahvaljujući brojnim resursima koji su dostupni na Docsity-u

Pretražite dokumente

Pripremite svoje ispite sa dokumentima koje studenti poput vas dele na Docsity-u

Pronađi specifične dokumente za ispite svog univerziteta

Docsity AINEW

Summarize your documents, ask them questions, convert them into quizzes and concept maps

Istražujte pitanja

Otklonite svaku sumnju čitajući odgovore na pitanja koja su postavili drugi učenici poput vas

Nabavite poene za preuzimanje

Zaradite bodove pomažući drugim studentima ili ih kupite uz Premium plan

Podeli dokumente

20 Poena

Za svaki postavljen dokument

Odgovorite na pitanja

5 Poena

za svaki dati odgovor (maksimalno 1 po danu)

Svi načini za dobivanje besplatnih bodova

Dobijte bodove sada

Odaberite Premium plan sa svim potrebnim bodovima

Prilika učenja

Odaberite svoj sljedeći studijski program

Stupite u kontakt sa najboljim univerzitetima na svijetu sada. Tražite među hiljadama univerziteta i zvaničnih partnera

Zajednica

Besplatni vodiči

Naše sačuvajte-studentske-eknjige!

Besplatno preuzmite naše vodiče o tehnikama učenja, metodama upravljanja anksioznošću, savjetima za tezu koje su izradili tutor Docsity

Mašinsko učenje kroz programski jezik Python, Rezime od Mathematics for Computing

FON Univerzitet Mathematics for Computing

Mašinsko učenje. Mašinsko učenje kroz programski jezik Python - skripta

Tipologija: Rezime

2018/2019

Učitan datuma 08.08.2019.

ssreten 🇸🇷

4.8

(4)

6 dokumenti

1 / 240

Ova stranica nije vidljiva u pregledu

Ne propustite važne delove!

Mladen Nikoli´c Andelka Zeˇcevi´c

MAˇ

SINSKO U ˇ

CENJE

Beograd

2019.

Otkrijte Rezime od Mathematics for Computing FON Univerzitet

Srodni dokumenti

CSS programski jezik

Programski jezik FORTRAN, osnove

Osnove programiranja kroz programski jezik C

Asemblerski programski jezik - jezik računarskog sistema

Vježbe za funkcije - programski jezik QB

Organizacija računara: programski model procesora, asemblerski jezik, registri

PROGRAMSKI JEZIK sa rešenim zadacima

Uvod u programiranje kroz jezik Visual Basic

Nemacki jezik ucenje

(1)

C Programski Jezik: ispitni zadatak iz aritmetičke sredine

PROGRAMSKI JEZIK Java sa rešenim zadacima

(5)

Programski jezik C

Delimični pregled teksta

Preuzmite Mašinsko učenje kroz programski jezik Python i više Rezime u PDF od Mathematics for Computing samo na Docsity!

Mladen Nikoli´c Andelka Zeˇcevi´c

MAˇSINSKO U ˇCENJE

Beograd

Sadrˇzaj

Sadrˇzaj
1 Uvod
I Nadgledano uˇcenje
2 Teorijske osnove nadgledanog uˇcenja
- 2.1 Postavka problema nadgledanog uˇcenja
- 2.2 Princip minimizacije empirijskog rizika
- 2.3 Preprilagodavanje
- 2.4 Regularizacija
- 2.5 Nagodba izmedu sistematskog odstupanja i varijanse
- 2.6 Teorijske garancije kvaliteta generalizacije
- 2.7 Veza statistiˇcke teorije uˇcenja sa filozofijom nauke
- 2.8 Vrste modela
- 2.9 Dimenzije dizajna algoritama nadgledanog uˇcenja
3 Probabilistiˇcki modeli
- 3.1 Linearna regresija
- 3.2 Logistiˇcka regresija
- 3.3 Multinomijalna logistiˇcka regresija
- 3.4 Uopˇsteni linearni modeli
- 3.5 Naivni Bajesov algoritam
4 Modeli zasnovani na ˇsirokom pojasu
- 4.1 Metod potpornih vektora za klasifikaciju
- 4.2 Metod potpornih vektora za regresiju
- 4.3 Algoritam k najbliˇzih suseda zasnovan na ˇsirokom pojasu
5 Modeli zasnovani na instancama
- 5.1 Osnove neparametarske ocene gustine raspodele
- 5.2 Metodi zasnovani na kernelima
- 5.3 Metodi zasnovani na najbliˇzim susedima
- 5.4 Algoritam k najbliˇzih suseda
6 Ansambli
- 6.1 Prosta agregacija
- 6.2 Pojaˇcavanje
- 6.3 AdaBoost
- 6.4 Gradijentno pojaˇcavanje
7 Evaluacija i izbor modela
- 7.1 Mere kvaliteta modela
- 7.2 Tehnike evaluacije i izbora modela
- 7.3 Napomene vezane za pretprocesiranje
8 Regularizacija
- 8.1 Proredeni modeli
- 8.2 Modeli sloˇzenije strukture i ukljuˇcivanje domenskog znanja
- 8.3 Uˇcenje viˇse poslova odjednom
9 Optimizacija
- 9.1 Gradijentni spust
- 9.2 Metod inercije
- 9.3 Nestorovljev ubrzani gradijentni spust
- 9.4 Adam
- 9.5 Stohastiˇcki gradijentni spust
10 Neuronske mreˇze i duboko uˇcenje
- 10.1 Potpuno povezane neuronske mreˇze
- 10.2 Konvolutivne neuronske mreˇze
- 10.3 Rekurentne neuronske mreˇze
- 10.4 Praktiˇcne tehnike i napredni koncepti
11 ˇSta ako ne radi?
- 11.1 Preprilagodavanje i potprilagodavanje
- 11.2 Problemi podataka
- 11.3 Greˇske u pretprocesiranju
- 11.4 Neadekvatnost algoritma
- 11.5 Neadekvatnost optimizacije
- 11.6 Greˇske u evaluaciji
- 11.7 Greˇske u interpretaciji modela
- 11.8 Greˇske u implementaciji
II Uˇcenje potkrepljivanjem
12 Markovljevi procesi odluˇcivanja i njihovo reˇsavanje
- 12.1 Osnovni pojmovi
- 12.2 Reˇsavanje MDP-a dinamiˇckim programiranjem
13 Uˇcenje u nepoznatom okruˇzenju
- 13.1 Osnovni algoritmi
- 13.2 Funkcionalna aproksimacija
IIINenadgledano uˇcenje
14 Klasterovanje
- 14.1 K sredina
- 14.2 Meˇsavina normalnih raspodela i EM algoritam
15 Uˇcenje reprezentacije
- 15.1 Metod glavnih komponenti
- 15.2 Autoenkoderi
16 Generativni modeli
- 16.1 Generativne suparniˇcke mreˇze
IVDodatak
17 Matematiˇcko predznanje
- 17.1 Sopstvene vrednosti i sopstveni vektori
- 17.2 Definitnost
- 17.3 Norma i skalarni proizvod
- 17.4 Izvod, parcijalni izvod i gradijent
- 17.5 Konveksnost
- 17.6 Lokalni optimumi
- 17.7 Integral
- 17.8 Verovatno´ca
- 17.9 Sredina i rasipanje sluˇcajne promenljive
- 17.10Statistiˇcke ocene i njihova svojstva
- 17.11Statistiˇcki modeli
- 17.12Metod maksimalne verodostojnosti

Na korisnim sugestijama zahvaljujemo se kolegi Miloˇsu Jovanovi´cu i stu- dentima Miloˇsu Stankovi´cu, Blagoju Ivanovi´cu, Nemanji Mi´covi´cu, Marijani Milenkovi´c, Nikoli Dimitrijevi´cu, Andrijani Marjanovi´c...

Glava 1

Uvod

Od poˇcetka dvehiljaditih, razvoj veˇstaˇcke inteligencije je dobio nov zamah. Niz izrazito vaˇznih problema, od kojih se za neke pretpostavljalo da ´ce joˇs dugo ostati van domaˇsaja, biva reˇsen. U nekim domenima, u kojima raˇcunari do tada po uspeˇsnosti nisu mogli da se porede sa ljudima, postiˇzu se rezultati superiorni u odnosu na rezultate ljudskih eksperata. U srcu ovog novog za- maha, nalazi se maˇsinsko uˇcenje. Iako u prvi plan izbija upravo dvehiljaditih, ova oblast ima dugu istoriju razvoja. Zamiˇsljena u radovima Alena Tjuringa, ˇcetrdesetih godina proˇslog veka, aktivno se razvija od pedesetih kada je kon- struisan perceptron, prvi sistem koji uˇci jednostavne zakonitosti i predstavlja dalekog preteˇcu modernih neuronskih mreˇza koje se uz uspone i padove ra- zvojaju do devedestih, kada primat uzimaju metod potpornih vektora i drugi metodi zasnovani na kernelima. Ipak, za skoraˇsnji uspon maˇsinskog uˇcenja, zasluˇzna je baˇs renesansa neuronskih mreˇza koja je dovela do toga da se danas veˇstaˇcka inteligencija i maˇsinsko uˇcenje u opˇstoj percepciji neretko poistove´cuju sa njima. Treba imati u vidu da su ove oblasti neuporedivo ˇsire. Dugi razvoj maˇsinskog uˇcenja motivisan je s jedne strane ˇzeljom da se bolje razume ljudski i ˇzivotinjski potencijal za uˇcenje, koji se nalazi u srcu onoga ˇsto nazivamo inteligencijom, a s druge, ˇzeljom da se takav proces oponaˇsa u praktiˇcne svrhe. Ove dve motivacije verovatno u osetnoj meri korespondiraju i sa dva ˇzariˇsta razvoja maˇsinskog uˇcenja – akademskim svetom u kojem je poniklo i u kojem je dovedeno do odredenog nivoa upotrebljivosti i privredom koja je u njemu prepoznala potencijal za praktiˇcne primene i daje ogroman doprinos njegovom razvoju u toku dvehiljaditih godina. Precizno definisanje nauˇcnih disciplina nezahvalan je i neizgledan, a moˇzda i nepotreban poduhvat. Zato mu i ne´cemo posvetiti mnogo paˇznje. U opˇstoj percepciji maˇsinsko uˇcenje predstavlja disciplinu koja se bavi izvodenjem algoritama iz podataka, bez ek- splicitnog programiranja. Ovaj pogled naglaˇsava njegovu praktiˇcnu stranu. Ipak, maˇsinsko uˇcenje ima i svoju fundamentalnu dimenziju. Kao ˇsto se lo- gika bavi prouˇcavanjem dedukcije objaˇsnjavaju´ci ˇsta ˇcini neki zakljuˇcak pot- puno opravdanim i time formalizuje jedan vaˇzan vid ljudskog zakljuˇcivanja, maˇsinsko uˇcenje se bavi prouˇcavanjem indukcije, odnosno generalizacije i time

formalizuje drugi vid ljudskog zakljuˇcivanja – uopˇstavanje od ograniˇcenog broja uzoraka ka univerzalnim zakljuˇccima. Ovaj drugi problem se moˇze smatrati i teˇzim. Osnove dedukcije razumeo je (uprkos nekim propustima) Aristotel pre viˇse od dve hiljade godina. Indukcija se ozbiljnije izuˇcava tek od strane Frensisa Bejkona na prelazu sa ˇsesnaestog na sedamnaesti vek. Deduktivno za- kljuˇcivanje se kroz formalnu logiku prouˇcava od devetnaestog veka i poˇcetkom dvadesetog veka, ve´c je na ˇcvrstim nogama. Induktivno zakljuˇcivanje se, kroz statistiˇcku teoriju uˇcenja, u nekoj meri formalizuje tek krajem dvadesetog veka. Kako i deduktivno i induktivno zakljuˇcivanje imaju vaˇznu ulogu u prirod- noj inteligenciji, odgovaraju´ce discipline – automatsko rezonovanje i maˇsinsko uˇcenje imaju vaˇzne uloge u veˇstaˇckoj inteligenciji. Postavlja se pitanje, kada su metode koje od ovih oblasti pogodniji izbor za reˇsavanje konkretnog pro- blema. Metode zasnovane na logici, koje se razvijaju u okviru automatskog rezonovanja, pogodne su u sluˇcajevima u kojima je problem mogu´ce precizno matematiˇcki definisati. Obiˇcno se radi o problemima koje ˇcovek moˇze rela- tivno lako da formuliˇse, ali ih vrlo teˇsko reˇsava (najˇceˇs´ce zbog kombinatorne eksplozije pri pretrazi prostora mogu´cih reˇsenja) i u kojima nisu prihvatljiva pogreˇsna reˇsenja. S druge strane, maˇsinsko uˇcenje je posebno pogodno upravo za suprotnu vrstu problema – probleme koje ˇcovek ne moˇze lako ni da definiˇse, iako neke od njih ˇcak vrlo lako reˇsava (neke, s druge strane, ne) i u kojima je prihvatljiva povremena greˇska. Jedan primer takvog problema je prepozna- vanje lica. Osim u sluˇcajevima specifiˇcnih neuroloˇskih poreme´caja, svi ljudi su vrlo dobri u reˇsavanju ovog problema. Cak je neobiˇˇ cno nazvati ga proble- mom i govoriti o njegovom reˇsavanju. Ipak, ukoliko pokuˇsamo da taj problem precizno definiˇsemo, nalete´cemo na mnoˇstvo problema. Prvi naivni pokuˇsaj definisanja bi se verovatno sastojao u nekom opisu poput toga da je lice neˇsto ˇsto se sastoji od nosa, oˇciju, usta ˇcela, jagodica i obrva. Ovo ne samo ˇsto vodi daljem pitanju definisanja tih pojmova, ve´c postavlja i pitanje definisanja njihovih relativnih pozicija i sliˇcno i uprkos trudu, bi´cemo prinudeni da odu- stanemo. Stoga se ovakvim problemima ne pristupa metodama automatskog rezonovanja. S druge strane, kao i ljudi, metode maˇsinskog uˇcenja mogu vrlo uspeˇsno da se nose sa ovim problemom. Neki od problema na koje je maˇsinsko uˇcenje uspeˇsno primenjeno su pre- poznavanje lica na slikama, prepoznavanje razliˇcitih objekata na slikama i vi- deu, prepoznavanje tumora na medicinskim snimcima, autonomna voˇznja au- tomobila, autonomno letenje, igranje igara na tabli poput ˇsaha i igre go, ali i raˇcunarskih igara kao ˇsto je Super Mario ili Doom, klasifikacija teksta, maˇsinsko prevodenje, automatsko opisivanje sadrˇzaja slika, analiza ose´canja izraˇzenih u tekstu, predvidanje razvoja bolesti kod pacijenata i preporuˇcivanje terapije, analiza druˇstvenih mreˇza, prepoznavanje i sinteza govora i tako dalje. U mno- gim od ovih primena, maˇsinsko uˇcenje je ve´c prevaziˇslo nivo efikasnosti ljud- skih eksperata. Sve nabrojane primene predstavljaju oˇcigledno primere vaˇznih praktiˇcnih problema, ali iza svih stoji i ozbiljna teorija. Moˇzda je upravo ovaj spoj kljuˇc uspeha maˇsinskog uˇcenja. Nabrojani problemi su vrlo raznorodni kako po svojoj prirodi, tako i po

uˇcenja. Uˇcenje potkrepljivanjem je, neformalno reˇceno, izmedu prethodna dva po- menuta pristupa. Koristi se u situacijama u kojima je potrebno reˇsiti neki pro- blem preduzimaju´ci niz akcija, ˇcijim se zajedniˇckim dejstvom dolazi do reˇsenja problema. Pretpostavlja se da postoji agent (odnosno, neko ko dela) koji opaˇza teku´ce stanje okruˇzenja, u mogu´cnosti je da preduzima akcije usled kojih do- bija nagrade predstavljene numeriˇckom vrednoˇs´cu. Ishod uˇcenja je optimalna politika, odnosno preslikavanje stanja u akcije koje vodi maksimalnoj (ili, u praksi, dovoljno visokoj) ukupnoj nagradi. Pritom, kljuˇcna je pretpostavka da nije poznato koja od preduzetih akcija je bila prava u datom kontekstu, a koja nije. U suprotnom, radilo bi se o problemu nadgledanog uˇcenja. Primera radi, razmotrimo problem autonomne voˇznje. Agent je sistem koji vozi automobil i koji je u stanju da opaˇza pozicije drugih automobila, peˇsaka, saobra´cajne znake, svetla semafora i sliˇcno (a ˇsto ˇcini okruˇzenje), a koji je u stanju da menja smer kretanja i da pove´cava i smanjuje brzinu kretanja automobila (ˇsto su akcije). Agent pritom dobija nagrade koje su recimo 1 za svaki kilometar predenog puta, 100 za stizanje na cilj, − 100 u sluˇcaju sudara i − 1000 u sluˇcaju smrtnog ishoda u saobra´caju. Optimalnu politku nije lako opisati na osnovu liˇcnog znanja (ˇsto je tipiˇcan razlog za upotrebu maˇsinskog uˇcenja!), ali ona bi verovatno ukljuˇcivala koˇcenje na ˇzutom i crvenom svetlu ili pred peˇsacima, skretanje tamo gde je znakom naznaˇceno da je obavezno skrenuti itd. U daljem tekstu, najviˇse paˇznje bi´ce posve´ceno nadgledanom uˇcenju, kako zbog njegove najˇsire primene, tako i zbog razvijenosti fundamentalne teorije.

Deo I

Nadgledano uˇcenje

Glava 2

Teorijske osnove nadgledanog

uˇcenja

Kao ˇsto je reˇceno, nadgledano uˇcenje se karakteriˇse time da su uz vrednosti ulaza, date i vrednosti izlaza koje im odgovaraju. Potrebno je ustanoviti odnos koji vaˇzi izmedu ulaza i izlaza. Na osnovu ovog odnosa se najˇceˇs´ce za neke budu´ce ulaze vrˇsi predvidanje izlaza. Ulaz i izlaz se najˇceˇs´ce predstavljaju u vektorskom obliku i oznaˇcavaju sa x i y, pri ˇcemu je x tipiˇcno vektor vred- nosti nekih promenljivih koje se nazivaju atributima (eng. features), dok je y tipiˇcno jedna promenljiva koja se naziva ciljnom promenljivom (eng. target va- riable). Mogu´ci su i mnogo opˇstiji scenariji. Na primer oni u kojima je y takode viˇsedimenzionalno, ali i oni u kojima ni x ni y nisu predstavljeni numeriˇckim vrednostima, ve´c mogu predstavljati sekvence, grafove i sliˇcno. Problemu otkrivanja veze izmedu nekih promenljivih na osnovu opaˇzanja moˇze se pristupiti na razliˇcite naˇcine. Na primer, ve´c hiljadama godina nauˇcnici na osnovu opaˇzanja postavljaju hipoteze o odnosima nekih veliˇcina, a onda predvidanja dobijena na osnovu tih hipoteza testiraju u praksi i na osnovu toga odluˇcuju o verodostojnosti tih hipoteza. Jedan primer takvog odnosa je formula F = ma koja uspostavlja vezu izmedu sile, mase i ubrzanja. Do ove formule se doˇslo ljudskim uvidom, a na osnovu opaˇzanja iz iskustva. Ovakav pristup je mogu´c i uobiˇcajen pod pretpostavkom da fenomen i interakcije medu razmatranim veliˇcinama nisu previˇse komplikovani za ljudsko poimanje. Ipak, u vreme kada je uobiˇcajeno da raspolaˇzemo gigabajtima, pa i terabajtima po- dataka koji predstavljaju milione ili milijarde opaˇzanja sa desetinama hiljada promenljivih, potrebne su metode koje su u stanju da uoˇcavaju takve veze automatski. Ovakve metode obiˇcno nalaze funkcije koje na neki naˇcin izraˇzavaju vezu izmedu vrednosti atributa i vrednosti ciljne promenljive. Ove funkcije i njihova svojstva su od centralnog znaˇcaja u maˇsinskom uˇcenju i nazivaju se modelima. Modela moˇze biti (beskonaˇcno) mnogo, ali ne moˇzemo od svih, pa ˇcak ni od jednog, oˇcekivati da savrˇseno opisuje zavisnosti koje vaˇze medu promenljivim. Ono ˇsto se od modela oˇcekuje je da dobro generalizuje, odnosno da prilikom

predvidanja vrednosti ciljne promenljive na osnovu vrednosti atributa, retko pravi velike greˇske. Idealan sluˇcaj u kojem greˇsaka nema, nije realistiˇcan i ne deˇsava se u praksi. Pojam generalizacije je centralni pojam maˇsinskog uˇcenja i bi´ce mu posve´cena posebna paˇznja. Dve osnovne vrste problema nadgledanog uˇcenja su regresija i klasifikacija. Regresija je problem predvidanja neprekidne ciljne promenljive. Na primer, mogu´ce je predvidati cenu deonica na berzi na osnovu njihovih cena u pret- hodnih nekoliko dana i globalnih kvantitativnih pokazatelja trˇziˇsta ili koliˇcinu teˇskih metala u zemljiˇstu na osnovu udaljenosti od zagadivaˇca, udaljenosti od vodenih tokova, vrste zemljiˇsnog pokrivaˇca i sliˇcno. Klasifikacija je problem predvidanja kategoriˇcke ciljne promenljive. Kategoriˇckim se smatraju promen- ljive koje uzimaju konaˇcan broj vrednosti medu kojima nema uredenja. Na primer, prepoznavanje jedne iz skupa poznatih osoba ˇcije se licne nalazi na slici je problem klasifikacije. Prepoznavanje da li se novinski ˇclanak tiˇce eko- nomije, sporta ili politike je takode problem klasifikacije.

2.1 Postavka problema nadgledanog uˇcenja

O vrednostima atributa se moˇze razmiˇsljati kao o okolnostima u kojima nastaje neki ishod koji je predstavljen vrednoˇs´cu ciljne promenljive. Na pri- mer, ukoliko je dan letnji u ukoliko nema oblaˇcnosti, oˇcekuje se da je tem- peratura visoka. Ipak, dva merenja temperature po sunˇcanom letnjem danu se mogu znaˇcajno razlikovati. Na primer, zbog razlike u geografskoj ˇsirini, udaljenosti od vodenih povrˇsina, ili kretanja hladnijih vazduˇsnih masa. Moˇze se oˇcekivati da ukljuˇcivanjem ve´ceg broja promenljivih u atribute moˇze biti uoˇcena jaˇca veza sa ciljnom promenljivom. Ipak, u praksi nije realistiˇcno da se mogu identifikovati i adekvatno kvantifikovati svi faktori koji igraju ulogu u nekom fenomenu, pa ˇcak i ako fenomen deluje jednostavno. Zbog toga, moˇzemo oˇcekivati da u podacima za iste vrednosti atributa vidimo razliˇcite vrednosti ciljne promenljive. Oˇcito, opis veze izmedu atributa i ciljne promenljive se moˇze utemeljiti na pojmovima verovatno´ce. U najopˇstijem sluˇcaju, pretpostavlja se da je odnos izmedu atributa i ciljne promenljive zadat zajedniˇckom raspodelom verovatno´ce p(x, y). Najˇceˇs´ce, pa i sada, ´cemo pod ovim podrazumevati gustinu raspodele. Poznavanje ovog ve- rovatnosnog zakona medu promenljivim od interesa predstavlja potpuno zna- nje o njihovim odnosima. Kako takva raspodela nije dostupna, pristupa se odredivanju modela f (x) koji vrednostima atributa pridruˇzuje vrednost ciljne promenljive. Takvih modela moˇze biti puno, ali od znaˇcaja je u nekom smislu najbolji takav model. Ipak, pojam kvaliteta je potrebno definisati. Poˇzeljno je da vaˇzi y ≈ f (x), odnosno da je razlika izmedu pravih vrednosti ciljne funkcije i njihove aproksimacije modelom mala. Otud je prvo potrebno definisati funkciju greˇske (eng. loss) koja meri odstupanje predvidenih i stvarnih vrednosti ciljne promenljive. Ovu funkciju ´cemo oznaˇcavati sa L. Ipak L(y, f (x)), predstavlja razliku jedne prave vrednosti i jednog predvidanja. Bilo kog, ali pojedinaˇcno.

Primer reprezentacije modela je recimo linearna reprezentacija, koja pretposta- vlja linearnost modela po parametrima. Tipiˇcan linearni model se moˇze zapisati na slede´ci naˇcin:

fw(x) = w 0 +

∑^ n

wixi

Predstavljanje slobodnog ˇclana w 0 se ˇcesto izbegava tako ˇsto se pretpostavi da je vrednost prvog atributa uvek 1.^2 Drugi pomenuti problem, problem nedostupnosti gustine raspodele p(x, y) se reˇsava aproksimacijom na osnovu uzorka

D = {(xi, yi)|i = 1,... , N }

Time se rizik zamenjuje empirijskim rizikom:

E(w, D) =

N

∑^ N

L(yi, fw(xi))

koji ´cemo ubudu´ce nazivati proseˇcnom greˇskom ili samo greˇskom, osim u situ- acijama u kojima je potrebno naglasiti razliku u odnosu na stvarni rizik. Kad god nije naveden, skup podataka D se podrazumeva. Sada je mogu´ce formulisati princip minimizacije empirijskog rizika (eng. em- pirical risk minimization principle) na kojem se tipiˇcno zasnivaju algoritmi nad- gledanog maˇsinskog uˇcenja – funkcija koja minimizuje proseˇcnu greˇsku E(w, D) se uzima za aproksimaciju funkcije koja minimizuje rizik R(w). Treba imati u vidu da ovaj princip ne sledi logiˇckom nuˇznoˇs´cu iz osnovne postavke problema nadgledanog uˇcenja. Stoga je potrebno zapitati se kakva su svojstva ovog principa, odnosno da li vodi dobroj aproksimaciji funkcije koja minimizuje stvarni rizik. Pre svega, da li sa pove´canjem sluˇcajnog uzorka dolazi do konvergencije reˇsenja koje ovaj princip nudi ka optimalnom teorijskom reˇsenju. Ako to ne vaˇzi u opˇstem sluˇcaju, bitno je znati u kojim sluˇcajevima vaˇzi. Kako je rizik definisan kao oˇcekivanje, a empirijski rizik kao prosek i kako znamo da proseci teˇze oˇcekivanjima, kad veliˇcina sluˇcajno izabranog uzorka raste, u iskuˇsenju smo da pomislimo da je odgovor lak i potvrdan. Ipak, to ˇsto pomenuto svojstvo vaˇzi, ne znaˇci da minimum aproksimacije funkcionala mora uvek da teˇzi minimumu funkcionala. Odnosno ˇcinjenica da vaˇzi

E(w, D) → R(w) kad (|D| → ∞)

ne znaˇci da vaˇzi

argmin w

E(w, D) → argmin w

R(w) kad (|D| → ∞)

jer se prvo svojstvo odnosi na bilo koju, ali fiksiranu vrednost parametara w, istu i za E i za R, dok se drugo odnosi na potencijalno razliˇcite vrednosti

(^2) U praksi se vektori podataka ˇcesto eksplicitno proˇsiruju jedinicom.

Slika 2.1: Levi model ima i stvarni i empirijski rizik jednak nula za bilo koju veliˇcinu uzorka. Modeli poput desnog, mogu se konstruisati za bilo koju veliˇcinu uzorka i svi imaju empirijski rizik nula i veliki stvarni rizik jer se od optimalnog modela razlikuje skoro svuda za veliku vrednost. Otud niz takvih modela ne konvergira stvarnom modelu.

parametara w jer E i R ne moraju dostizati minimum u istoj taˇcki. Ipak, poˇzeljno je demonstrirati da drugo svojstvo u nekom sluˇcaju zaista ne vaˇzi. Takav primer je dat na slici 2.1. Pretpostavlja se da je skup svih modela skup svih mogu´cih funkcija f takvih da vaˇzi f : Rn^ → R. Leva slika prikazuje optimalnu funkciju f ∗^ u odnosu na stvarni rizik, pri ˇcemu se pretpostavlja da je R(f ∗) = 0 (prema grafiku vaˇzi yi = f (xi) za svaku vrednost i = 1,... , N ), dok desna prikazuje funkciju fˆ koja minimizuje empirijski rizik. Ona svakoj taˇcki xi pridruˇzuje baˇs vrednost yi, ali je u svim ostalim taˇckama jednaka 0. Oˇcito vaˇzi E( fˆ ) = 0. Za svaki skup podataka D funkcije f ∗^ i fˆ se poklapaju na skupu podataka i samo na njemu, pri ˇcemu je svaki skup podataka mere nula, ˇsto znaˇci da se razlikuju skoro svuda, odnosno da konvergencija ne mora da vaˇzi.

Razmatrano pitanje zavisi od svojstava skupa funkcija po kojem radimo minimizaciju. Odgovor na ovo pitanje je netrivijalan. Prouˇcavanjem ovakvih problema se bavi statistiˇcka teorija uˇcenja. Na kraju ovog dela ´ce biti skiciran odgovor na ovo pitanje, ali je detaljna razrada van okvira ove knjige.

Pored prethodnih teorijskih pitanja, potrebno je dati odgovor i na jedno krajnje praktiˇcno – kako se reˇsava problem minimizacije proseˇcne greˇske mo- dela? Odgovor u najve´cem broju sluˇcajeva nude metode matematiˇcke optimi- zacije, o kojima ´ce biti reˇci kasnije. Za sad je dovoljno pretpostaviti da postoji metod za reˇsavanje problema minimizacije. Reˇsavanje takvog problema se na- ziva obuˇcavanjem modela na datom skupu primera za obuˇcavanje.

2.2.1 Minimizacija empirijskog rizika u sluˇcaju regresije

Kao ˇsto je ve´c reˇceno, jednoj vrednosti atributa, ne mora odgovarati taˇcno jedna vrednost ciljne promenljive, ve´c ima smisla govoriti o raspodeli vrednosti ciljne promeljive pri datim vrednostima atributa. Stoga se postavlja pitanje koju vrednost ciljne promenljive izabrati prilikom predvidanja. Jedan intu- itivan odgovor je za date vrednosti atributa izabrati srednju vrednost ciljne promenljive od svih koje im odgovaraju. Sredina se ˇcesto formalizuje pojmom

min w

(y − r(x))^2 p(x, y)dxdy +

[

2(y − r(x))(r(x) − fw(x)) + (r(x) − fw(x))^2

]

p(x, y)dxdy

min w

[

2(y − r(x))(r(x) − fw(x)) + (r(x) − fw(x))^2

]

p(x, y)dxdy

min w

(y − r(x))(r(x) − fw(x))p(x, y)dxdy +

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(y − r(x))(r(x) − fw(x))p(y|x)p(x)dxdy +

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(r(x) − fw(x))

(y − r(x))p(y|x)dy

p(x)dx +

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(r(x) − fw(x))

yp(y|x)dy − r(x)

p(y|x)dy

p(x)dx +

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(r(x) − fw(x))(r(x) − r(x)) p(x)dx +

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(r(x) − fw(x))^2 p(x, y)dxdy

min w

(r(x) − fw(x))^2 p(y|x)p(x)dxdy

min w

(r(x) − fw(x))^2

p(y|x)dy

p(x)dx

min w

(r(x) − fw(x))^2 p(x)dx

min w E[(r(x) − fw(x))^2 ]

Oˇcigledno, ako regresiona funkcija pripada skupu modela, u njoj se postiˇze minimum datog rizika. Ukoliko ne pripada, kako poslednji integral predstavlja metriku, jasno je da je najbolja funkcija ona koja joj je u smislu te metrike najbliˇza. Kako je rizik dat izrazom E[(y − fw(x))^2 ], prirodna formulacija principa minimizacije empirijskog rizika za regresiju je

min w

N

∑^ N

(yi − fw(xi))^2

Ovaj pristup je sveprisutan u problemima regresije. Naglasimo da je funkcija greˇske data izrazom L(u, v) = (u − v)^2

i da se ˇcesto naziva kvadratnom greˇskom (eng. squared loss), a odgovaraju´ca srednja greˇska srednjekvadratnom greˇskom. Zamislive su i drugaˇcije funkcije

greˇske. Na primer L(u, v) = |u − v|. Tada optimalno reˇsenje problema minimi- zacije rizika nije viˇse uslovno oˇcekivanje E[y|x], ve´c uslovna medijana m[y|x]. Pored toga, funkcija greˇske ne mora biti ni simetriˇcna. Na primer, prilikom predvidanja cena akcija na berzi, vaˇznije je predvideti da li ´ce cene akcija pora- sti ili opasti, nego koliko. Stoga, ukoliko cena raste, greˇska naniˇze, koja moˇze re- zultovati negativnim predvidanjem (padom) je opasnija od greˇske naviˇse usled koje ´ce zarada od kupovine takvih akcija biti manja nego ˇsto je oˇcekivano, ali ´ce kupac i dalje biti na dobitku.

2.2.2 Minimizacija empirijskog rizika u sluˇcaju klasifikacije

U sluˇcaju klasifikacije, formulacija principa empirijskog rizika je joˇs jedo- stavnija. Model je utoliko bolji ukoliko pravi manje greˇsaka pri klasifikaciji. Neka je F tvrdenje. Indikatorska funkcija se definiˇse tako da vaˇzi

I(F ) =

1 ako vaˇzi F 0 ako vaˇzi ¬F

Onda se princip minimizacije empirijskog rizika za klasifikaciju moˇze definisati kao reˇsavanje problema

min w

N

∑^ N

I(yi 6 = fw(xi))

Funkcija greˇske je L(u, v) = I(u 6 = v)

i naziva se prosto greˇska klasifikacije. Mogu´c je, a ˇcesto i poˇzeljan drugaˇciji izbor funkcije greˇske. Na primer, ne moraju sve greˇske biti jednako vaˇzne. Neke klase se mogu smatrati srodnijim od drugih, pa je pogreˇsnu klasifika- ciju izmedu tih klasa lakˇse tolerisati nego pogreˇsnu klasifikaciju izmedu klasa koje nisu srodne. Ovo je primer klasifikacije osetljive na cenu greˇske (eng. cost sensitive classification). Takode, funkcija greˇske ne mora biti ni simetriˇcna. Nekada je opasnije instancu jedne klase klasifikovati kao instancu druge nego obrnuto. Na primer, prilikom klasifikacije medicinskih snimaka, pogreˇsna de- tekcija kancerogenog oboljenja moˇze biti potresna za pacijenta, ali ´ce se daljim testovima ustanoviti da je dijagnoza bila pogreˇsna. S druge strane, ukoliko se ustanovi da pacijent nije bolstan u sluˇcaju kada jeste, greˇska moˇze biti fatalna. Stoga u ovom kontekstu i funkcija greˇske treba da pridruˇzi razliˇcite vrednosti razliˇcitim vrstama greˇsaka.

2.3 Preprilagodavanje

Minimizacija srednje greˇske izborom parametara modela predstavlja prilagodavanje modela podacima. Pojam prilagodavanja je jednostavno i vizuelno pribliˇziti. Neka je dat skup taˇcaka u dve dimenzije. Dimenzija x predstavlja vrednost