










































































Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Praca magisterska
Typologia: Prace dyplomowe
1 / 82
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Automatyczna analiza semantyczna
tekstu w j¦zyku naturalnym,
studium przypadku
Serdeczne podzi¦kowania chciaªbym zªo»y¢ Panu Profesorowi Krzysztofowi Diksowi, promotorowi i wielkiemu entuzja±cie algorytmiki, za jego niewyczerpan¡ cierpliwo±¢ i okazane mi zaufanie. Chciaªbym podzi¦kowa¢ dr. Wojciechowi Jaworskiemu za cenne rady i dyskusje, które cho¢ nieliczne, okazaªy si¦ brzemienne w skutkach. Ma¢kowi D¡browskiemu, Sean-owi O'Riain-owi oraz ukaszowi Porwolowi za wszelk¡ pomoc jak¡ od nich otrzymaªem podczas mojego pobytu w Irlandii. Za pi¦¢ wspaniale sp¦dzonych lat wspólnych studiów ukaszowi Bieniaszowi- Krzywiec, Kubie ¡ckiemu i Grzegorzowi Ziemia«skiemu. Za nieprzerwane przypominanie mi, co jest naprawd¦ wa»ne Ma¢kowi Doª¦dze, Joannie Fili, Konradowi Kaplicie i Joannie Karskiej. Za trosk¦, wsparcie i do±wiadczenie Lucynie i Ryszardowi Leniowskim, kocha- nym Rodzicom.
Rozdziaª 1
Przetwarzanie j¦zyka naturalnego
J¦zyki naturalne, to j¦zyki u»ywane przez ludzi do komunikacji mi¦dzy sob¡. Najcz¦±ciej ewaluowaªy one z biegiem historii (np. polski, angielski, ªacina), ale s¡ te» znane j¦zyki stworzone sztucznie (np. esperanto). Przetwarzanie j¦zyka naturalnego (NLP, ang. Natu- ral Language Processing) zajmuje si¦ szeroko poj¦tymi algorytmami operuj¡cymi na tych j¦zykach. Robi si¦ to najcz¦±ciej w celu ekstrakcji informacji, jednak s¡ te» inne zastoso- wania, takie jak sterowanie gªosem, automatyczni tªumacze, czy semantic web. Korzenie NLP si¦gaj¡ poªowy XX wieku, kiedy to Alan Turing zaproponowaª test badaj¡cy sztuczn¡ inteligencj¦ w 1950 roku [58] i do tej pory jest to bardzo dynamicznie rozwijaj¡ca si¦ gaª¡¹ informatyki. Szczegóªowe informacje dotycz¡ce przetwarzania j¦zyków naturalnych mo»na znale¹¢ w ksi¡»kach [9] oraz [39].
Parsowanie jest to proces ukªadania liniowego ci¡gu sªów (lub innych jednostek, np. lek- semów) analizowanego tekstu w struktur¦ logiczn¡, najcz¦±ciej poprzez nawiasowanie od- powiednich podwyra»e«. Analogicznie, parser j¦zyka naturalnego to algorytm, który prze- twarza zdania tekstu pisanego na drzewa ich rozkªadu, np. które sªowa ª¡cz¡ si¦ w frazy, które stanowi¡ podmiot, a które orzeczenie. Podstawowe podej±cia u»ywaj¡ ró»nego rodzaju gramatyk czytanego j¦zyka, lecz od lat 90 rdzeniem najlepszych programów s¡ metody pro- babilistyczne. Przykªadem biblioteki zawieraj¡cej taki wªa±nie algorytm parsuj¡cy mo»e by¢ Stanford Parser rozwijany przez The Stanford Natural Language Processing Group na Uni- wersytecie Stanford, którego skuteczno±¢ na Penn Treebank (por. roz. 1.2.1) wynosi ponad 85% [33].
Algorytmy przetwarzaj¡ce tekst napisany w j¦zyku naturalnym mo»na podzieli¢ na przetwa- rzaj¡ce pªytko (lub powierzchniowo, ang. shallow ) i przetwarzaj¡ce gª¦boko (ang. deep). Przetwarzanie gª¦bokie polega na analizie struktury tekstu lub zdania, w przeciwie«stwie do przetwarzania pªytkiego, które najcz¦±ciej polega na metodach statystycznych czy do- pasowywaniu wzorców (np. wyra»e« regularnych). Ka»da z nich ma swoje wady i zalety,
Przegl¡d gramatyki
Cz¦±ci zdania w j¦zyku angielskim mo»na podzieli¢ nast¦puj¡co^1 : podmiot (S, ang. subject), orzeczenie (V, ang. verb,predicate), dopeªnienie (O, ang. object), uzupeªnienie (C, ang. complement), okolicznik (A, ang. adverbial). Budowa zdania zale»y wprawdzie od trybu, ale dla okre±lonych rodzajów czasownika przewa»aj¡ nast¦puj¡ce schematy:
czasowniki nieprzechodnie SV,
czasownik by¢ (ang. to be) SVC, SVA,
czasowniki przechodnie SVO, SVOO, SVOC i SVOA.
Poszczególne role w zdaniu przyjmuj¡ wyra»enia, których w j¦zyku angielskim jest pi¦¢: wyra»enie rzeczownikowe (ang. noun phrase), czasownikowe (ang. verb phrase), wyra»enie przymiotnikowe (ang. adjecitval phrase), wyra»enie przysªówkowe (ang. adverbial phrase) oraz wyra»enie przyimkowe (ang. prepositional phrase). Budowa tych wyra»e« ma najwi¦k- szy wpªyw na struktur¦ zdania, dla czytelno±ci przedstawiono j¡ w formie diagramów^2.
(^1) W j¦zyku polskim uzupeªnienie jest zawarte w poj¦ciu dopeªnienia, natomiast dodatkowo wyró»nia si¦ przydawk¦ (ang. attribute). (^2) Diagramy, jak i wi¦kszo±¢ przedstawionych w tej cz¦±ci informacji zostaªa opracowana na podstawie ksi¡»ki Daniela Kiesa pt. Modern English Grammar [32].
Frazy zleksykalizowane
staªe: in short, by and large, ad hoc, ad libitum nie podlegaj¡ modykacjom (np. in very short) ª¡czliwe rozkªadalne: spill the beans (spill = reveal, beans = secret); nierozkªadalne: kick the bucket, shoot the breeze (nie da si¦ powiedzie¢ the breeze was shot); rzeczowniki zªo»one: car park; nazwy wªasne: San Francisco; swobodne czasowniki zªo»one: look up (mo»na dowolnie modykowa¢); poª¡czenia: make a mistake, ale nie do a mistake.
Frazy zinstytucjonalizowane
semantycznie i syntaktycznie niczym si¦ nie ró»ni¡, natomiast statystycznie s¡ idiomami, np. trac light, ale nie trac director, intersection regulator, dodatkowo trac light (sygnalizacja) mogªoby oznacza¢ ±wiatªo do przekazywania informacji pomi¦dzy uczestnikami ruchu, istnienie wyra»enia turn signal (kierunkowskaz) ogranicza trac light do znaczenia sygnalizacja.
Znakowanie ról semantycznych (ang. Semantic Role Labeling) to proces polegaj¡cy na okre±laniu i przypisywaniu frazom w zdaniu ról semantycznych (np. wykonawca, instrument, benecjent) wzgl¦dem odpowiadaj¡cego im czasownika. Na przykªad
[A0 John] [V gave] [A1 Mary] [A2 the book] [TMP on Christmas]
gdzie A0 reprezentuje daj¡cego, V reprezentuje czasownik, A1 reprezentuje benecjenta, A reprezentuje obiekt dawany, natomiast TMP reprezentuje chwil¦, w której czynno±¢ nast¡- piªa. Jest to wa»ny problem w dziedzinie przetwarzania j¦zyka naturalnego, posiadaj¡cy liczne zastosowania, przede wszystkim w wydobywaniu informacji. Niestety jest to zadanie trudne; dotychczasowe metody s¡ powolne, a i tak nie charakteryzuj¡ si¦ wysok¡ skutecz- no±ci¡. Z aktualnych implementacji na uwag¦ zasªuguje projekt rozwijany przez Cognitive Computation Group^3 na Uniwersytecie Illinois w Urbana-Champaign [48].
(^3) http://cogcomp.cs.illinois.edu/
Ontologia to dziaª lozoi zajmuj¡cy si¦ m.in istot¡ bytu, istnienieniem przedmiotów, a tak»e natur¡ rzeczywisto±ci. Ontologowie rozwa»aj¡ o jakich jednostkach mo»na powiedzie¢, »e ist- niej¡ i jak one mog¡ by¢ klasykowane w grupy i hierarchie. W informatyce i teorii informacji ontologia jest rozumiana jako wybór poj¦¢, znacze« i relacji, za pomoc¡ których reprezento- wana jest wiedza systemu. Je±li poj¦cia (ang. concept), obiekty i inne jednostki, które nale»¡ do opisywanego fragmentu rzeczywisto±ci, a tak»e relacje, które wyst¦puj¡ pomi¦dzy nimi, okre±limy mianem upoj¦ciowienia (ang. conceptualization), to jego formalne przedstawienie nazwiemy wªa±nie ontologi¡ [28]. Wa»nym terminem dotycz¡cym ontologii s¡ tzw. kategorie ontologiczne, w które s¡ or- ganizowane poj¦cia nale»¡ce do ontologi. Do jednej kategorii mo»e nale»e¢ wiele poj¦¢ (w tym podkategorii), a dwa poj¦cia A i B nale»¡ do tej samej (pewnej) kategorii je»eli dla pewnego zdania P(A), P(B) te» jest zdaniem. W informatyce, jedyn¡ kategori¦ najogólniej- sz¡ (tak¡, która zawiera wszystkie poj¦cia), je»eli istnieje, zwyczajowo nazywa si¦ Thing, natomiast kategori¦ do niej dualn¡, najbardziej szczegóªow¡ (tak¡, która zawiera si¦ w ka»dej innej kategorii) nazywa si¦ Nothing.
Penn Treebank [40] jest du»ym (ponad 4.5 miliona sªów) korpusem j¦zyka angielskiego ozna- kowanego cz¦±ciami mowy (POS, ang. part-of-speech) i nawiasowaniem syntaktycznym. Rozpocz¦ty w 1989 roku, szeroko rozpowszechniony 4 , jest u»ywany do tej pory, mimo »e od ko«ca lat 90 nie jest ju» rozwijany. PropBank [44] jest ci¡gle rozszerzanym^5 korpusem j¦zyka angielskiego zbudowanym na bazie Penn Treebank. R¦czne dodane oznaczenia, poza cz¦±ciami mowy i nawiasowaniem, zawieraj¡ dodatkowo role semantyczne fraz u»ytych w zdaniu. Ponadto zaª¡czona jest lista czasowników zawieraj¡ca opis ich argumentów. Jak pisz¡ autorzy: Otrzymany zbiór danych mo»e si¦ wydawa¢ niekompletny, gdy» nie zawiera koreferencji, kwantykacji i innych feno- menów wysokich rz¦dów, ale tak»e wyczerpuj¡cy w tym, »e pokrywa wszystkie przypadki wszystkich czasowników u»ytych w korpusie i pozwala na wyliczanie reprezentatywnych sta- tystyk.
Head-Driven Phrase Structure Grammar to teoria modeluj¡ca j¦zyk naturalny za pomoc¡ ukªadu wi¦zów, w której kluczow¡ rol¦ peªni¡ typowane wªa±ciwo±ci. Zapocz¡tkowana przez Carla Pollarda i Ivana A. Saga w 1987 na podstawie Generalized Phrase Structure Grammar, zostaªa uporz¡dkowana w 1994 roku [47]. Skªada si¦ z dwóch cz¦±ci: ustrukturyzowanej repre- zentacji kategorii gramatycznych oraz zbioru wi¦zów charakteryzuj¡cych zale»no±ci panuj¡ce w j¦zyku [38]. Przykªadowy opis sªowa put mógªby wygl¡da¢ nast¦puj¡co^6 :
(^4) Serwisy CiteSeerX (http://citeseerx.ist.psu.edu) oraz ACM Portal (http://portal.acm.org) podaj¡ odpowiednio po 1341 oraz 702 cytowa«. (^5) Stan na rok 2010. (^6) Ten i nast¦pny przykªad zostaªy zaczerpni¦te z [38].
Wymy±lona przez polskiego logika, Kazimierza Ajdukiewicza w 1934 roku [7, 8], pó¹niej rozwini¦ta przez Yehoshua'e Bar-Hillel w 1953 oraz Joachima Lambeka w [35], gramatyka kategorialna (CG, ang. Categorial Grammar ) jest systemem formalnym, który uchwyca relacje pomi¦dzy kategoriami (por. roz. 1.1.6) za pomoc¡ zale»no±ci funkcyjnych. Dla przykªadu, je»eli gramatyka generuj¡ca wyra»enia dla czasowników przechodnich podana w BNF wygl¡daªaby nast¦puj¡co:
TV ::= {like, see,.. .}
aa a !! ! NP
John
^ QQ TV
likes
Mary
to analogiczna gramatyka w CG sprowadza si¦ do^8 :
like, see,... = (NP 7 → S) ←[ NP
natomiast wyprowadzenie przeksztaªca si¦ w:
John NP
Lex
likes (NP 7 → S) ←[ NP Lex
Mary NP Lex
NP 7 → S
App S <App
gdzie odpowiednie reguªy aplikacji mo»na zdeniowa¢ jak poni»ej:
X ←[ Y Y X
App Y^ Y^7 →^ X X <App
Kombinatoryczna Gramatyka Kategorialna (CCG, ang. Combinatory Categorical Gram- mar ) to nast¦pczyni CG, która rozszerza zestaw reguª, za pomoc¡ których mo»na ª¡czy¢ (ang. combine) wyra»enia. Oprócz standardowych reguª aplikacji (A)
X ←[ Y Y X
<A
zostaªy doª¡czone reguªy kompozycji (C), koordynacji (Φ) oraz podnoszenia typu (T, ang. type rising) [54]
X ←[ Y Y ←[ Z X ←[ Z
<C
Φ (^8) Notacja Ajdukiewicza A X Y Z X Y Z^ =⇒^ A^ zostaªa przeksztaªcona do notacji u»ywaj¡cej symbole^ /^ oraz , która jest standardowo u»ywana w literaturze dotycz¡cej CG i jej pochodnych, np. VP = TV/NP. Niestety, notacja ta nie jest u»ywana jednakowo przez wyszystkich autorów, w szczególno±ci w cz¦±ci prac mo»emy znale¹¢ zapis like = (NP\S)/NP, natomiast w innych like = (S\NP)/NP. Dla przejrzysto±ci i wygody w dalszej cz¦±ci pracy nie b¦dzie u»ywana notacja Ajdukiewicza, ale zapis matematyczny dla funkcji, którym nie przypisano nazwy. Dla przykªadu identyczno±¢ mogªaby zosta¢ przedstawiona jako id = x 7 → x, a czasownik like jako like = (NP 7 → S) ←[ NP.
<T
Pozwala to na przetwarzanie szczególnych zda« takich jak Give a teacher an apple and a policeman a ower 9. W przytoczonym zdaniu szczególne jest to, »e zbitka wyrazowa a teacher an apple traktowana jest jak peªnoprawne wyra»enie.
a teacher NP
Lex ((S ←[ NP) ←[ NP) 7 → (S ←[ NP)
<T
an apple NP
Lex (S ←[ NP) 7 → S
<T
((S ←[ NP) ←[ NP) 7 → S
<C
a policeman NP
Lex ((S ←[ NP) ←[ NP) 7 → (S ←[ NP)
<T
a flower NP
Lex (S ←[ NP) 7 → S
<T
((S ←[ NP) ←[ NP) 7 → S <C
Give (S ←[ NP) ←[ NP
a teacher an apple ((S ←[ NP) ←[ NP) 7 → S
and CONJ
a policeman a flower ((S ←[ NP) ←[ NP) 7 → S ((S ←[ NP) ←[ NP) 7 → S
Φ
S <A
Wprowadzenie nowych kombinatorów rozszerza tak»e klas¦ j¦zyków rozpoznawalnych z bezkontekstowej dla CG do umiarkowanie kontekstowej^10 (ang. mildly context-sensitive) dla CCG [59].
Rozwini¦cia CCG wprowadzaj¡ jeszcze wi¦cej operacji, m.in praw¡stronn¡ i lewostronn¡ wersj¦ zªo»enia krzy»owego (ang. cross composition), a tak»e odpowiednie ograniczenia na ich stosowalno±¢. Z wielu prac warto zwróci¢ uwag¦ na TCCG [13], gdzie autor wpro- wadza hierarchiczn¡ struktur¦ typów, a caªo±¢ jest zaimplementowana jako poª¡czenie CCG i HPSG. Niestety, spójniki nadal s¡ obsªugiwane w specjalny sposób, za pomoc¡ kombinatora koordynacji.
Gramatyka Montague to teoria ª¡cz¡ca skªadni¦ z semantyk¡. Pomysª opiera si¦ na zaªo»e- niu, »e j¦zyki naturalne mog¡ by¢ opisywane przez systemy formalne, w szczególno±ci je»eli skªadnia i semantyka byªyby pewnymi algebrami, to poszukiwanym obiektem jest homomor- zm mi¦dzy nimi. Przeªomem w dziedzinie okazaªo si¦ u»ycie kontynuacji, które pozwoliªy na naturalne traktowanie kwantykatorów sªownych, tzn. sªów takich jak wszyscy czy kto± jednolicie, razem z innymi wyra»eniami rzeczownikowymi [42]^11. W przypadku zwykªej se- mantyki wyprowadzenie mogªoby wygl¡da¢ nast¦puj¡co:
(^9) Dla czytelno±ci wprowadzono pewne uproszczenia, takie jak wyprowadzanie wyra»e« a teacher reguª¡ Lex, czy zmodykowane wyra»enie dla give. (^10) Przykªadem j¦zyka, który nale»y do klasy j¦zyków umiarkowanie kontekstowych, a nie nale»y do klasy j¦zyków bezkontekstowych jest {anbncndn|n ∈ N}. (^11) W literaturze dziedzinowej praca ta jest tradycyjnie oznaczana skrótem PTQ.