Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Automatyczna analiza semantyczna tekstu w języku naturalnym, studium przypadku, Prace dyplomowe z Computer Science

Praca magisterska

Typologia: Prace dyplomowe

2019/2020

Załadowany 03.11.2020

Warsawa
Warsawa 🇵🇱

4.7

(104)

282 dokumenty

1 / 82

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Uniwersytet Warszawski
Wydziaª Matematyki, Informatyki i Mechaniki
Dariusz Leniowski
Nr albumu: 236088
Automatyczna analiza semantyczna
tekstu w j¦zyku naturalnym,
studium przypadku
Praca magisterska
na kierunku INFORMATYKA
Praca wykonana pod kierunkiem
prof. Krzysztofa Diksa
Instytut Informatyki
Uniwersytetu Warszawskiego
Wrzesie« 2010
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52

Podgląd częściowego tekstu

Pobierz Automatyczna analiza semantyczna tekstu w języku naturalnym, studium przypadku i więcej Prace dyplomowe w PDF z Computer Science tylko na Docsity!

Uniwersytet Warszawski

Wydziaª Matematyki, Informatyki i Mechaniki

Dariusz Leniowski

Nr albumu: 236088

Automatyczna analiza semantyczna

tekstu w j¦zyku naturalnym,

studium przypadku

Praca magisterska

na kierunku INFORMATYKA

Praca wykonana pod kierunkiem

prof. Krzysztofa Diksa

Instytut Informatyki

Uniwersytetu Warszawskiego

Wrzesie« 2010

O±wiadczenie kieruj¡cego prac¡

Potwierdzam, »e niniejsza praca zostaªa przygotowana pod moim kierunkiem i

kwalikuje si¦ do przedstawienia jej w post¦powaniu o nadanie tytuªu zawodowego.

Data Podpis kieruj¡cego prac¡

O±wiadczenie autora (autorów) pracy

‘wiadom odpowiedzialno±ci prawnej o±wiadczam, »e niniejsza praca dyplomowa

zostaªa napisana przeze mnie samodzielnie i nie zawiera tre±ci uzyskanych w sposób

niezgodny z obowi¡zuj¡cymi przepisami.

O±wiadczam równie», »e przedstawiona praca nie byªa wcze±niej przedmiotem

procedur zwi¡zanych z uzyskaniem tytuªu zawodowego w wy»szej uczelni.

O±wiadczam ponadto, »e niniejsza wersja pracy jest identyczna z zaª¡czon¡ wersj¡

elektroniczn¡.

Data Podpis autora (autorów) pracy

Podzi¦kowania

Serdeczne podzi¦kowania chciaªbym zªo»y¢ Panu Profesorowi Krzysztofowi Diksowi, promotorowi i wielkiemu entuzja±cie algorytmiki, za jego niewyczerpan¡ cierpliwo±¢ i okazane mi zaufanie. Chciaªbym podzi¦kowa¢ dr. Wojciechowi Jaworskiemu za cenne rady i dyskusje, które cho¢ nieliczne, okazaªy si¦ brzemienne w skutkach. Ma¢kowi D¡browskiemu, Sean-owi O'Riain-owi oraz Šukaszowi Porwolowi za wszelk¡ pomoc jak¡ od nich otrzymaªem podczas mojego pobytu w Irlandii. Za pi¦¢ wspaniale sp¦dzonych lat wspólnych studiów  Šukaszowi Bieniaszowi- Krzywiec, Kubie Š¡ckiemu i Grzegorzowi Ziemia«skiemu. Za nieprzerwane przypominanie mi, co jest naprawd¦ wa»ne  Ma¢kowi Doª¦dze, Joannie Fili, Konradowi Kaplicie i Joannie Karskiej. Za trosk¦, wsparcie i do±wiadczenie  Lucynie i Ryszardowi Leniowskim, kocha- nym Rodzicom.

Spis tre±ci

  • Wprowadzenie
    1. Przetwarzanie j¦zyka naturalnego
    • 1.1. Poj¦cia podstawowe
      • 1.1.1. Parsowanie
      • 1.1.2. Przetwarzanie pªytkie i gª¦bokie
      • 1.1.3. Przetwarzanie syntaktyczne i semantyczne
      • 1.1.4. Ogólne informacje o budowie zda« w j¦zyku angielskim
      • 1.1.5. Znakowanie ról semantycznych
      • 1.1.6. Ontologie
    • 1.2. Dotychczasowe badania
      • 1.2.1. Korpusy Penn Treebank i PropBank
      • 1.2.2. Formalizm HPSG
      • 1.2.3. Gramatyka kategorialna
      • 1.2.4. Formalizm CCG
      • 1.2.5. Gramatyka Montague
    1. Podstawowe informacje o istotnych cechach tekstów
    • 2.1. Przykªady zda«
      • 2.1.1. Korpusy
      • 2.1.2. Zdania z prac naukowych
      • 2.1.3. Zdania ró»ne
    • 2.2. Formularze 10-K
    • 2.3. Typy semantyczne
    1. Podstawy teoretyczne algorytmu
    • 3.1. Kraty
      • 3.1.1. Kraty rozdzielne
      • 3.1.2. Kraty dwuresztkowe
      • 3.1.3. Wielomiany kratowe
      • 3.1.4. Rozwi¡zywanie równa« w kratach
      • 3.1.5. Kraty a ontologia
    • 3.2. Rachunek lambda
      • 3.2.1. Denicje
      • 3.2.2. Rachunek lambda z typami prostymi
      • 3.2.3. Polimorzm
    • 3.3. Algorytm CKY
    1. Sªaba semantyka
    • 4.1. Konstrukcje statyczne
    • 4.2. Zmienne i aplikacja
    • 4.3. Wªa±ciwo±ci
    • 4.4. Operatory supremum i inmum
    • 4.5. Formalna denicja
    • 4.6. Klasa j¦zyków rozpoznawalnych
    1. Algorytm parsowania
    • 5.1. Idea algorytmu
    • 5.2. Rezolucja
      • 5.2.1. Normalizacja
      • 5.2.2. Obsªuga kwantykatorów
      • 5.2.3. Speªnialno±¢
      • 5.2.4. Graf zale»no±ci
    • 5.3. Analiza zªo»ono±ci
    • 5.4. Implementacja
      • 5.4.1. Architektura
      • 5.4.2. Wybrane fragmenty kodu
      • 5.4.3. Obsªuga ontologii
      • 5.4.4. Uwagi dodatkowe
    1. Wyniki
    • 6.1. Wyj±cie z algorytmu
    • 6.2. Testy ukªadane
    • 6.3. Przykªady instancji problematycznych
    • 6.4. Testy na podstawie formularzy 10-K
  • Podsumowanie i wnioski
  • Bibliograa

Rozdziaª 1

Przetwarzanie j¦zyka naturalnego

J¦zyki naturalne, to j¦zyki u»ywane przez ludzi do komunikacji mi¦dzy sob¡. Najcz¦±ciej ewaluowaªy one z biegiem historii (np. polski, angielski, ªacina), ale s¡ te» znane j¦zyki stworzone sztucznie (np. esperanto). Przetwarzanie j¦zyka naturalnego (NLP, ang. Natu- ral Language Processing) zajmuje si¦ szeroko poj¦tymi algorytmami operuj¡cymi na tych j¦zykach. Robi si¦ to najcz¦±ciej w celu ekstrakcji informacji, jednak s¡ te» inne zastoso- wania, takie jak sterowanie gªosem, automatyczni tªumacze, czy semantic web. Korzenie NLP si¦gaj¡ poªowy XX wieku, kiedy to Alan Turing zaproponowaª test badaj¡cy sztuczn¡ inteligencj¦ w 1950 roku [58] i do tej pory jest to bardzo dynamicznie rozwijaj¡ca si¦ gaª¡¹ informatyki. Szczegóªowe informacje dotycz¡ce przetwarzania j¦zyków naturalnych mo»na znale¹¢ w ksi¡»kach [9] oraz [39].

1.1. Poj¦cia podstawowe

1.1.1. Parsowanie

Parsowanie jest to proces ukªadania liniowego ci¡gu sªów (lub innych jednostek, np. lek- semów) analizowanego tekstu w struktur¦ logiczn¡, najcz¦±ciej poprzez nawiasowanie od- powiednich podwyra»e«. Analogicznie, parser j¦zyka naturalnego to algorytm, który prze- twarza zdania tekstu pisanego na drzewa ich rozkªadu, np. które sªowa ª¡cz¡ si¦ w frazy, które stanowi¡ podmiot, a które orzeczenie. Podstawowe podej±cia u»ywaj¡ ró»nego rodzaju gramatyk czytanego j¦zyka, lecz od lat 90 rdzeniem najlepszych programów s¡ metody pro- babilistyczne. Przykªadem biblioteki zawieraj¡cej taki wªa±nie algorytm parsuj¡cy mo»e by¢ Stanford Parser rozwijany przez The Stanford Natural Language Processing Group na Uni- wersytecie Stanford, którego skuteczno±¢ na Penn Treebank (por. roz. 1.2.1) wynosi ponad 85% [33].

1.1.2. Przetwarzanie pªytkie i gª¦bokie

Algorytmy przetwarzaj¡ce tekst napisany w j¦zyku naturalnym mo»na podzieli¢ na przetwa- rzaj¡ce pªytko (lub powierzchniowo, ang. shallow ) i przetwarzaj¡ce gª¦boko (ang. deep). Przetwarzanie gª¦bokie polega na analizie struktury tekstu lub zdania, w przeciwie«stwie do przetwarzania pªytkiego, które najcz¦±ciej polega na metodach statystycznych czy do- pasowywaniu wzorców (np. wyra»e« regularnych). Ka»da z nich ma swoje wady i zalety,

Przegl¡d gramatyki

Cz¦±ci zdania w j¦zyku angielskim mo»na podzieli¢ nast¦puj¡co^1 : podmiot (S, ang. subject), orzeczenie (V, ang. verb,predicate), dopeªnienie (O, ang. object), uzupeªnienie (C, ang. complement), okolicznik (A, ang. adverbial). Budowa zdania zale»y wprawdzie od trybu, ale dla okre±lonych rodzajów czasownika przewa»aj¡ nast¦puj¡ce schematy:

 czasowniki nieprzechodnie  SV,

 czasownik by¢ (ang. to be)  SVC, SVA,

 czasowniki przechodnie  SVO, SVOO, SVOC i SVOA.

Poszczególne role w zdaniu przyjmuj¡ wyra»enia, których w j¦zyku angielskim jest pi¦¢: wyra»enie rzeczownikowe (ang. noun phrase), czasownikowe (ang. verb phrase), wyra»enie przymiotnikowe (ang. adjecitval phrase), wyra»enie przysªówkowe (ang. adverbial phrase) oraz wyra»enie przyimkowe (ang. prepositional phrase). Budowa tych wyra»e« ma najwi¦k- szy wpªyw na struktur¦ zdania, dla czytelno±ci przedstawiono j¡ w formie diagramów^2.

Wyra»enie

czasownikowe

Czasownik

p osiªkowy...

... mo dalny

(can, may, wil l, should )

... p erfektu

(have, has, had, having )

... gerundium

(are, is, was, been, being )

... strony biernej

(am, is, were, been, being )

... p omo cniczy

(do, does, did, done, doing )

Gªowa

wyra»enia Czasownik^ (see,^ walk,^ go^ )

Wyra»enie

przymiotnikowe

Premo dykator  wyra»enie przysªówkowe

(extremely, very happily, too )

Gªowa wyra»enia

Przymiotnik (rich, poor, beautiful )

Imiesªów

Imiesªow czynny (interesting )

Imiesªow bierny (faded, tired )

Postmo dykator

Przysªówek (enough, indeed )

Uzup eªnienie

Wyra»enie przyimkowe

(for me )

Konstrukcja

b ezokolicznikowa (to see )

(^1) W j¦zyku polskim uzupeªnienie jest zawarte w poj¦ciu dopeªnienia, natomiast dodatkowo wyró»nia si¦ przydawk¦ (ang. attribute). (^2) Diagramy, jak i wi¦kszo±¢ przedstawionych w tej cz¦±ci informacji zostaªa opracowana na podstawie ksi¡»ki Daniela Kiesa pt. Modern English Grammar [32].

Wyra»enie

przysªówkowe

Premo dykator  wyra»enie przysªówkowe

(extremely, quite, too, very )

Gªowa wyra»enia Przysªówek (honestly,frankly,brightly )

Postmo dykator

Przysªówek (enough, indeed )

Uzup eªnienie

Wyra»enie przyimkowe

(for me )

Konstrukcja

b ezokolicznikowa (to see )

Wyra»enie

przyimkowe

Przyimek

Przyimek p o jedynczy

(under, with, to, in, for, by )

Przyimek zªo»ony

(next to, instead of, due to )

Uzup eªnienie

Przysªówek (now, then )

Wyra»enie rzeczownikowe (her, the books )

Zdanie

p o drz¦dne

Konstrukcja imiesªowowa czynna

(winning the election )

Zdanie wzgl¦dne

(whoever wants it )

Wyra»enie

rzeczownikowe

Okre±lnik

Przedokre±lnik

Kwantykator (al l, both, half )

Krotno±¢ (double, twice )

Uªamek (one-third, one-fth )

Okre±lnik

wªa±ciwy

Przedimek

Przedimek okre±lony (the )

Przedimek nieokre±lony (a, an )

Zaimek

Zaimek wskazuj¡cy (that, those )

Zaimek osob owy (my, her )

Zaimek nieokre±lony (any, some )

Zaimek pyta jny (which, what )

Okre±lnik negatywny (no )

Po okre±lnik

Numeraª

Liczebnik (one, two, three )

Liczebnik p orz¡dkowy

(rst, second )

Kwantykator (few, several, much )

Pre-

mo dykator

Rzeczownik (science [ction] )

Wyra»enie przymiotnikowe (very big )

Imiesªów

Imiesªów czynny (-ing, walking )

Imiesªów bierny (-ed, painted )

Gªowa

wyra»enia

Rzeczownik (Marie, information, children )

Przymiotnik (rich,poor,beautiful )

Zaimek osob owy (I, she, they )

Post-

mo dykator

Wyra»enie przyimkowe (in the afternoon )

Zdanie wzgl¦dne (who was reading that book )

Zdanie

p o drz¦dne

Konstrukcje imiesªowowe czynne (writing a letter )

Konstrukcje imiesªowowe bierne (shocked by the news )

Konstrukcje b ezokolicznikowe (to see )

Uzup eªnienie (than I, than that )

 Frazy zleksykalizowane

 staªe: in short, by and large, ad hoc, ad libitum nie podlegaj¡ modykacjom (np. in very short)  ª¡czliwe  rozkªadalne: spill the beans (spill = reveal, beans = secret);  nierozkªadalne: kick the bucket, shoot the breeze (nie da si¦ powiedzie¢ the breeze was shot);  rzeczowniki zªo»one: car park;  nazwy wªasne: San Francisco;  swobodne  czasowniki zªo»one: look up (mo»na dowolnie modykowa¢);  poª¡czenia: make a mistake, ale nie do a mistake.

 Frazy zinstytucjonalizowane

 semantycznie i syntaktycznie niczym si¦ nie ró»ni¡,  natomiast statystycznie s¡ idiomami,  np. trac light, ale nie trac director, intersection regulator,  dodatkowo trac light (sygnalizacja) mogªoby oznacza¢ ±wiatªo do przekazywania informacji pomi¦dzy uczestnikami ruchu,  istnienie wyra»enia turn signal (kierunkowskaz) ogranicza trac light do znaczenia sygnalizacja.

1.1.5. Znakowanie ról semantycznych

Znakowanie ról semantycznych (ang. Semantic Role Labeling) to proces polegaj¡cy na okre±laniu i przypisywaniu frazom w zdaniu ról semantycznych (np. wykonawca, instrument, benecjent) wzgl¦dem odpowiadaj¡cego im czasownika. Na przykªad

[A0 John] [V gave] [A1 Mary] [A2 the book] [TMP on Christmas]

gdzie A0 reprezentuje daj¡cego, V reprezentuje czasownik, A1 reprezentuje benecjenta, A reprezentuje obiekt dawany, natomiast TMP reprezentuje chwil¦, w której czynno±¢ nast¡- piªa. Jest to wa»ny problem w dziedzinie przetwarzania j¦zyka naturalnego, posiadaj¡cy liczne zastosowania, przede wszystkim w wydobywaniu informacji. Niestety jest to zadanie trudne; dotychczasowe metody s¡ powolne, a i tak nie charakteryzuj¡ si¦ wysok¡ skutecz- no±ci¡. Z aktualnych implementacji na uwag¦ zasªuguje projekt rozwijany przez Cognitive Computation Group^3 na Uniwersytecie Illinois w Urbana-Champaign [48].

(^3) http://cogcomp.cs.illinois.edu/

1.1.6. Ontologie

Ontologia to dziaª lozoi zajmuj¡cy si¦ m.in istot¡ bytu, istnienieniem przedmiotów, a tak»e natur¡ rzeczywisto±ci. Ontologowie rozwa»aj¡ o jakich jednostkach mo»na powiedzie¢, »e ist- niej¡ i jak one mog¡ by¢ klasykowane w grupy i hierarchie. W informatyce i teorii informacji ontologia jest rozumiana jako wybór poj¦¢, znacze« i relacji, za pomoc¡ których reprezento- wana jest wiedza systemu. Je±li poj¦cia (ang. concept), obiekty i inne jednostki, które nale»¡ do opisywanego fragmentu rzeczywisto±ci, a tak»e relacje, które wyst¦puj¡ pomi¦dzy nimi, okre±limy mianem upoj¦ciowienia (ang. conceptualization), to jego formalne przedstawienie nazwiemy wªa±nie ontologi¡ [28]. Wa»nym terminem dotycz¡cym ontologii s¡ tzw. kategorie ontologiczne, w które s¡ or- ganizowane poj¦cia nale»¡ce do ontologi. Do jednej kategorii mo»e nale»e¢ wiele poj¦¢ (w tym podkategorii), a dwa poj¦cia A i B nale»¡ do tej samej (pewnej) kategorii je»eli dla pewnego zdania P(A), P(B) te» jest zdaniem. W informatyce, jedyn¡ kategori¦ najogólniej- sz¡ (tak¡, która zawiera wszystkie poj¦cia), je»eli istnieje, zwyczajowo nazywa si¦ Thing, natomiast kategori¦ do niej dualn¡, najbardziej szczegóªow¡ (tak¡, która zawiera si¦ w ka»dej innej kategorii) nazywa si¦ Nothing.

1.2. Dotychczasowe badania

1.2.1. Korpusy Penn Treebank i PropBank

Penn Treebank [40] jest du»ym (ponad 4.5 miliona sªów) korpusem j¦zyka angielskiego ozna- kowanego cz¦±ciami mowy (POS, ang. part-of-speech) i nawiasowaniem syntaktycznym. Rozpocz¦ty w 1989 roku, szeroko rozpowszechniony 4 , jest u»ywany do tej pory, mimo »e od ko«ca lat 90 nie jest ju» rozwijany. PropBank [44] jest ci¡gle rozszerzanym^5 korpusem j¦zyka angielskiego zbudowanym na bazie Penn Treebank. R¦czne dodane oznaczenia, poza cz¦±ciami mowy i nawiasowaniem, zawieraj¡ dodatkowo role semantyczne fraz u»ytych w zdaniu. Ponadto zaª¡czona jest lista czasowników zawieraj¡ca opis ich argumentów. Jak pisz¡ autorzy: Otrzymany zbiór danych mo»e si¦ wydawa¢ niekompletny, gdy» nie zawiera koreferencji, kwantykacji i innych feno- menów wysokich rz¦dów, ale tak»e wyczerpuj¡cy w tym, »e pokrywa wszystkie przypadki wszystkich czasowników u»ytych w korpusie i pozwala na wyliczanie reprezentatywnych sta- tystyk.

1.2.2. Formalizm HPSG

Head-Driven Phrase Structure Grammar to teoria modeluj¡ca j¦zyk naturalny za pomoc¡ ukªadu wi¦zów, w której kluczow¡ rol¦ peªni¡ typowane wªa±ciwo±ci. Zapocz¡tkowana przez Carla Pollarda i Ivana A. Saga w 1987 na podstawie Generalized Phrase Structure Grammar, zostaªa uporz¡dkowana w 1994 roku [47]. Skªada si¦ z dwóch cz¦±ci: ustrukturyzowanej repre- zentacji kategorii gramatycznych oraz zbioru wi¦zów charakteryzuj¡cych zale»no±ci panuj¡ce w j¦zyku [38]. Przykªadowy opis sªowa put mógªby wygl¡da¢ nast¦puj¡co^6 :

(^4) Serwisy CiteSeerX (http://citeseerx.ist.psu.edu) oraz ACM Portal (http://portal.acm.org) podaj¡ odpowiednio po 1341 oraz 702 cytowa«. (^5) Stan na rok 2010. (^6) Ten i nast¦pny przykªad zostaªy zaczerpni¦te z [38].

1.2.3. Gramatyka kategorialna

Wymy±lona przez polskiego logika, Kazimierza Ajdukiewicza w 1934 roku [7, 8], pó¹niej rozwini¦ta przez Yehoshua'e Bar-Hillel w 1953 oraz Joachima Lambeka w [35], gramatyka kategorialna (CG, ang. Categorial Grammar ) jest systemem formalnym, który uchwyca relacje pomi¦dzy kategoriami (por. roz. 1.1.6) za pomoc¡ zale»no±ci funkcyjnych. Dla przykªadu, je»eli gramatyka generuj¡ca wyra»enia dla czasowników przechodnich podana w BNF wygl¡daªaby nast¦puj¡co:

S ::= NP VP
VP ::= TV NP

TV ::= {like, see,.. .}

S

aa a !! ! NP

John

VP

^ QQ TV

likes

NP

Mary

to analogiczna gramatyka w CG sprowadza si¦ do^8 :

like, see,... = (NP 7 → S) ←[ NP

natomiast wyprowadzenie przeksztaªca si¦ w:

John NP

Lex

likes (NP 7 → S) ←[ NP Lex

Mary NP Lex

NP 7 → S

App S <App

gdzie odpowiednie reguªy aplikacji mo»na zdeniowa¢ jak poni»ej:

X ←[ Y Y X

App Y^ Y^7 →^ X X <App

1.2.4. Formalizm CCG

Kombinatoryczna Gramatyka Kategorialna (CCG, ang. Combinatory Categorical Gram- mar ) to nast¦pczyni CG, która rozszerza zestaw reguª, za pomoc¡ których mo»na ª¡czy¢ (ang. combine) wyra»enia. Oprócz standardowych reguª aplikacji (A)

X ←[ Y Y X

>A Y^ Y^7 →^ X
X

<A

zostaªy doª¡czone reguªy kompozycji (C), koordynacji (Φ) oraz podnoszenia typu (T, ang. type rising) [54]

X ←[ Y Y ←[ Z X ←[ Z

>C X^7 →^ Y^ Y^7 →^ Z
X 7 → Z

<C

X CONJ X
X

Φ (^8) Notacja Ajdukiewicza A X Y Z X Y Z^ =⇒^ A^ zostaªa przeksztaªcona do notacji u»ywaj¡cej symbole^ /^ oraz , która jest standardowo u»ywana w literaturze dotycz¡cej CG i jej pochodnych, np. VP = TV/NP. Niestety, notacja ta nie jest u»ywana jednakowo przez wyszystkich autorów, w szczególno±ci w cz¦±ci prac mo»emy znale¹¢ zapis like = (NP\S)/NP, natomiast w innych like = (S\NP)/NP. Dla przejrzysto±ci i wygody w dalszej cz¦±ci pracy nie b¦dzie u»ywana notacja Ajdukiewicza, ale zapis matematyczny dla funkcji, którym nie przypisano nazwy. Dla przykªadu identyczno±¢ mogªaby zosta¢ przedstawiona jako id = x 7 → x, a czasownik like jako like = (NP 7 → S) ←[ NP.

X
Y ←[ (X 7 → Y)
>T X
(Y ←[ X) 7 → Y

<T

Pozwala to na przetwarzanie szczególnych zda« takich jak Give a teacher an apple and a policeman a ower 9. W przytoczonym zdaniu szczególne jest to, »e zbitka wyrazowa a teacher an apple traktowana jest jak peªnoprawne wyra»enie.

a teacher NP

Lex ((S ←[ NP) ←[ NP) 7 → (S ←[ NP)

<T

an apple NP

Lex (S ←[ NP) 7 → S

<T

((S ←[ NP) ←[ NP) 7 → S

<C

a policeman NP

Lex ((S ←[ NP) ←[ NP) 7 → (S ←[ NP)

<T

a flower NP

Lex (S ←[ NP) 7 → S

<T

((S ←[ NP) ←[ NP) 7 → S <C

Give (S ←[ NP) ←[ NP

a teacher an apple ((S ←[ NP) ←[ NP) 7 → S

and CONJ

a policeman a flower ((S ←[ NP) ←[ NP) 7 → S ((S ←[ NP) ←[ NP) 7 → S

Φ

S <A

Wprowadzenie nowych kombinatorów rozszerza tak»e klas¦ j¦zyków rozpoznawalnych z bezkontekstowej dla CG do umiarkowanie kontekstowej^10 (ang. mildly context-sensitive) dla CCG [59].

Rozwini¦cia CCG wprowadzaj¡ jeszcze wi¦cej operacji, m.in praw¡stronn¡ i lewostronn¡ wersj¦ zªo»enia krzy»owego (ang. cross composition), a tak»e odpowiednie ograniczenia na ich stosowalno±¢. Z wielu prac warto zwróci¢ uwag¦ na TCCG [13], gdzie autor wpro- wadza hierarchiczn¡ struktur¦ typów, a caªo±¢ jest zaimplementowana jako poª¡czenie CCG i HPSG. Niestety, spójniki nadal s¡ obsªugiwane w specjalny sposób, za pomoc¡ kombinatora koordynacji.

1.2.5. Gramatyka Montague

Gramatyka Montague to teoria ª¡cz¡ca skªadni¦ z semantyk¡. Pomysª opiera si¦ na zaªo»e- niu, »e j¦zyki naturalne mog¡ by¢ opisywane przez systemy formalne, w szczególno±ci je»eli skªadnia i semantyka byªyby pewnymi algebrami, to poszukiwanym obiektem jest homomor- zm mi¦dzy nimi. Przeªomem w dziedzinie okazaªo si¦ u»ycie kontynuacji, które pozwoliªy na naturalne traktowanie kwantykatorów sªownych, tzn. sªów takich jak wszyscy czy kto± jednolicie, razem z innymi wyra»eniami rzeczownikowymi [42]^11. W przypadku zwykªej se- mantyki wyprowadzenie mogªoby wygl¡da¢ nast¦puj¡co:

(^9) Dla czytelno±ci wprowadzono pewne uproszczenia, takie jak wyprowadzanie wyra»e« a teacher reguª¡ Lex, czy zmodykowane wyra»enie dla give. (^10) Przykªadem j¦zyka, który nale»y do klasy j¦zyków umiarkowanie kontekstowych, a nie nale»y do klasy j¦zyków bezkontekstowych jest {anbncndn|n ∈ N}. (^11) W literaturze dziedzinowej praca ta jest tradycyjnie oznaczana skrótem PTQ.