Télécharge Notes sur le système universel de bases lexicales et plus Notes au format PDF de Langue Française sur Docsity uniquement! Table des matières INTRODUCTION 1 TAT DE LÕART ET PROBLéMES INTRESSANTS 3 I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 1. Dictionnaires sur papier............................................................................................ 6 1.1. Dictionnaires monolingues ....................................................................................... 6 1.2. Thesaurii.................................................................................................................... 8 1.3. Dictionnaires bilingues ............................................................................................. 9 1.4. Dictionnaires multilinguesÊ ...................................................................................... 10 2. Dictionnaires sur support lectronique .................................................................. 11 2.1. Un format de codageÊ: SGML/TEI............................................................................ 12 2.2. Dictionnaires en ligne: le Collins On-Line ............................................................. 13 2.3. Gestionnaires de dictionnaires terminologiquesÊ: MTX Termex ............................ 14 2.4. Un environnement originalÊ: le Dicologique .......................................................... 14 3. Systmes lexicaux spcialiss ................................................................................. 16 3.1. BDLex ...................................................................................................................... 16 3.2. Dictionnaires du LADL............................................................................................ 17 3.3. Ariane ...................................................................................................................... 17 3.4. BDTAO.................................................................................................................... 19 3.5. METAL ..................................................................................................................... 19 II. EFFORTS EN COURS 21 1. Le Lexicaliste ........................................................................................................... 22 ii Table des matires 1.1. Vue gnrale du systme ........................................................................................ 22 1.2. Rseau lexical et smantique.................................................................................. 23 1.3. Vrifications de cohrence et valeurs par dfaut ................................................... 23 2. EDR ......................................................................................................................... 24 2.1. Architecture lexicale ............................................................................................... 24 2.2. Architecture linguistique......................................................................................... 25 2.3. Dictionnaire de concepts ........................................................................................ 27 3. GENELEX.................................................................................................................. 31 3.1. Le modle conceptuel de GENELEX ....................................................................... 32 3.2. Vue gnrale dÕune unit du lexique ..................................................................... 33 3.3. Le modle morphologique ..................................................................................... 34 3.4. Le modle syntaxique ............................................................................................. 36 3.5. Le modle smantique............................................................................................ 38 4. MULTILEX................................................................................................................. 39 4.1. Architecture lexicale ............................................................................................... 39 4.2. Architecture linguistique......................................................................................... 40 4.3. Architecture logicielle ............................................................................................. 42 III. LES PROBLéMES INTRESSANTS 45 1. Architecture lexicale ............................................................................................... 45 2. Architecture linguistique......................................................................................... 48 3. Prsentation de lÕinformation ................................................................................. 49 CONCEPTION D'UNE BASE LEXICALE MULTILINGUE MULTIAPPLICATIONS 51 INTRODUCTION 53 IV. DFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 1. Dfinition de lÕarchitecture lexicale ....................................................................... 55 1.1. Exemples ................................................................................................................. 55 1.2. Le langage de dfinition de lÕarchitecture lexicaleÊ: LEXARD .................................. 59 2. Dfinition de lÕarchitecture linguistique ................................................................. 60 2.1. Exemples ................................................................................................................. 61 2.2. Le langage de dfinition de lÕarchitecture linguistiqueÊ: LINGARD ......................... 75 2.3. Implmentation ....................................................................................................... 87 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 1. Architecture logicielle ............................................................................................. 91 2. Niveau InterneÊ: manipulation des informations linguistiques............................... 92 Liste des figures I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (dition de 1970) ............................................. 6 Figure 1.2Ê: LÕunit lexicale complexe ÒconstruireÓ..................................................................... 7 Figure 1.3Ê: Un article du RodgetÕs thesaurus .............................................................................. 8 Figure 1.4Ê: Structure hirarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. ............................................................................... 9 Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation ...................... 9 Figure 1.6Ê: Un exemple d'article du Robert & Collins.............................................................. 10 Figure 1.7Ê: Une entre du dictionnaire terminologique des sciences de lÕinformation .......... 11 Figure 1.8Ê: LÕentre ÒcomposerÓ du Collins On-line, version Macintosh ................................. 13 Figure 1.9Ê: Un exemple dÕentre dÕun dictionnaire MTX Termex ........................................... 14 Figure 1.10Ê: Exemple de la structure des lments du Dicologique ....................................... 15 Figure 1.11Ê: Un exemple dÕentres de BDLex.......................................................................... 17 Figure 1.12Ê: Automate reprsentant la forme flchie ÒpasseÓ .................................................. 17 Figure 1.13Ê: Automate reprsentant les diffrentes variantes du mot compos Òun roman policier de la srie noireÓÉ ................................................................................................................... 17 Figure 1.14Ê: Exemple dÕarticle gnr par Visulex................................................................... 18 Figure 1.15Ê: Une entre lexicale de BDTAO ............................................................................ 19 II. EFFORTS EN COURS 21 Figure 2.1Ê: Une entre de dictionnaire cre par Le Lexicaliste .............................................. 22 Figure 2.2Ê: lments de la dfinition dÕun dictionnaire ........................................................... 22 Figure 2.3Ê: Architecture lexicale du projet EDR ....................................................................... 25 vi Liste des figures Figure 2.4Ê: Structure dÕune entre de dictionnaire monolingue EDR ...................................... 25 Figure 2.5Ê: Exemple dÕentre de dictionnaire monolingue EDR ............................................. 25 Figure 2.6Ê: Un exemple dÕinformation grammaticale associe une entre .......................... 26 Figure 2.7Ê: Exemple dÕinformation smantique associe une entre ................................... 26 Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR .............................................. 26 Figure 2.9Ê: Exemple dÕentres de dictionnaire bilingue .......................................................... 26 Figure 2.10Ê: Un exemple dÕentres de dictionnaire bilingues ................................................. 27 Figure 2.11Ê: Un exemple de classification de concepts ........................................................... 30 Figure 2.12Ê: Un extrait de la hirarchie de concepts du dictionnaire EDR.............................. 30 Figure 2.13Ê: Le mcanisme dÕhritage et les relations ngatives ............................................. 31 Figure 2.14Ê: LÕarticulation globale dÕune unit du lexique....................................................... 33 Figure 2.15Ê: Un exemple dÕunit morphologique simple prsente sous forme graphique .. 35 Figure 2.16Ê: Description de base associe lÕentre ÒintressantÓ (adjectif) .......................... 37 Figure 2.17Ê: Description de lÕUSyn compose Òmettre en ÏuvreÓ .......................................... 37 Figure 2.18Ê: Un exemple de relations entre les diffrents modles GENELEX......................... 38 Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX ..................................................................... 39 Figure 2.20Ê: Vue gnrale dÕune LU (Lexical Unit) de MULTILEX ............................................ 41 Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ ..................................... 41 Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX ................................................................................................................................................... 42 III. LES PROBLéMES INTRESSANTS 45 Figure 3.1Ê: Une base lexicale base sur lÕapproche bilingue................................................... 46 Figure 3.2Ê: Une base lexicale base sur lÕapproche interlingue. ............................................. 47 IV. DFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 Figure 4.1Ê: Base lexicale quintilingue fonde sur une approche bilingue unidirectionnelle . 56 Figure 4.2Ê: Base lexicale quintilingue fonde sur une approche interlingue.......................... 58 Figure 4.3Ê: Base lexicale anglais-japonais fonde sur une approche mixte ............................ 58 Figure 4.4Ê: Un exemple dÕentre de dictionnaire..................................................................... 61 Figure 4.5Ê: Table des attributs et de leurs valeurs possibles .................................................... 61 Figure 4.6Ê: Vue gnrale dÕune LU (Lexical Unit) de MULTILEX .............................................. 64 Figure 4.7Ê: Structure commune aux units morphologiques de GENELEX.............................. 66 Figure 4.8Ê: Structure de lÕUM simple ........................................................................................ 67 Figure 4.9Ê: Rgime dÕenseigner 1, sous forme dÕautomate ...................................................... 72 Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale ..... 73 Figure 4.11Ê: Vue globale du treillis (Σ,<<)................................................................................ 76 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 Figure 5.1Ê: Architecture logicielle du systme SUBLIM............................................................. 92 Figure 5.2Ê: Un article vu sous forme de table des matires ..................................................... 96 Figure 5.3Ê: Le mme article vu sous la forme habituelle.......................................................... 97 Figure 5.4Ê: Vue intgrale de lÕentre composer (transitif)....................................................... 99 Liste des figures vii Figure 5.5Ê: Vue intgrale de lÕentre composer (intransitif) .................................................. 100 Figure 5.6Ê: Vue ditoriale du dictionnaire bilingue ............................................................... 101 Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. ........................................................ 102 Figure 5.8Ê: Premire tape du processus dÕexport................................................................. 111 Figure 5.9Ê: Seconde tape du processus dÕexport.................................................................. 112 VI. LÕAPPROCHE PAR ACCEPTIONS 121 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idales ..................................... 122 Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river............................................ 122 Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement. 122 Figure 6.4Ê: Un exemple de lien de raffinement motiv par un phnomne contrastif non smantique .............................................................................................................................. 123 Figure 6.5Ê: Un ensemble de dictionnaires monolingues........................................................ 124 Figure 6.6Ê: Une base de connaissances .................................................................................. 124 Figure 6.7Ê: Une base lexicale fonde sur la connaissance ..................................................... 124 Figure 6.8Ê: Le systme de gestion lexicale dÕULTRA ............................................................... 126 Figure 6.9Ê: Cration du dictionnaire dÕacceptions, premire tape. ...................................... 127 Figure 6.10Ê: tat de la base lexicale aprs avoir li rivire, avant dÕavoir li fleuve ............. 128 Figure 6.11Ê: Configuration illicite dtecte par le systme .................................................... 128 Figure 6.12Ê: Les diffrentes solutions aux problmes contrastifs. ......................................... 128 Figure 6.13Ê: Le dictionnaire monolingue de PARAX............................................................... 130 Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ................................................... 131 Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois ... 131 Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois ................................................................................................................................................. 132 Figure 6.17Ê: Une entre chinoise correspondant lÕacception Ò#acheter_commerceÓ......... 132 Figure 6.18Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_commerceÓ ............................................................................................................. 133 Figure 6.19Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_corrompreÓ ............................................................................................................. 133 VII. IMPLMENTATION 137 Figure 7.1Ê: Le lien de synonymie interlingue doit se reflter dans le dictionnaire monolingue ................................................................................................................................................. 141 Figure 7.2Ê: Configuration illicite dans le sous-rseau de synonymie englobante Syn∩ ....... 142 Figure 7.3Ê: Configuration illicite dans le sous rseau lexical interdictionnaire de synonymie englobante Syn∩..................................................................................................................... 142 ANNEXE BÊ: INTRODUCTION Ë GRIF 165 Figure B.1Ê: Une instance de document de la classe Anthology ............................................ 168 2 Introduction linguistiques complexes dÕune manire naturelle. Cette approche universelle permet la cration de bases lexicales pour des usages diffrents, automatiques aussi bien quÕhumains. Lorsque lÕon veut construire des bases lexicales comportant de nombreuses langues, une approche interlingue semble sÕimposer. Cependant, les projets EDR et KBMT, fonds sur la connaissance ÒextralinguistiqueÓ du domaine du discours, ont rencontr des problmes thoriques complexes (raffinement des concepts, classification et exceptions, description des conceptsÉ), avec pour consquence un cot lev de dveloppement et des problmes de cohrence. CÕest pourquoi, comme le projet ULTRA, nous avons choisi pour nos applications de privilgier une architecture lexicale interlingue fonde sur les connaissances linguistiques plutt que sur les connaissances extralinguistiques. Le lexique ÒpivotÓ nÕest alors plus form de ÒconceptsÓ (indpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des langues en prsence. Les bases utilisant cette architecture sont appeles Òbases NADIAÓ. Nous avons dvelopp autour de SUBLIM des outils facilitant la gestion de bases NADIA. Dans une base NADIA, on dfinit deux nouvelles classes de dictionnaires hritant des classes monolingues et interlingues de SUBLIM. On introduit aussi de nouvelles mthodes pour leur gestion, ainsi que des Òunits dictionnairiquesÓ (acceptions monolingues, acceptions interlinguesÉ) dont le linguiste hrite pour dfinir son architecture linguistique. Pour que SUBLIM (et a fortiori NADIA) puisse tre utilisable pour dfinir, construire et maintenir des dictionnaires de grande taille, usage ÒmachinalÓ aussi bien quÕhumain, il doit intgrer des outils conviviaux permettant dÕditer, de parcourir et de manipuler des structures complexes dans diffrents modes, textuels et graphiques. Pour cela, nous utilisons Grif, un puissant diteur de documents structurs. LÕutilisation de diffrentes vues dÕune mme structure permet la cration et le formatage dÕun dictionnaire sous diverses formes (textes SGML, formulaires, graphiques, dictionnaires imprimablesÉ). Pour la maintenance, il est galement intressant de visualiser une structure linguistique sous diffrentes formes, avec possibilit de cacher une partie de lÕinformation. Nous dfinissons aussi dÕautres outils facilitant la gestion et lÕexploitation des dictionnaires (vrification de cohrence, import/export, rgles de valeurs par dfautÉ). Ces outils sont organiss au sein dÕune architecture trois niveaux sparant clairement les problmes de stockage, de manipulation et de visualisation. Dans la premire partie de ce document, nous prsentons les travaux qui ont t effectus dans le domaine. Cela nous permet ensuite dÕanalyser les problmes des dictionnaires et dÕvaluer les solutions qui ont t proposs par les auteurs des diffrents systmes. La seconde partie dfinit le projet SUBLIM de systme universel de gestion de bases lexicales multilingues. Nous verrons comment on peut, avec ce systme, dfinir une base lexicale multilingue (en dfinissant lÕensemble de ses dictionnaires et leurs architectures linguistiques). Nous tudierons ensuite lÕarchitecture logicielle et les outils dfinis dans ce systme. Dans la troisime partie, nous spcialisons SUBLIM lÕapproche interlingue par acceptions. Nous exposons les principes de cette architecture lexicale interlingue fonde sur une les connaissances linguistiques. Nous montrons ensuite que cette architecture lexicale est propice lÕutilisation de fonctions lexicales Ò la MelÕcÿukÓ. Nous prsentons enfin PARAX, la maquette dÕune base lexicale utilisant cette approche, et dgageons les caractristiques gnriques de cette approche. Enfin, nous dveloppons lÕimplmentation de NADIA, un gestionnaire de bases lexicales interlingues par acceptions, qui se prsente du point de vue logique et informatique comme un spcialisation du systme SUBLIM. État de l’art et problèmes intéressants la langue que lÕutilisateur peut restituer le type dÕinformation prsent dans un article du dictionnaire. 1.1.2. Un dictionnaire dÕunits complexesÊ: le LOGOS DÕautres dictionnaires monolingues se distinguent par le fait que leur units lexicales sont diffrentes de celles des dictionnaires classiques voqus plus haut. Parmi ces dictionnaires, on peut citer le LOGOS de Bordas. Les entres du LOGOS correspondent des familles de lemmes drivs du mme lemme dÕorigine, conformment des schmas drivationnels rguliers. Cette unit lexicale est note par son lemme dÕorigine. Par exemple, lÕunit lexicale produire regroupe les lemmes produire, producteur, productif, productivit, produit. LÕentre de ce dictionnaire se fait par le lemme origine de lÕunit lexicale. Ainsi, si lÕon cherche le lemme producteur, il faut savoir quÕil appartient lÕunit lexicale produire pour trouver ses informations associes. LÕinformation dÕune unit lexicale du LOGOS est compose de deux partiesÊ: ¥ La liste des sens du lemme vedette, ¥ La liste des drivations de lÕunit lexicale. Pour chaque sens et pour chaque drivation du lemme vedette, on a les mmes informations que dans un dictionnaire classique. De plus, ces informations apparaissent sous une forme analogue. construire v. t. (latin construere, mme sens). ¶ difier ou faire difierÊ: construire une maison, un pont, une digueÉ Ñ (absolument) On construit beaucoup actuellement dans les banlieues des grandes villes; jÕai achet un terrain, car jÕai lÕintention de faire construire. Ñ (par extension) Raliser ou faire raliser (une chose qui suppose un plan pralable et un travail considrable et complexe)Ê: les chantiers navals construisent les navires; construire un alternateur, des camionsÉ · (figur) Composer, former selon un plan ou un systme plus ou moins rigoureuxÊ: construire lÕintrigue dÕun roman, le plan dÕun expos; cette dissertation nÕest pas construiteÊ: nÕa pas de plan logique et net; construire une thorie philosophique. Ñ (spcialement, grammaire) Disposer les mots ou les propositions lÕintrieur dÕune phrase, selon un ordre dterminÊ: construire une phrase, une priode oratoire. Ñ Construire une phrase latine, grecqueÉÊ: disposer les mots quÕelle contient de manire les ordonner selon lÕordre analytique (sujet, verbe, complmentsÉ), avant de la traduire. cf. btir, disposer, dresser, difier, lever, tablir, fabriquer, raliser; agencer, arranger, articulier, assembler, combiner, composer. Ñ ANT. abattre, dmolir, dtruire. u se construire v. pron. 1¡ (sens passif) ætre en cours de constructionÊ: un pont se construit actuellement la sortie du village. Ñ ætre construitÊ: un tel immeuble ne peut se construire en moins de six mois. Ñ (grammaire) Se construire avecÉ, sÕemployer avecÉÊ: le verbe apprendre peut se construire avec suivi de lÕinfinitif (jÕapprends lire). Ñ 2¡ (sens rflchi indirect) É u constructeur, trice n. m. ou adj. 1¡ n. m. Celui qui construitÊ: un constructeur de bateaux, dÕavions; un constructeur-promoteur (voir promoteur). Ñ (figur) Alexandre le Grand fut le constructeur dÕun immense empire. Ñ 2¡ adj. (nologisme) Se dit des ides dont la ralisation permettrait un progrs quelconqueÊ: une proposition constructrice. ¥ N. B.Ê: mieuxÊ: constructif. u constructif, ive adj. Qui est naturellement fait pour construireÊ: une intelligence constructive. Ñ Qui permet de raliser un progrsÊ: un programme constructif. u construction n. f. 1¡ action dÕdifier, de construireÊ: une maison en construction; construction dÕun navire; chantier de construction navale; É Ñ 2¡ Manire dont une chose est construiteÊ: la construction prfabrique permet de rduire le prix de revient des immeubles;É Ñ 3¡ dificeÊ: raser une ancienne construction. Ñ 4¡ (figur) Action de composer, de raliser selon un plan; la manire dont un ouvrage est compos, organisÊ: la construction de lÕintrigue dÕune comdie;É Ñ 5¡ (spcialement, grammaire) Ordre dans lequel les mots se prsentent dans une phraseÊ: la construction allemande diffre de la construction franaise. Ñ É Figure 1.2Ê: LÕunit lexicale complexe ÒconstruireÓ. Cette unit regroupe les lemmes construire, constructeur, constructif et construction 1.2. Thesaurii Les thesaurii sont des dictionnaires de concepts. LÕaccs ce type de dictionnaire ne se fait pas par une forme graphique. Les concepts sont classs selon leur sens dans une hirarchie de concepts utilise pour la recherche. Nous allons tudier deux de ces thesauri. 1.2.1. Le RodgetÕs Thesaurus of English Words and Phrases Le Rodget thesaurus comporte 1000 units. Ces units sont classes selon 39 catgories rparties dans 7 classes. LÕentre de ce thesaurus est un nombre (de 1 1000). Pour accder ce dictionnaire, il faut savoir quelle classe et quelle catgorie appartient lÕarticle recherch. On peut ainsi chercher lÕarticle en question grce une table organise hirarchiquement. Notons que, grce un index, on peut aussi accder un article par un mot qui le dsigne. Un article de ce lexique est reprsent par un entier et par un mot vedette. LÕarticle est ensuite dcompos en catgories linguistiques (nom, verbe, adjectifÉ). Pour chaque catgorie linguistique, on a un ensemble de mots (classs par signification) qui sont lis ce concept. Certains de ces mots apparaissent avec une rfrence un autre concept. Enfin, on a un ensemble de liens vers des concepts smantiquement lis au concept courant. Si on lit le texte dÕun article, on trouve des mots smantiquement lis. Le sens des mots trouvs volue peu peu vers des contextes diffrents. Pour rendre cette transition plus distincte, certains mots sont parfois ajouts comme pointeurs du contexte plutt que comme lments de vocabulaire. 480 Judgment: conclusion N. judgment, judging (see estimate); good judgment, discretion 463 n. discrimination; bad judgment, indiscretion 464 n. indiscrimination; power of judgment, deiscretionary judgment, arbitrement 733 n. authority; arbitration, arbitrage, umpirage; judgment of facts, verdict, finding; penal judgment, sentence 963 n. punishment; spoken judgment, pronouncement; act of judgment, decision, adjudication, award; order, ruling; order of the court 737 n. decree;É estimate, estimation, view 485 n. opinion; assessment, valuation, evaluation, calculation 465 n. measurement; consideration, ponderation; comparing, contrasting 462 n. comparison; transvaluation 147 n. conversion; appreciation, appraisal, appraisement; criticism, constructive c. 703 n. aid; destructive criticism 702 n. hindrance; critique, crit, review, notice, press n., comment, comments, observations, remarks 591 n. dissertation;É estimator, judge, adjudicator; arbitrator, umpire, referee; surveyor, valuer 465 n. appraiser; inspector, inspecting officer, referendary, reporter, examiner 459 n. enquirer; counsellor 691 n. adviser; censor, critic, reviewer, commendator 591 n. dissertator; É Adj. judicial, judicious, judgmatic 463 adj. discriminating; unbiased, dispassionate 913 adj. just; juridical, juristic,É Vb. judge, sit in judgment, hold the scales; arbitrate, referree; hear, try, hear the case, try the cause 955 vb. hold court; uphold an objection, disallow an o.;É estimate, form an e., make an e., measure, calculate, make 465 vb. gauge; value, evaluate, appraise;É Adv. sub judice, under trial, under sentence. See: 147, 438, 449, 462É Figure 1.3Ê: Un article du RodgetÕs thesaurus Les mots en italiques en dbut de paragraphe reprsentent les sous-concepts. La virgule est utilise pour sparer les mots de mme sens. Le point-virgule spare des sens lgrement diffrents. Ce thesaurus se prsente donc comme un rseau de mots, lis smantiquement, et auxquels on accde grce une classification hirarchique de concepts. 1.2.2. Le vocabulaire de traitement de lÕinformation (IFIP & ICC) Le vocabulaire de traitement de lÕinformation de lÕIFIP (International Federation for Information Processing) et lÕICC (International Computation Center) est un dictionnaire terminologique qui se prsente comme un thesaurus. Les articles de ce dictionnaire sont rangs selon 20 catgories, classes dans 6 sections principales. Chacune de ces catgories est dcompose de manire hirarchique en termesÊ: Operation Monadic operation Dyadic operation Logic operation Compare (to) Shift Arithmetical operation Overflow Underflow Binary arith op. Borrow Carry Carry (to) Boolean operation Dual operation Complementary operation Negation Dyadic B. op. Arithmetical shift Logical shift ResultOperand Figure 1.4Ê: Structure hirarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. Chaque terme est associ un symbole compos dÕune lettre (la catgorie) et dÕun chiffre (numro du terme). Les termes sont ensuite dcrits, soit par une dfinition complte, soit en apparaissant lÕintrieur de la dfinition dÕun autre terme. Ainsi, les termes result (G2) et operands (G3) apparaissent dans la dfinition de operation (G1)Ê: G1 G2 G3 OPERATION A general term for any well-defined action, especially the derivation of a unit of data (the RESULT) from one or more given units of data (the OPERANDS), according to defined rules which specify the result for any permissible combination of values of the operands. Note: The term operands is sometimes used collectively for both operands and results since the results will often be operands in subsequent operations. Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation Notons quÕun index permet de retrouver un article du dictionnaire partir dÕun terme. Un article de ce dictionnaire contient une dfinition. On peut aussi trouver des notes ou des exemples illustrant le terme dcrit. La catgorie linguistique des termes nÕest pas indique. Les dfinitions sont donnes de manire prcise plutt que concise. Les termes utiliss dans les dfinitions et dfinis par ailleurs dans le dictionnaire sont indiqus en italiques. Des alternatives au terme sont notes en soulign. 1.3. Dictionnaires bilingues Les entres des dictionnaires bilingues sont quasiment les mmes que celles des dictionnaires monolingues classiques. La diffrence provient des entres composes (pomme de terreÉ) qui ne sont plus considres comme des entres mais comme des parties dÕun article (pommeÉ). Ces entres (les lemmes) donnent accs des traductions des diffrents sens du lemme dans la langue cible. 2.1. Un format de codage : SGML/TEI La Text Encoding Initiative (TEI) tudie un standard de codage et dÕchange de documents textuels. Ce standard se prsente sous forme de recommandations et de structures de documents (pour la prose, les vers, les dictionnaire imprims, les drames, les dictionnaires terminologiquesÉ). Cette initiative est parraine par lÕAssociation for Computers and the Humanities (ACH), lÕAssociation for Computational Linguistics (ACL) et lÕAssociation for Literary and Linguistic Computing (ALLC). Le format TEI est bas sur SGML (Standard Generalized Markup Language). SGML est un standard international (ISO 8879) pour la reprsentation de textes sous une forme lectronique indpendamment de la machine et du systme1. SGML utilise des tiquettes pour structurer les diffrents lments dÕun texte. Ces tiquettes sont notes entre chevrons (exÊ: <paragraph>) et agissent comme des parenthses, lÕtiquette fermante tant note avec un Ò/Ó (exÊ: </paragraph>). Dans certaines conditions, lÕtiquette fermante peut tre omise. Parmi les types de documents qui nous intressent, la TEI a publi des standards pour le codage de dictionnaires imprims et de bases terminologiques ([Sperberg-McQueen & Burnard 1994], chapitres 12 et 13). La structure globale dÕun dictionnaire est analogue celle de textes usuels. On retiendra les lments suivantsÊ: <text>Ê: contient du texte de nÕimporte quelle sorte (structur ou non), <front>Ê: contient tout ce qui se trouve avant le dbut du dictionnaire lui mme (Enttes, page de titre, prface, ddicaceÉ), <back>Ê: contient tout ce qui se trouve aprs la fin du dictionnaire lui mme (AnnexesÉ), <body>Ê: contient lÕensemble du texte du dictionnaire, sauf les parties front et back, <div>Ê: contient une subdivision des parties front, body ou back du dictionnaire, <div0>Ê: contient une subdivision (du plus haut niveau) du dictionnaire, <div1>Ê: contient une subdivision (du niveau infrieur) du dictionnaire, <entry>Ê: contient une entre structure du dictionnaire, <entryFree>Ê: contient une entre non conforme la structure dÕune entre du dictionnaire, <superentry>Ê: groupe les entres dÕun ensemble dÕhomographes. Voici un exemple de structure de dictionnaire conforme aux recommandations de la TEIÊ: <body> <div0 type=‘dictionary’> <!-- English-French --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> <div0> <!-- French-English --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> </body> Les lments entry et entryFree partagent les attributs type (entre standard, homographe, rfrence croise, affixe, abrviationÉ) et cl (une squence de caractres refltant la position alphabtique de lÕentre dans le dictionnaire). 1 Une introduction à SGML est donnée en annexe A. Le format de codage des dictionnaires permet aussi de coder de manire structure les entres dÕun dictionnaire. La dcomposition de lÕentre est effectue grce aux lments suivantsÊ: <hom>Ê: regroupe les informations propres un homographe de lÕentre, <sense>Ê: regroupe les informations propres un sens, <form>Ê: regroupe les informations sur la forme (orthographique et phontique), <gramGrp>Ê: regroupe lÕinformation morpho-syntaxique dÕune unit du dictionnaire, <def>Ê: contient une dfinition, <trans>Ê: contient du texte traduit et les informations associes, <eg>Ê: contient un texte exemple contenant au moins une occurrence de lÕentre, <def>Ê: contient une dfinition, <usg>Ê: contient les informations sur lÕusage, <xr>Ê: contient des rfrences croises, <etym>Ê: contient lÕinformation tymologique, <re>Ê: contient une entre correspondant une unit lexicale lie lÕentre (expression, forme driveÉ), <note>Ê: contient des annotations. Le format de la TEI rend possible une dcomposition plus fine de la structure dÕune entre de dictionnaire imprim. Nous ne dtaillerons pas cette dcomposition ici. Le lecteur pourra se reporter [Sperberg-McQueen & al. 1994]. 2.2. Dictionnaires en ligne: le Collins On-Line La plupart des diteurs proposent aujourdÕhui des versions informatiques de leurs dictionnaires. Ces versions reprennent les donnes et les fonctionnalits des dictionnaires papier. Ces outils sont utiliss en complment dÕun traitement de texte comme aide la rdaction ou la traduction de textes. Leurs fonctionnalits sont assez rduites, puisquÕelles ne permettent en gnral pas dÕautre accs que lÕaccs alphabtique classique du dictionnaire papier. Le Collins On-line, avec ses dictionnaires franais-anglais et anglais-franais, en est un exemple reprsentatif. Cet outil, avec ses dictionnaires, est le reflet du Robert et Collins, prsent plus haut. Figure 1.8Ê: LÕentre ÒcomposerÓ du Collins On-line, version Macintosh La dcomposition en sens et les quivalents sont les mmes. Par contre, la forme est assez diffrente. Les contextes sont nots de manire plus succincte et les informations sont rendues sous forme de liste. En effet, les contraintes sont diffrentes. La prsentation du dictionnaire papier est motive par des contraintes de place, alors que la prsentation du dictionnaire lectronique est motive par des contraintes de lisibilit lÕcran. Des contraintes dÕinterface ont oblig les concepteurs changer lgrement lÕentre du dictionnaire. En effet, le dictionnaire papier utilise le lemme et sa catgorie pour crer une entre, alors que le dictionnaire lectronique nÕutilise que le lemme, les diffrentes catgories tant regroupes dans le mme article. Il est possible dÕaccder rapidement lÕun des mots de la langue source apparaissant dans lÕarticle, en le slectionnant et en appuyant sur une combinaison de touches. Par contre, il nÕest pas possible de faire la recherche rapide dÕun mot de la langue cible dans le dictionnaire inverse. 2.3. Gestionnaires de dictionnaires terminologiques : MTX Termex Le travail des traducteurs professionnels sÕeffectue maintenant en majorit sur support informatique. Il est donc crucial quÕils disposent dÕoutils leur permettant dÕavoir accs aux donnes lexicales sur leur machine, de manire intgre leur environnement de travail. Ces traducteurs tant bien souvent spcialiss dans un domaine ou employs par des entreprises spcialises, ils possdent gnralement leur propre terminologie. Des outils de gestion de dictionnaires terminologiques sont ncessaires, en plus des outils de consultation de dictionnaires classiques. MTX Termex est un outil de ce genre. Il permet de consulter des dictionnaires du commerce, et aussi de crer son propre dictionnaire terminologique ou de modifier certaines entres des dictionnaires du commerce. Avec cet outil, une entre est simplement une chane de caractres. Cette chane peut comporter des blancs et des symboles de ponctuation. LÕinformation associe cette entre est un texte simple. On peut utiliser ce texte comme une structure Òattributs-valeursÓ en notant les attributs entre accolades. Ainsi, on est libre de crer un dictionnaire ayant une structure quelconque. <F1>: Help Choose a command (or <esc>)===> {1} Europe {cap} Sofia {pop} 8 944 000 {lan} Bulgarian {cur} lev {gov} Republic [Bulgaria] MTX (tm) <F8>: Menu <Esc> to exit window File Name Figure 1.9Ê: Un exemple dÕentre dÕun dictionnaire MTX Termex Avec MTX 2, un traducteur peut trs facilement crer un petit dictionnaire terminologique multilingue. Il paut aussi grer les variantes orthographiques dÕune entre en les liant lÕentre vedette. La consultation et la navigation sont elles aussi assez simples (possibilit de crer des rfrences croises, de revenir aux fiches prcdentesÉ). De plus, cet outil est intgr aux traitements de texte usuels (appel et consultation automatique de la slection). 2.4. Un environnement original : le Dicologique Le Dicologique est un produit commercialis par la socit MEMODATA (Caen) et fonctionnant sous DOS et Windows. Cet outil utilise vritablement les avantages de lÕinformatique pour renouveler les moyens dÕaccs au dictionnaire. En utilisant une approche ensembliste du lexique([Dutoit 1992]), il permet un accs par thmes, analogies, idesÉ Le Dicologique regroupe 120Ê000 entres, 25Ê000 concepts et 350Ê000 relations. Les relations se font principalement au travers deÊ: Les informations contenues dans BDLex sont morphologiques et phonologiques. LÕunit lexicale de cette base est le lemme. lemme HG PHON FPH HP CL_PHON NS F CS GN CF nabab 11 /nA/bAb 11 /NA/DAD 2 N Mn 01 nabi 11 /nA/bi 11 /NA/DI 2 N Mn 01 nabot 11 /nA/bo t" 11 /NA/DE 2 N gn 01 nacelle 11 /nA/s&l e 11 /NA/SEL 2 N Fn 81 Figure 1.11Ê: Un exemple dÕentres de BDLex ; (HGÊ: numro dÕhomographe, PHONÊ: phontique, FPHÊ: terminaison phontique, HPÊ: numro dÕhomophone, CL_PHONÊ: classe phontique, NSÊ: nombre de syllabes, FÊ:Êfrquence, CSÊ: classe syntaxique, GNÊ: variation en genre et nombre et CFÊ: classe flexionnelle) Ce dictionnaire est typiquement usage informatique. Les informations telles que le numro dÕhomographe ou dÕhomophone sont particulirement utiles pour grer les problmes dÕambigut lexicale, qui sont cruciaux lors du traitement automatique dÕune langue. De plus, les informations de ce dictionnaire sont codes et difficilement utilisables par un humain. On notera nanmoins que ce codage est relativement simple (structure en colonne, codes mnmotechniques), ce qui explique son succs auprs de nombreux laboratoires. 3.2. Dictionnaires du LADL Le LADL ( lÕUniversit Paris VII) a dvelopp le dictionnaire DELAF, un dictionnaire contenant 600Ê000 formes flchies du franais. Ce laboratoire a aussi dvelopp le dictionnaire DELACF, contenant 150Ê000 formes flchies de mots composs franais. Outre leur taille (qui les place parmi les plus importants dictionnaires franais), le DELAF et le DELACF prsentent un aspect remarquableÊ: leurs entres sont reprsentes par des automates dÕtats finis. Cette structure dÕautomate est utilise diffrents niveaux. Applique au codage des informations morphologiques et syntaxiques dÕune forme flchie, elle permet de reprsenter les diffrentes ambiguts des formes flchies. Y 3 m f P S 1 2 s s passe nom verbe Figure 1.12Ê: Automate reprsentant la forme flchie ÒpasseÓ. Les abrviations utilises sontÊ: m pour masculin, f pour fminin, s pour singulier, 1,2 et 3 pour dnoter la personne, P pour prsent, S pour subjonctif, Y pour impratif. Enfin, elle est utilise pour reprsenter les diffrentes variantes dÕun mot compos. noiresrieladepolicierromanun policier Figure 1.13Ê: Automate reprsentant les diffrentes variantes du mot compos Òun roman policier de la srie noireÓ qui peut se trouver sous les formes Òun srie noireÓ, Òun policier de srie noireÓÉ 3.3. Ariane Le laboratoire GETA (Groupe dÕtude pour la Traduction Automatique) a dvelopp un gnrateur dÕapplications de traduction automatique nomm ARIANE. En dveloppant des applications de traduction, les chercheurs du GETA se sont vite rendu compte que le problme de la gestion des dictionnaires lectroniques tait un problme crucial. Aussi, des outils ont t dvelopps pour faciliter cette gestion. Chaque application de traduction automatique dveloppe sous ARIANE a son propre dictionnaire, clat en divers composants (pour lÕanalyse morphologique ou syntaxique, le transfert lexical ou structural, la gnration syntaxique ou morphologiqueÉ). Chacun de ces composants est exprim dans un format spcialis du langage en charge de la phase de traitement en question. LÕclatement du dictionnaire introduit des problmes de cohrence des informations lexicales rparties dans les divers composants. Aussi, un outil (Visulex) a t dvelopp pour runir et visualiser les diffrentes informations lexicales dÕune application de traduction automatique. Cet outil ne permet de manipuler quÕun couple de langues la fois. Dans une telle base, lÕunit lexicale est une famille de lemmes lis par certaines fonctions lexico-smantiques. Par exemple, les lemmes ÒconstructionÓ, ÒconstructifÓ, ÒconstruireÓ, ÒreconstruireÓ appartiennent tous une mme unit lexicale note Òconstruire-VÓ. Visulex gnre deux niveaux de fichiers pour le linguiste. Le premier niveau donne lÕensemble des commentaires associs une unit lexicale. Le second niveau donne le dtail des informations linguistiques associes une unit lexicale, sous la forme o on les trouve dans les dictionnaires dÕapplications. Commentaires et informations dtailles sont donns de manire structure. Un article de Visulex contient notamment un contexte, une morphologie, des dtails sur les lments du contexte et une liste dÕquivalents (avec des conditions de choix). -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' --cmt?-- --morphologie-- --cmt?-- FORME COMPLETE DE PARTICIPE PASSE FLECHISSABLE GEGANGEN- PARADIGME 09 INCLUS DANS 01(LEG) SAUF POUR -T QUI NE ... PEUT FAIRE LE PARTICIPE PASSE GEH- PARADIGME 29, DESINENCES -0, -E, -EN, -EST, -ET, -ST, -T GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' --cmt?-- 0:'GEHEN' --cmt?-- … --equivalents-- --------------- 'ALLER' 'ALLER' VERBE SANS AUCUNE RECTION DONNEE, EX: 'MARCHER' --cmt?-- --si: --cmt?-- '''AILL' BASE ACCEPTANT LES DESINENCES DE L'IMPARFAIT,DU... PRESENT SUB --si: --cmt?-- '''IR' --cmt?-- --si: --cmt?-- 'VAIS' --si: --cmt?-- 'VAS' --si: --cmt?-- 'VA' --si: --cmt?-- 'VONT' --si: --cmt?-- '''ALLER' TABLE+S --sinon: '''ALL' COUP+ER,E,EUR,ANT -------------------------------------------------------------- -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' IST:SUBV:=SEIN --morphologie-- VIDE: FCPPA:KMS-E-VB-U-ADJ,MT-E-PPA,SUBADJ-E-RSTA GEGANGEN- WSING:KMS-E-VB GEH- WFIEL:KMS-E-VB GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' VID: 0:'GEHEN' IST:SUBV:=SEIN … --equivalents-- --------------- 'ALLER' 'ALLER' VB: R3:AX:=ETR,RFRUS:=SUPPR --si: SUBJ3:MOD-E-SUB-ET-TF-E-PRE-ET-NUM-E-SIN-OU-MOD... -E-SUB-ET-TF-E-PRE-ET-P-E-3 '''AILL' VERBE:PGMV-E-VERBE --si: FUT:TF-E-FUT-OU-MOD-E-CDL '''IR' AUR:PGMV-E-FUTUR --si: SUIS:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-SIN-ET-P-E-1 'VAIS' --si: DUEPRE:P-E-2-ET-TF-E-PRE-ET-NUM-E-SIN 'VAS' --si: SAI:NUM-E-SIN-ET-TF-E-PRE-ET-MOD-E-IND-OU-MOD-E... -IMP-ET-NUM-E-SIN 'VA' --si: SONT:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-PLU-ET-P-E-3 'VONT' --si: NVBMAS:CPRD-E-VBACT-ET-CAT-E-CATN-ET-GNR-E-MAS '''ALLER' MOT:FLXN-E-MOT --sinon: '''ALL' V1AFE1:FLXV-E-AIMER,DRNV-E-FEME1 -------------------------------------------------------------- Figure 1.14Ê: Exemple dÕarticle gnr par Visulex Visulex rassemble des informations disperses dans les nombreux dictionnaires des diffrents composants dÕune application linguistique. Il est ainsi possible de consulter les informations lies une unit lexicale pour retrouver la source dÕventuelles erreurs de traduction. Par contre, la modification des dictionnaires ne peut se faire quÕau travers dÕARIANE, composant par composant. Nanmoins, lÕoutil Visulex est un premier pas vers la cration dÕune base lexicale spcialise pour la Traduction Automatique. 3.4. BDTAO BÕVITAL utilise le systme ARIANE pour construire des applications de traduction automatique industrielles. Pour cela, cette entreprise a dvelopp une base lexicale rutilisable (BDTAO) partir de laquelle il est possible de gnrer des composants du dictionnaire de lÕapplication, au format ARIANE. Cette base lexicale est spcialise pour la traduction automatique, mais elle est indpendante dÕune application de traduction particulire. Une mme base peut tre utilise pour lÕanalyse et la gnration. De plus, les entres terminologiques sont rversibles en transfert. BDTAO contient des dictionnaires Òen fourcheÓ (1 langue source -> n langues cibles). Comme dans les bases Visulex, lÕunit lexicale est une famille de lemmes lis par certaines fonctions lexico-smantiques. Les informations linguistiques sont codes dans une structure Òattribut-valeurÓ plate. Cette structure est spare en deux sections. La premire contient lÕinformation monolingue, la seconde contient diffrentes traductions de lÕentre dans diffrentes langues, avec ventuellement des conditions guidant le choix. *ADJECTIF 001 prochain 002 COU 101 S 103 ES 105 E 107 O 504 SXA 990 - prochainement = bientôt, dans un 990 proche avenir 99D 22/03/88 99A IM $CODE $UL PROCHAIN -A $PH AM 1 29/09/88 $AM PROCHAIN ADJ1 Z000154 Figure 1.15Ê: Une entre lexicale de BDTAO BDTAO est une vritable base lexicale spcialise. En effet, toute modification ou cration dÕinformation lexicale se fera dans ce format. On peut ensuite gnrer des dictionnaires spcialiss pour chacun des composants dÕune application linguistique sous ARIANE. Un tel outil simplifie grandement la gestion des dictionnaires dÕapplication puisque la consultation et la modification se font un mme endroit et dans un format simple. Les noms des attributs ne dpendent pas des noms des variables utilises dans les grammaires des applications lexicales envisages. Cette indpendance de BDTAO vis--vis dÕune application particulire permet dÕutiliser une base lexicale pour plusieurs applications diffrentes. LÕindexage de cette base lexicale est fait en utilisant des bordereaux dÕindexage o le lexicographe rpond des questions simples sur lÕentre en question. De plus, BÕVITAL a construit un outil permettant de rcuprer les informations lexicales des applications de traduction dveloppes antrieurement BDTAO. 3.5. METAL Pour son gnrateur de systmes de Traduction Automatique (METAL 3.0), SIEMENS a dvelopp des outils pour faciliter la manipulation des dictionnaires. Il y a deux types de dictionnaires sous METAL 3.0Ê: les dictionnaires monolingues et les dictionnaires de transfert. Les structures des entres de ces dictionnaires sont des structures de traits plates. Les traits des dictionnaires de transfert sont fixs pour chaque paire de langues. Les traits des dictionnaires monolingues sont dfinis pour chaque langue par un fichier de description. Une entre de dictionnaire METAL est un ensemble de traits avec leurs valeurs. Les valeurs de ces traits peuvent tre de lÕun des types suivantsÊ: 1. Le Lexicaliste Le Lexicaliste est un systme de gestion de bases lexicales monolingues dvelopp et commercialis par la socit SITE. 1.1. Vue générale du système Le Lexicaliste sÕappuie sur une description des entres du lexique. Un article est un arbre dcor dont la racine correspond lÕentre du dictionnaire (lemme) et les nÏuds aux diffrents sens de lÕarticle. Les dcorations sont des structures attributs-valeurs simples portes par les diffrents sens de lÕarticle. sense 0 sense 1 sense 2 sense 2.2sense 2.1sense 1.1 sense 1.2 category: verb conjugation: V27 Morphological information … Misc. information Semantic information Syntactical information 2/2 hyphen: ap-pren-dre … definition: "S'instruire" example: "Apprendre à faire du piano" … Syntactical information 1/2 auxiliary: avoir transitivity: intransitive prop.gov.: à <infinitive> Apprendre = Figure 2.1Ê: Une entre de dictionnaire cre par Le Lexicaliste Le linguiste dfinit les attributs (et les valeurs) qui sont utiliss dans une base lexicale particulire. Cette description est appele ÒrfrentielÓ. Il peut aussi donner des proprits (attributs monovalus, multivalus, relations acycliquesÉ) sur les attributs de la base. Ces proprits sont contenues dans le Òmta-rfrentielÓ. Meta-rfrentiel Rfrentiel Dcrit les proprits des attributs dfinis dans le rfrentiel Base lexicale Dcrit la structure des articles de la base lexicale Figure 2.2Ê: lments de la dfinition dÕun dictionnaire Les attributs sont spars en 5 catgories distinctes: - attributs des lemmes (exÊ: catégorie), - attributs des sens (exÊ: transitivité, définition), - attributs des rgles flexionnelles (exÊ: nombre, genre), - relations lexicales (exÊ: abréviation, dérivation), - relations smantiques (exÊ: hyperonymie, synonymie). Lorsque ce travail de dfinition a t accompli, les tables SQL et lÕinterface sont automatiquement gnres par le systme. 1.2. Réseau lexical et sémantique Le systme gre deux types de relations, qui dfinissent deux rseaux diffrents lÕintrieur du dictionnaireÊ: - les relations lexicales, dfinies sur un ensemble de sens de mots, - les relations smantiques, dfinies sur un ensemble de concepts. Une relation lexicale relie deux sens de mots au niveau lexical. Par exempleÊ: - ÒapptÓ est-abreviation-de ÒappartementÓ, - ÒclefÓ est-variante-orthographique-de ÒclÓ - ÒapprentissageÓ est-nominalisation-de ÒapprendreÓ. Les relations lexicales relient les diffrents sens des lemmes, et non diffrents lemmes. Cela permet par exemple de relier les deux sens diffrents de ÒblanchirÓ leur nominalisation ÒblanchissageÓ et ÒblanchimentÓ). On aura doncÊ: - ÒblanchissageÓ est-nominalisation-de Òblanchir-1Ó, - ÒblanchimentÓ est-nominalisation-de Òblanchir-2Ó. Une relation smantique relie deux concepts au niveau smantique (au sens de la rfrence au monde rel)Ê: - ÒchaiseÓ est-un ÒmeubleÓ, - ÒpoissonÓ a-connotation-avec ÒmerÓ, - ÒmalariaÓ est-synonyme-de ÒpaludismeÓ. Chaque sens de mot peut tre associ un concept par un attribut particulierÊ: le prdicat smantique. Rciproquement, chaque concept peut tre associ un ou plusieurs sens de mot. 1.3. Vérifications de cohérence et valeurs par défaut Pour simplifier la maintenance et lÕindexage dÕun dictionnaire, le linguiste dispose dÕun langage spcialis avec lequel il peut dfinir des contraintes sur certains des attributs dÕun article. Ces contraintes sont utilises de deux manires pourÊ: - Vrifier la cohrence dÕun article (dj index dans le dictionnaire), - Attribuer des valeurs par dfaut certains attributs dÕun article en cours de cration. Avec ce langage, le linguiste peut par exemple exprimer les contraintes suivantesÊ: - un verbe pronominal prend lÕauxiliaire ÒtreÓ, - un verbe impersonnel nÕa pas de forme passive, - lÕattribut transitivité prend la valeur directe pour les verbes se terminant en ÒiserÓ (cette valeur par dfaut sera propose), - lÕattribut conjugaison dÕun verbe se terminant par ÒgerÓ prend la valeur V1 ou V2. Voici un exemple de ces contraintesÊ: DECL-MESSAGES msg-aux "l'attribut auxiliaire n'est pas défini" msg-transit "l'attribut transitif n'est pas défini" msg-transObj2 "l'attribut transObj2 doit être défini" msg-frmPassif "l'attribut frmPassif doit être défini" DECL-CONTRAINTES // Syntactic attributes for verbs SI cat = verb ALORS // the default auxilary is “avoir” (to have) aux DEFINI DEFAUT {avoir} MESSAGE msg-aux // if the verb ends with “ter”, the conjugation is // V3 or V3H or V3Q (default V3). si cle = "*ter" alors mm dans { V3, V3H, V3Q } defaut V3 FSI // An intransitive verb does not admit passive (by default) SI transit = intrans ALORS passiv DEFAUT non FSI FSI 2. EDR Le plus grand projet mondial de construction dÕune base lexicale multilingue a dbut Tokyo le 26 avril 1986. DÕune dure de 9 ans, ce projet a impliqu 1200 hommes-annes pour un cot total de 14 milliard de Yens (environ 750 MF). Au terme de son contrat, EDR a atteint ses objectifsÊ: la construction dÕune base lexicale anglais-japonais utilisable par des systmes de traduction automatique. Les dictionnaires anglais et japonais comportent 300Ê000 entres chacun (200Ê000 en vocabulaire gnral et 100Ê000 en vocabulaire terminologique). EDR a aussi dcrit 640Ê000 concepts correspondant ces entres. La base lexicale comporte enfin deux dictionnaires bilingues (1 par sens) de 300Ê000 entres et deux corpus (anglais et japonais) de 250Ê000 phrases analyse. Ces corpus comportent aussi 20 millions de phrase Japonaises et 10 millions de phrases anglaises. EDR est avant tout un projet industriel visant la construction dÕune base lexicale de grande taille. Cet objectif nÕa pu tre atteint quÕau prix dÕune simplification des structures linguistiques prsentes dans les dictionnaires. Nanmoins, ces dictionnaires sont suffisamment complets pour tre utiliss comme une source de donnes lexicales par de nombreux systmes de traduction dvelopps au Japon. 2.1. Architecture lexicale Le projet EDR a dlibrment adopt une approche mixte o lÕon trouve un dictionnaire interlingue et des dictionnaires bilingues. Les dictionnaires de mots (anglais et japonais) sont diviss en deux parties. La premire contient environ 200Ê000 termes gnraux, et la seconde contient environ 100Ê000 termes techniques (dans le domaine du traitement de lÕinformation). Ces dictionnaires contiennent les informations grammaticales sur les entres et les concepts auxquels elles sont associes. Le dictionnaire de concepts regroupe 640Ê000 concepts, parmi lesquels, 100Ê000 proviennent des entres terminologiques et sont communs aux deux langues. Par ailleurs, 60Ê000 concepts sur environ 300Ê000 concepts issus de chaque dictionnaire gnral sont communs aux deux langues (Ch. Boitet, communication personnelle). Le correspondant en langue cible dÕune entre en langue source est une liste dÕentres du dictionnaire de langue cible, moins quÕune flexion particulire ne soit ncessaire lors de la traduction. Les quivalences entre langues nÕtant gnralement pas parfaites (nuances entre les concepts recouverts par un mot et sa traductionÉ), on donne la relation de correspondance qui existe entre lÕentre et son quivalent. Il existe 5 relations de correspondanceÊ: ¥ quivalenceÊ: les concepts recouverts par lÕentre et sa traduction sont quivalents, ¥ sous-relationÊ: le concept de lÕentre est plus large que le concept de sa traduction, ¥ super-relationÊ: le concept de lÕentre est un sous-concept de celui de la traduction, ¥ synonymieÊ: la diffrence entre les concepts est minime, ¥ remarqueÊ: le correspondant est une transcription de lÕentre. Dans ce cas, une explication est donne en information supplmentaire. Entres Relations de correspondance Correspondances quivalence dog left quivalence annihilation sous-relation sous-relation <explanation> circuitous allege super-relation super-relation (in) other words abbey synonymie ameer remarque remarque ebosikago [bamboo hand-basket]Ê? Figure 2.10Ê: Un exemple dÕentres de dictionnaire bilingues LÕexplication supplmentaire est indique entre chevrons(<>), parenthses (()) ou crochets ([]) suivant que lÕon a affaire (respectivement) une sous-relation, une super-relation ou une remarque. 2.3. Dictionnaire de concepts Dans les trois phrases suivantesÊ: ¥ Un lphant apparat, ¥ Un lphant nÕoublie jamais, ¥ LÕlphant est une espce en danger, le mot lphant renvoie tour tour un individu de lÕespce des lphants, un prototype dÕlphant ou lÕespce des lphants. Nanmoins, ce mot rfre quelque chose de commun chacun de ces usages. Ce quelque chose est le contenu smantique du mot lphant. La mme remarque sÕapplique au mot japonais z., qui a le mme contenu smantique que le mot lphant. Le contenu smantique dÕun mot, ainsi dfini, est reprsent par un lment du dictionnaire de concepts (un concept). Un concept (correspondant un mot) a une identificateur unique. Ainsi, le concept correspondant lphant a lÕidentificateur <3bf246>. Nanmoins, comme il nÕy a pas de possibilits de confusion (polysmieÉ), ce concept est aussi appel Òconcept lphantÓ et not ÇlphantÈ. Dans le dictionnaire de concepts, lÕidentificateur est accompagn dÕune illustration (une phrase en anglais et en japonais) qui permet lÕutilisateur de connatre le concept quÕil manipule. Le plus important travail de recherche, dÕindexage et de maintenance a t effectu sur le dictionnaire de concepts. Ce dictionnaire est dcompos en deux parties. Dans la premire partie, les concepts sont dcrits par un ensemble de relations quÕils entretiennent entre eux. Dans la seconde partie, les concepts sont classifis hirarchiquement. 2.3.1. Description des concepts EDR a rejet lÕapproche consistant dcrire un concept lÕaide de concepts de base plus simples. Aussi, chaque unit smantique, correspondant un mot ou une expression complexe, sÕexprime par un concept (que lÕon peut identifier et manipuler), et ce, mme si la smantique de ce concept peut se traduire par une description base de concepts plus simples. La description des concepts se base sur un ensemble de relations quÕils entretiennent entre eux. EDR a retenu 24 relations et 50 attributs (relations unaires) pour cette descriptionÊ: agent sujet dÕune action volontaire. Les entits conscientes ou automatises peuvent tre de tels sujets. Òun animal mangeÓ ÇmangerÈ ÑÊagentÊ→ ÇanimalÈ a-object attribut dÕun objet Òles tomates sont rougesÓ ÇrougeÈ ÑÊa-objectÊ→ ÇtomateÈ object objet affect par une action ou un changement Òmanger de la viandeÓ ÇmangerÈ ÑÊobjectÊ→ ÇviandeÈ cause la cause Òmort de froidÓ ÇmortÈ ÑÊcauseÊ→ ÇfroidÈ implement instrument ou moyen dans une action volontaire Òcouper avec un couteauÓ ÇcouperÈ ÑÊimplementÊ→ ÇcouteauÈ material composant matriel ou structurel Òfait avec du laitÓ ÇfaireÈ ÑÊmaterialÊ→ ÇlaitÈ source sujet dÕun vnement ou position ou condition initial dÕun objet Òvenir de TokyoÓ ÇvenirÈ ÑÊsourceÊ→ ÇTokyoÈ goal sujet dÕun vnement ou position ou condition finale dÕun objet Òaller TokyoÓ ÇallerÈ ÑÊgoalÊ→ ÇTokyoÈ place lieu o se tient un vnement Òjouer dans la chambreÓ ÇjouerÈ ÑÊplaceÊ→ ÇchambreÈ scene contexte dans lequel un vnement a lieu Òjouer dans un drameÓ ÇjouerÈ ÑÊsceneÊ→ ÇdrameÈ manner manire dont se passe une action ou un changement Òparler lentementÓ ÇparlerÈ ÑÊmannerÊ→ ÇlentementÈ time instant o se passe un vnement Òse lever lÕheureÓ Çse leverÈ ÑÊtimeÊ→ Ç lÕheureÈ time-from instant o dbute un vnement Òje travaille depuis le matinÓ ÇtravaillerÈ ÑÊtime-fromÊ→ ÇmatinÈ time-to instant o se termine un vnement Òje travaille jusquÕau soirÓ ÇtravaillerÈ ÑÊtime-toÊ→ ÇsoirÈ quantity quantit de chose, dÕaction ou de changement Òun kilo de pommesÓ ÇpommesÈ ÑÊquantityÊ→ ÇkiloÈ number nombre Ò3 kilosÓ ÇkiloÈ ÑÊnumberÊ→ Ç3È condition relation de condition entre vnements ou circonstances Òaller pleurerÓ ÇallerÈ ÑÊconditionÊ→ ÇpleurerÈ cooccurrence relation simultane entre vnements ou circonstances Òpartir en pleurantÓ ÇpartirÈ ÑÊcooccurrenceÊ→ ÇpleurerÈ purpose but dÕune action Òaller voirÓ ÇallerÈ ÑÊpurposeÊ→ ÇvoirÈ sequence relation temporelle squentielle entre vnements ou circonstances Òsauter et frapperÓ ÇsauterÈ ÑÊsequenceÊ→ ÇfrapperÈ basis base de comparaison Òles roses plus belles que les lilasÓ ÇrosesÈ ←Êa-objectÊÑ ÇbeauÈ ←ÊobjectÊÑ ÇplusÈ ÑÊbasisÊ→ ÇbeauÈ ÑÊa-objectÊ→ ÇlilaÈ and relation de conjonction entre concepts Òvisiter Rome et VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇRomeÈ ÑÊandÊ→ ÇVeniseÈ) or relation de disjonction entre concepts Òvisiter Rome ou VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇÇRomeÈ ÑÊorÊ→ ÇVeniseÈ) modifier autres relations Ë ces 24 relations sÕajoutent 4 Òpseudo-relationsÓ, qui sont des relations dfinies en fonction des autres relations. Ainsi, la pseudo-relation possessor est dfinie comme suitÊ: possessor ÑÊpossessorÊ→ ≡ ←ÊobjectÊÑÊÇownÈÊÑÊagentÊ→ Les pseudo-relations sontÊ: possessor relation de possession Òle chien de TomÓ ÇchienÈ ÑÊpossessorÊ→ ÇTomÈ beneficiary bnficiaire dÕun vnement ou dÕune circonstance Òutile aux personnesÓ ÇutileÈ ÑÊbeneficiaryÊ→ ÇpersonnesÈ from-to porte, chemin,ÊÉ Òun tiquet dÕOsaka TokyoÓ ÇtiquetÈ ÑÊmodifierÊ→ (ÇÇOsakaÈ ÑÊfrom-toÊ→ ÇTokyoÈ) unit lÕunit Ò500 yens pour une douzaineÓ ( Ç1È ←ÊnumberÊÑ ÇdouzaineÈ ) ←ÊunitÊÑ (Ç yensÈ ÑÊnumberÊ→ Ç500È ) Les attributs sont dfinis comme des relations unaires sur les concepts. EDR a dfini 50 attributs rpartis comme suitÊ: Attributs qualifiant lÕobjetÊ: all Tous les objets some Un nombre non spcifi dÕobjets specific Des objets spcifis generic Objets avec des caractristiques gnrales Attributs indicateur de tempsÊ: past Le point de vue est dans le pass present Le point de vue est dans le prsent future Le point de vue est dans lÕavenir Attributs de relativitÊ: begin Dbut dÕune action ou dÕun vnement end Fin dÕune action ou dÕun vnement progress Une action ou un vnement est en cours continue Une action rptitive ou un vnement rptitif est en cours state Une action ou un vnement est termin et un tat ou rsultat est atteint complete Toutes les actions ou tous les vnements sont termins yet NÕa pas encore eu lieu already A dj eu lieu soon Aura lieu bientt just Vient dÕavoir lieu come On approche du moment auquel pense le locuteur go On sÕloigne du moment auquel pense le locuteur Attributs dnotant lÕintention du locuteurÊ: imperative Un ordre interrogation Une question exclamation Une exclamation invite Une invitation rumor Une rumeur respect Avec respect polite Avec politesse require-agreement Demande agrment ou confirmation thought Une pense conclude Une conclusion sure Infrence partir dÕune situation maybe Infrence dÕune ventualit seem Infrence ou supposition recommend Une recommandation grant Une permission grant-not Un refus de permission underestimate Une sous-estimation duty Une obligation should Une quasi-obligation sufficiency Suffisance consent Un consentement pity Dsappoint be-sorry Avec remords appearance Circonstance ou comparaison natural-result Rsultat naturel dÕun vnement ou dÕune circonstance advise Avis ou recommandation donne par lÕauteur natural-thing Forme idale, ce qui devrait tre blame Un blme if Spculation sur quelque chose dÕincertain reality La ralit unexpected Inattendu, imprvisible GENELEX a choisi de coder ses dictionnaires dans un format entits-attributs-relations. Ce choix permet de visualiser un unit lexicale comme un graphe. Cela permet aussi de placer chaque lment dÕinformation sur un pied dÕgalit (i.e. aucun nÏud nÕest privilgi lors des recherches, alors quÕune structure en arbre privilgierait la racine). GENELEX a produit un dictionnaire public dÕenviron 3000 termes. Par ailleurs, les participants au projet ont transform leurs dictionnaires privs au format dfini par le consortiumÊ: Hachette 55Ê000 termes Notre temps 60Ê000 termes + 25Ê000 noms propres SEMA Group 70Ê000 units morphologiques IBM 50Ê000 units morphologiques GSI-ERLI 68Ê000 units morphologiques simples et 15Ê000 units morphologiques composes 3.1. Le modèle conceptuel de GENELEX Le modle conceptuel de GENELEX dfinit le formalisme de haut niveau dans lequel un linguiste peut exprimer sa thorie linguistique. Ce formalisme de haut niveau doit tre indpendant du stockage effectif des donnes. GENELEX doit reprsenter les diverses descriptions existantes, compte tenu de ce quÕelles dpendront du modle thorique, du degr de finesse et des critres discriminants retenus par le lexicographe, et ce, quelle que soit son cole. Cela aura des rpercutionsÊ: - au niveau morphologique, - au niveau du comportement syntaxique des units lexicales, - au niveau smantique, - au niveau des inter-relations entre les diffrentes informations codes. Ces diverses descriptions apparatront soit dans plusieurs instances de dictionnaires, soit dans une seule et mme instance construite par fusion de toutes les autres. Le formalisme descriptif de Genelex est donc dvelopp pour pouvoir contenir chacune des thories en usage. Il fonctionne donc comme un pont entre les diffrentes thories linguistiques. Le modle conceptuel GENELEX a t largement exprim au travers de modles entits- attributs-relations (Merise). Beaucoup de contraintes dÕintgrit sont exprimes dans ce formalismeÊ: typage des objets, typage des relations, cardinalit des relations, etc. Cependant, ce modle nÕest pas fait pour exprimer des rgles. Aussi, certaines contraintes ont d tre exprimes dans le document dÕaccompagnement (restriction sur les combinaisons de valeurs). Il sÕensuit que le modle conceptuel de GENELEX combine lÕutilisation du formalisme entits-attributs-relations et de commentaires en langage naturel. Comme nous lÕavons dj mentionn, le formalisme de GENELEX se veut indpendant du stockage effectif des donnes. Cela permet chaque membre du consortium GENELEX de construire ses propres outils sur la plate-forme de son choix. Un format dÕchange est donc ncessaire pour assurer la compatibilit des diffrents outils. Le consortium GENELEX a choisi SGML (Standard Generalized Markup Language) comme format dÕchange. SGML est un langage de description de documents (cf. annexe A) qui permet de dcrire la structure et le contenu dÕun ensemble de documents. La structure dÕun document est donne par une DTD (Document Type Definition). GENELEX a donc traduit son modle conceptuel en un modle physique en construisant une DTD. Certaines des contraintes alors exprimes en langage naturel ont pu tre exprimes formellement dans la DTD. Les autres contraintes apparaissent sous forme de commentaires. 3.2. Vue générale d’une unité du lexique Comme lÕensemble des informations dÕun dictionnaire Genelex, chaque unit du lexique peut tre vue sous forme de graphe. Les units sont organises selon trois couchesÊ: units morphologiques (UM), units syntaxiques (USyn) et units smantique (USm). Nous donnons en figure 2.14. lÕarticulation globale dÕune unit du lexique. Graphie UMG MFG Phonie UMP MFP se prononce Unit Morphologique UMS, UMC, UM_AFF drivation, forme brve, autonomie, composition forme graphique forme phonique syntaxe 0,n 1,1 Unit syntaxique simple USynt smantique 0,n 1,n Unit smantique USm, traits componentiels, relations Abstraction Concept Structure prdicative Prdicat smantique Structure syntaxique self, construction, position, É correspondance d'arguments Unit syntaxique compose composition Description de base transformation transformation Description de base struct. interne struct. transf. smantique Figure 2.14Ê: LÕarticulation globale dÕune unit du lexique Une unit du lexique comprend donc une unit morphologique. Cette unit morphologique est relis 0, 1 ou plusieurs units syntaxiques simples. LÕunit syntaxique, par contre, nÕest relie quÕ une et une seule unit morphologique. Dans le cas dÕexpressions composes, lÕunit morphologique est relie plusieurs units syntaxiques simples (celles des composants), elles-mmes lies une unit syntaxique complexe (dcrivant le comportement syntaxique global du compos). Une unit syntaxique simple est relie 0, 1 ou plusieurs units smantiques. LÕunit smantique est lie de manire biunivoque un concept et une structure prdicative. On connat aussi la correspondance entre les arguments du prdicat et les lments syntaxiques de lÕunit. LorsquÕune unit smantique est associe plusieurs units syntaxiques, celle-ci sont simples et proviennent de la mme unit morphologique. Avec ce schma, il est possible de crer des dictionnaires nÕayant que des informations morphologiques, nÕayant que des informations morphologiques et syntaxiques ou ayant des informations morphologiques, syntaxiques et smantiques. 3.3. Le modèle morphologique Le modle morphologique dfinit une unit morphologique (UM) et donne sa structure. Une unit morphologique est le point dÕentre de la couche morphologique et le point de passage vers les autres couches. Une unit morphologique est un regroupement de mots bas sur des proprits morphologiques. Elle est identifie par son lemme graphique et/ou par son lemme phontique. La forme lemmatise est la forme singulier sÕil y a variation en nombre, masculin sÕil y a variation en genre, et infinitif pour les verbes. Dans certains cas, il est difficile de savoir si lÕon a affaire plusieurs units morphologiques ou une seule. Pour cela, GENELEX a dfini des critres formels dÕclatementÊ: - si deux catgorie grammaticales peuvent tre associes une forme lemmatise, on considre quÕon est en prsence de deux lemmes distincts. Par exempleÊ: autiste (nom) et autiste (adjectif). On note cependant la difficult distinguer certaines catgorieÊ: nom/adjectif, participe pass/adjectif, participe prsent/adjectif. - si la variation en genre dÕun nom reflte une variation smantique (mise part le changement de sexe), on considre que lÕon est en prsence de deux units morphologiques distinctes. Par exempleÊ: un page/une page, un colonel/une colonelle (la colonelle est la femme du colonel, pas un colonel fminin). - si deux significations trs distinctes (sans lien tymologique ou rhtorique) peuvent tre associes une forme lemmatise, on considre que lÕon est en prsence de deux lemmes distincts. Par exempleÊ: fraise, pole. LÕapplication de ce critre est laisse au lexicographe. On ne peut malheureusement pas toujours dterminer si certains de ces critres sÕappliquent ou non. GENELEX a dfini cinq types dÕunits morphologiquesÊ: - UM simpleÊ: une UM simple est associe une graphie (plusieurs en cas de variantes) constitue dÕune suite de caractres alphabtiques, de sparateurs (tiret, apostrophe, point) et de la marque ventuelle dÕhyphnation. Par exempleÊ: demain, aprs-demain, aujourdÕhui. - UM affixesÊ: une UM affixe peut tre de type prfixe, infixe ou suffixe, ou encore sans type dans le cas o elle ne prend son statut quÕen contexte de drivation ou composition. Par exemple, -tion (suffixe), re- (prfixe), et gyne (sans type dÕaffixe), qui donne androgyne et gyncologue. - UM drivesÊ: une UM drive est une unit morphologique simple qui entretient des liens de drivation avec dÕautres units morphologiques (simples ou affixes). Ces units grand dam, dans le but de P[mode: infinitif] -> dans ce but). De plus, on peut mentionner les processus dÕeffacementÊ: fil de fer barbelé -> fil barbelé -> barbelé. P P0 P1 P2 P3 C = PRO [lex : il] [sscat : impersonnel] V [ssCatSyn : copule] SADJ P (P0) SELFsyntagme rcritÊ: SADJÊ: ou P P P0 P1 PPrep [lex: de] P0: vide P1 SV[mode: infinitif] P0 P1 P [mode: subjonctif]CONJ [sscat: subord.] [lex: que] SELF = intressant (adjectif) Figure 2.16Ê: Description de base associe lÕentre ÒintressantÓ (adjectif) La figure 2.17. donne un exemple de construction syntaxique pour une USyn compose. LÕinteraction entre composants et arguments ou modifieur y est dcrite (insertion dÕun argument entre les composants, par exemple). CB: P P0 SELF P1 SN SN SELF: IntervConst: V Syntagme NT S: SV P0 IO P1 V [RefLex: mettre] SP [prep: en] [RefLex: Ïuvre] cb.P1 SN mettre SN en Ïuvre Figure 2.17Ê: Description de lÕUSyn compose Òmettre en ÏuvreÓ 3.5. Le modèle sémantique Vu le faible niveau de consensus dans la communaut scientifique en ce qui concerne la formalisation des connaissances smantiques, GENELEX propose un mta-modle instancier plutt quÕun modle implmenter directement sur les donnes lexicales. Dans cet esprit, Genelex a clairement spar la smantique en deux niveauxÊ: - un niveau de reprsentation smantique linguistiqueÊ: cette reprsentation, trs proche de la langue, est construite principalement partir de lÕobservation du lexique en contexte et des relations smantiques entre lments du lexique. Ce niveau regroupe les informations smantiques fines ncessaires la traduction automatique de qualit ou la gnration, la comprhension automatique de texte pour gnration de rsumÉ). - un niveau de reprsentation smantique conceptuelleÊ: cette reprsentation, issue des courants de lÕintelligence artificielle, est dÕune plus grande ÒabstractionÓ. elle sÕappuiera sur des primitives, associes un formalisme de reprsentation des connaissances. La profusion de thories que GENELEX souhaite pouvoir coder dans son modle lÕa men choisir une approche plus multi-thorique que a-thorique. LÕunit smantique permet dÕaccder lÕensemble des informations smantiques correspondant une certaine acception dÕune entre. LÕunit smantique dcrit donc le sens dÕune unit morphologique dans un contexte syntaxique donn. DÕautre part, une unit syntaxique, et donc implicitement lÕunit morphologique dont elle est issue, peut tre associe plusieurs units smantiques. Les relations entre les diffrents modles de GENELEX nous donnent donc une structure illustre par lÕexemple de la figure 2.18. Unit morphologique Unit syntaxique Unit smantique Unit syntaxique Unit syntaxique Unit syntaxique Unit smantique Unit smantique Unit smantique Unit smantique Unit smantique Figure 2.18Ê: Un exemple de relations entre les diffrents modles GENELEX Pour tablir la correspondance entre syntaxe et smantique, Genelex introduit la notion de prdicat. Toute unit smantique peut-tre associe un prdicat. Il est ainsi possible de noter les liens entre les diffrentes positions (en syntaxe) et les arguments du prdicat (en smantique). Ë chaque argument dÕun prdicat est associe une information smantique en terme de traits ou de rle smantique. On peut aussi lui associer une valeur par dfaut, afin de traiter les cas o lÕargument est absent en surface. Enfin, il est possible dÕtablir des relations entre les diffrentes units smantiques du dictionnaire. Cette possibilit permet donc de coder un thesaurus, voire dÕautres liens plus fins, comme les fonctions dÕIgor MelÕcÿuk. 4. MULTILEX MULTILEX est un projet ESPRIT (DG XIII), qui a dbut en dcembre 1990 et sÕest achev en dcembre 1993. Son but tait de proposer des standards pour les bases lexicales multilingues. Les 3 annes du projet ont t rparties en deux phases. La premire phase, axe vers la recherche, a consist en la dfinition des standards adopter. La seconde, axe vers les applications, a expriment, corrig et dvelopp les standards ainsi proposs. MULTILEX a propos diffrents types de standards, portantÊ: - sur les informations linguistiquesÊ: quelles sont les informations que lÕon met dans la base, sous quelle formeÉ)Ê? - sur lÕarchitecture linguistiqueÊ: comment les entres sont-elles organisesÊ? - sur lÕarchitecture lexicaleÊ: comment les dictionnaires sont-ils organissÊ? - sur lÕarchitecture informatiquesÊ: comment sont organiss les diffrents outilsÊ? Enfin, MULTILEX a dvelopp un prototype de dictionnaire quadrilingue (anglais, franais, allemand et italien) selon ces standards. LÕarchitecture dÕune base lexicale MULTILEX est base sur des dictionnaires monolingues et bilingues. Les units lexicales sont reprsentes avec un formalisme bas sur les structures de traits typs. Un langage a t dfini pour dcrire la structure dÕune unit lexicale. Un autre, dfini par nos soins, permet de coder des rgles de cohrence et dÕintgrit. Chaque manipulation de lÕinformation linguistique est faite dans ce formalisme. Ensuite, les entres sont stockes dans une base de donnes relationnelle. MULTILEX a aussi dvelopp un standard linguistique pour la reprsentation dÕunits lexicales de langues europennes. Ce standard code lÕensemble maximal dÕinformations linguistiques commun aux langues europennes. 4.1. Architecture lexicale Une base de donnes lexicales MULTILEX est un ensemble de dictionnaires monolingues et bilingues. LÕarchitecture lexicale prvoit un dictionnaire monolingue par langue, et deux dictionnaires bilingues unidirectionnels par couple de langues (voir figure 2.19.). Language 1 Language 2 Language 3 Monolingual dictionary Transfer dictionary Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX Les quivalences bilingues contiennent des informations contrastives entre la LU source et la LU cible. Ces informations contiennent notamment des indications sur les diffrence de sens entres les LUs, des conditions syntaxiques sur lÕapplication de la correspondance et des transformations appliquer pour effectuer le transfert. 4.2.2.3. Approche unidirectionnelle Une relation bilingue est principalement constitue de deux partiesÊ: une condition syntaxique dÕapplication et une transformation appliquer aux informations de la langue source pour obtenir une structure valide en langue cible. Il nÕest pas possible, dans le cas gnral, dÕinverser cette relation. En effet, sÕil est possible (dans certains cas) dÕinverser la transformation donne, on ne peut dduire des informations prsentes les conditions syntaxiques appliquer lÕentre en langue cible pour slectionner le transfert inverse. Le modle de MULTILEX est donc fortement unidirectionnel. 4.3. Architecture logicielle Paralllement aux standards linguistiques, Multilex a dvelopp des standards informatiques pour lÕimplmentation de bases lexicales multilingues. Ces standards rgissent le format dÕchange des donnes, lÕarchitecture lexicale adopter et lÕensemble des outils construire pour la maintenance dÕune base lexicale multilingue. Les outils se conformant ces standards peuvent le faire selon plusieurs niveaux, le minimum requis tant lÕutilisation du format dÕchange des donnesÊ: MLEXd. Cette architecture logicielle ressemble lÕarchitecture logicielle dfinie plus avant dans cette thse, car, lors de ma premire anne de thse, jÕai collabor au projet MULTILEX. LÕarchitecture logicielle que jÕai propose a t retenue par le consortium. Celle propose dans ce travail en est la version suivante. <item> <word-sens> <lu> <gr-canon> ballast <homograph-number> 0 <meaning-number> 1 <gpmu-id> <gr-canon> ballast <meaning-number> 1 <syntactic-description> … Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX LÕarchitecture logicielle MULTILEX distingue fortement les problmes de stockage, de manipulation, et de visualisation des donnes. Elle est base sur trois niveauxÊ: - niveau base de donnesÊ: ce niveau est en charge du stockage effectif des donnes. Diffrents systmes relationnels de gestion de bases de donnes peuvent tre utiliss ce niveau, qui est invisible pour lÕutilisateur. - niveau interneÊ: ce niveau est en charge des diffrentes manipulations sur les donnes des entres de dictionnaires. CÕest ce niveau que les diffrents outils dÕun systme de gestion de bases lexicales oprent. Pour ce niveau, MULTILEX conseille dÕutiliser des structures de traits typs. - niveau prsentationÊ: ce niveau est en charge de la prsentation des informations lÕutilisateur. Cette prsentation nÕest pas ncessairement proche de la structure interne utilise. De plus, il peut tre possible de proposer diffrentes prsentation dÕune mme information pour diffrents utilisateurs ou diffrents buts. Cette architecture est illustre par la figure 2.22. Multilex a aussi dfini un ensemble dÕoutils standard pour un systme de gestion de bases lexicales multilingues. Ces diffrents outils manipulent les donnes linguistiques au niveau interne et interagissent avec lÕutilisateur au niveau externe. Les outils ainsi dfinis sont les suivantsÊ: - diteurÊ: lÕditeur permet dÕditer ou de modifier des entres du dictionnaire. Pour cela, il doit offrir des fonction de navigation lÕintrieur de la base lexicale. Afin de permettre lÕdition et la modification des entres, lÕensemble des informations linguistiques doit tre prsent lÕutilisateur. - NavigateurÊ: le navigateur permet de consulter la base lexicale. Il doit permettre diffrentes prsentations suivant les motivations de lÕutilisateur. Il nÕest pas ncessaire que les prsentations refltent la totalit des informations linguistiques associes une entre. ventuellement, lÕoutil donnera un moyen lÕutilisateur de spcifier sa propre prsentation. - Vrificateur de cohrenceÊ: cet outil permet de vrifier des rgles de cohrence dfinies par lÕutilisateur. Lorsque certaines de ces rgles sont violes, le vrificateur le signale lÕutilisateur. Cet outil permet la vrification de cohrence lÕintrieur dÕun article, la cohrences entre articles dÕun mme dictionnaire, et la cohrence entre articles de diffrents dictionnaires. - DfauteurÊ: cet outil permet de complter des entres incompltes. Cet compltion peut avoir lieu a posteriori sur des entres dj prsentes dans le dictionnaire, ou interactivement afin dÕacclrer le processus dÕdition. Cet outil utilise des rgles de valeurs par dfaut dfinies par un linguiste. - Import/exportÊ: cet outil gnre et accepte des fichiers MLEXd refltant la structure linguistique des entres du dictionnaire. Le format MLEXd est un format bas sur SGML, codant des structures de traits. L1 L2 L3 L4L5 L6 Dictionnaire monolingue Dictionnaire interlingue I Figure 3.2Ê: Une base lexicale base sur lÕapproche interlingue. La critique la plus courante de lÕapproche par transfert porte sur le nombre de dictionnaires dfinirÊ: le nombre de dictionnaires bilingues thorique est fonction du carr du nombre de dictionnaires monolingues. Si nm est le nombre de dictionnaires monolingues, et nb le nombre de dictionnaires bilingues, on a: nbÊ=Ê nmÊ(nmÊ-Ê1) 2 Ce nombre est multipli par deux lorsque lÕon utilise des dictionnaires bilingues unidirectionnels. Ce calcule se base sur lÕhypothse que tous les couples de langues doivent tre prsents et que la charge de traduction est rpartie de manire uniforme entre les langues. Or, mme lÕUnion Europenne, qui est considre comme lÕorganisme travaillant dans le contexte la plus multilingue (9 langues), lÕeffort de traduction nÕest pas rparti de manire uniforme parmi les langues, les principales tant lÕallemand, lÕanglais, et le franais. Aussi, lÕapproche par transfert est la plus utilise lÕheure actuelle. En effet, la plupart des projets ne se situent pas dans les hypothses retenues pour effectuer le calcul prcdent. Dans la plupart des cas, ces projets nÕont quÕune ou deux langues sources. Dans dÕautres cas, il est possible de passer par un ensemble de langues intermdiaires qui agissent comme des pivots. Dans ce cas, le nombre de dictionnaire augmente de manire linaire et non plus quadratique. Pour sa part, la mthode interlingue permet de rduire le nombre de liens. En effet, il suffit de construire un lien entre chaque dictionnaire monolingue et le dictionnaire interlingue. On a ainsi une connectivit beaucoup plus rduite que dans lÕapproche bilingue. Mais cet avantage se paie en complexit puisque ces liens sont beaucoup plus difficiles grer. En effet, lÕajout dÕune entre dans une langue peut remettre en cause les entres du dictionnaire interlingue (et donc certains liens allant vers les autres langues). Il est trs difficile dÕvaluer la complexit qui se rajoute lorsque lÕon utilise cette approche. De plus, on ne sait si la complexit de cration dÕune base interlingue nÕaugmente pas de manire quadratique avec le nombre de langue. Des exprimentations ont t conduites une echelle suffisante au CICC (environ 50Ê000 mots de base et 25Ê000 termes techniques en japonais, chinois, malais, indonsien et thai [Yaoliang & zhendong 1991]), mais on nÕen trouve pas les rsultats en termes de difficults de dveloppement de lÕinterlingue. En partant de lÕhypothse selon laquelle le dveloppement dÕun dictionnaire interlingue nÕaugment pas de manire quadratique avec la nombre de langue et en se plaant dans un contexte trs fortement multilingue, on considre habituellement quÕune telle approche est justifie lorsque lÕon veut construire des bases lexicales comportant plus de huit langues ([Boitet 1988a, Boitet 1990a]). Ë lÕheure actuelle, la majorit des projets utilisant lÕapproche interlingue se basent sur une connaissance du monde (ontologie). Aussi, il est assez difficile de distinguer les problmes entrans par le choix dÕune approche multilingue et ceux entrans par une reprsentation des connaissances. LÕoutil gnrique de gestion de bases lexicales multilingues (SUBLIM) dfini dans cette thse donne au linguiste le moyen de dfinir son architecture lexicale en dclarant explicitement lÕensemble des dictionnaires prsents dans sa base. La dernire partie de cette thse propose dans ce cadre une nouvelle approche interlingue ne faisant pas appel un modle par connaissances. 2. Architecture linguistique LÕarchitecture linguistique dÕune base lexicale dfinit la manire dont sont codes les entres des dictionnaires quÕelle contient. Elle rgit donc, notamment, les structures logiques qui seront utilises dans le codage des informations linguistiques. Lors de lÕtude des efforts en cours, nous avons pu constater la multitude des choix qui se posent lorsque lÕon veut reprsenter des informations linguistiques dans un dictionnaire. De plus, on ne souhaite pas forcment reprsenter les mmes informations. Une base lexicale voudra reprsenter toutes les informations morphologiques, syntaxiques et smantiques alors quÕune autre se contentera de reprsenter la morphologie. Les difficults linguistiques ne sÕarrtent pas l. Ds le niveau morphologique, que lÕon considre comme le plus simple et le plus mr, on est confront des problmes dus lÕorganisation du dictionnaire et aux difficult inhrentes de la langue (quÕest-ce quÕune entre, puis-je avoir un espace dans une entre, puis-je coder des expressions compltes, vais-je utiliser des tables pour coder la morphologie, ou bien un automateÉ). Ces mmes problmes se retrouvent tous les niveaux. Ë ces difficults linguistiques sÕajoutent les problmes dus lÕoutil choisi pour grer la base lexicale. En effet, si lÕon souhaite rutiliser les outils de MULTILEX, il faut coder toutes les structures linguistiques avec la seule structure logique que propose MULTILEXÊ: les structures de traits. De la mme manire, lÕutilisation des outils de Genelex oblige lÕadoption dÕune structure entits-attributs-relations. Certes, ces structures sont adaptes certaines thories linguistiques, mais un outil ne doit pas prjuger des thories qui seront retenues par les linguistes. Il existe une trs importante varit de structures logiques utilises dans certains dictionnaires. Parmi ces structures, on peut citer les ensembles dÕattributs (EDR), les automates dÕtats finis (LADL), les graphes (GENELEX), les structures de traits (MULTILEX), les arbres tiquets (Le Lexicaliste), les termes Prolog (ULTRA)É Stuart M. Shieber [Shieber 1986] a dfini trois critres dÕvaluation des formalismes grammaticaux. LÕun de ces critres est pertinent dans le contexte des bases lexicalesÊ: - Flicit linguistiqueÊ: le degr auquel les descriptions de phnomnes linguistiques peuvent tre exprimes, directement ou indirectement, de la manire o le linguiste voudrait les exprimer. Il est possible de coder une structure linguistique en utilisant nÕimporte quelle structure logique particulire. Nanmoins, ce codage nÕest, bien souvent, ni naturel, ni pratique. De plus, il est souvent difficile de trouver une structure logique qui permette un codage naturel de la totalit des phnomnes linguistiques que lÕon veut coder dans le dictionnaire. Aussi, il est difficile de satisfaire au critre de Shieber avec un systme ne proposant quÕun type de structure logique. LÕoutil gnrique de gestion de bases lexicales multilingues (SUBLIM) dcrit dans cette thse propose donc au linguiste une grande varit de structures logiques. Ainsi, il peut choisir la structure logique quÕil juge la plus adapte sa thorie linguistique. Il peut mme coder des units lexicales en utilisant diffrentes structures logiques. 3. Présentation de l’information Les informations lexicales ont certaines particularitsÊ: - cette information (parfois trs complexe) est spcifie, rentre et utilise par des linguistes non spcialiss en informatique, - elle peut tre utilise des buts trs varis comme lÕapprentissage dÕune langue, la consultation dÕune dfinition, la synthse de parole, la Traduction AutomatiqueÉ - les performances des systmes automatiques sont directement relies aux informations lexicales quÕils utilisent, ce qui rend cruciales les problmes de maintenance et de correction, - la taille dÕune base lexicale est telle quÕelle ncessite plusieurs personnes pour lÕindexage et la maintenance de cette information, Tous ces facteurs demandent donc une prsentation de cette information qui la rende facile dÕaccs des fins de maintenance, alors que cette information est, en gnral, structure pour un usage automatique. Ce problme est crucial lorsquÕon laisse le linguiste libre dans le choix de ses structures. En effet, certaines structures, trs appropries pour une utilisation informatique, sont trs difficiles prsenter, lire et comprendre. Ainsi, sÕil est ais de manipuler une structure dÕautomate reprsente sous forme graphique, cela est beaucoup plus complexe si on souhaite la reprsenter sous une forme textuelle, en donnant par exemple la liste de ses arcs ou de ses nÏuds. Cet tat de fait rend difficile le reprage dÕerreurs ventuelles et leur correction. Il faut donc trouver un moyen de contrler la manire dont est prsente lÕinformation. De plus, le mcanisme de prsentation doit tre suffisamment gnral pour permettre de masquer la structure interne de lÕinformation lexicale. Enfin, cette information peut tre accde pour diffrents usages. Dans certains cas, le lexicographe veut consulter lÕensemble des informations dÕune entre pour en vrifier la cohrence. Dans dÕautre cas, il veut avoir une liste des entres qui satisfont un critre ou qui ont t classes par un tri. Dans ce cas, le lemme et la catgorie sont les seules informations qui lÕintressent. Il est donc important de pouvoir dfinir diffrentes prsentations de lÕinformation. Introduction Comme nous lÕavons constat dans la partie prcdente, la diversit des solutions envisageables pour structurer une base lexicale, pour structurer une entre du lexique ou pour prsenter les informations linguistiques lÕutilisateur rend impossible le choix a priori dÕune solution linguistique satisfaisant lÕensemble des utilisateurs. Pourtant, les projets tudis on souvent fait des choix restrictifs pour lÕutilisation de leurs outils dans lÕimplmentation de bases lexicales varies. Le projet MULTILEX a pourtant donn au linguiste un langage lui permettant de dfinir les traits quÕil souhaite coder dans son dictionnaire. Nanmoins, il ne peut utiliser que des structures de traits pour coder une thorie linguistique. Or, nous avons vu que de nombreuses autres structures logiques sont effectivement utilisesÊ: graphes (GENELEX), automates (LADL), arbres (Le Lexicaliste)É Certains diront quÕil est tout fait possible de coder ces structures logiques avec des structures de traits. Cet argument est techniquement exact, mais ergonomiquement non fond. En effet, ce type dÕoutil doit offrir au linguiste un niveau suffisant dÕabstraction pour quÕil nÕait pas se proccuper dÕun codage supplmentaire de lÕinformation. De plus, les projets existants ont fig lÕarchitecture lexicale considre. Il nÕest donc pas possible dÕutiliser leurs rsultats pour exprimenter de nouvelles architectures lexicales. Enfin, rares sont les projets qui se sont attachs au problmes de la visualisation de lÕinformation. Le langage de dfinition des traits linguistiques de MULTILEX, par exemple, permet de paramtrer le placement des lments de la structures dans les crans de saisie, mais il ne permet pas de visualiser la structure linguistique en faisant abstraction de sa reprsentation interne (structure de traits). On veut donc construire un outil gnrique permettant de crer de nombreuses instances de bases lexicales qui ne seront pas forcment bases sur une mme architecture lexicale, qui ne se fonderont pas sur la mme thorie linguistique, qui nÕutiliseront pas les mmes structures logiques et o les informations ne seront pas visualises de la mme manire. Aussi, nous avons choisi de travailler la cration de SUBLIM, un outil qui permettra au linguiste de crer et de grer une base lexicale pour laquelle il a, au pralable, dclarÊ: - les dictionnaires quÕelle contientÊ: ces dictionnaires peuvent tre monolingues, bilingues ou interlingues, - pour chaque dictionnaire, quelles sont les structures quÕil contientÊ: ces structures linguistiques peuvent tre exprimes en utilisant diffrentes structures logiques de base (arbres, graphes, structures de traits, automatesÉ) que lÕon peut composer. - pour chaque dictionnaire et pour chaque structure, la (ou les) manire(s) de les prsenter. Dans cette partie, nous prsentons les principes et lÕimplmentation de cet outil. Nous commencerons par la partie concernant la dfinition des architectures lexicales, pousuivrons par celle concernant la dfinition de lÕarchitecture linguistique, et finirons par lÕarchitecture logicielle et les outils de gestion de la base lexicale. Ainsi, la dfinition du dictionnaire franais-anglais se fera de la manire suivante (en admettant que le dictionnaire monolingue anglais a t nomm english)Ê: (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") Ainsi, le dictionnaire bilingue franais-anglais sera nomm de manire univoque par le symbole french-english dans lÕensemble de la base. LÕattribut :type dfinit le type du dictionnaire bilingue. Le dictionnaire bilingue peut tre unidirectionnel ou bidirectionnel. Les attributs :source et :target ne sont pertinents que dans le cas de dictionnaires bilingues unidirectionnels. Ils sont obligatoires dans ce cas. En effet, les structures linguistiques dfinies dans ce dictionnaire pourront utiliser ou se rfrer des structures utilises dans les dictionnaires source et cible. Dans le cas dÕun dictionnaire bidirectionnel, ces attributs sont remplacs par lÕattribut :links qui prend pour valeur une liste de dictionnaires. Finalement, la dfinition de ces diffrents dictionnaires se fait dans le cadre de la dfinition dÕune base lexicale multilingue particulire. Cette base lexicale est dfinie grce la fonctionÊ: define-lexical-database name Keywords* o name est un symbole dfinissant de manire unique la base lexicale. Ainsi, notre base lexicale multilingue se dfinit parÊ: (define-lexical-database MULTILEX-like-database :owner "GETA" :comment "Une base lexicale fondée sur une approche bilingue" :dictionaries (french english german dutch italian french-english french-german french-italian french-dutch ... )) Notre base lexicale se nomme donc MULTILEX-like-database. Nous lui avons attribu un commentaire (une chane de caractres) et une liste de dictionnaires (ceux que nous avions dfinis auparavant). 1.1.2. Une architecture interlingue Notre deuxime exemple montre comment dfinir lÕarchitecture lexicale dÕune base lexicale base sur lÕapproche interlingue. Cette architecture lexicale est inspire de lÕarchitecture lexicale du systme ULTRA [Farwell, Guthrie & Wilks 1993]. La base lexicale que nous souhaitons dfinir comprend 5 dictionnaires monolingues (anglais, chinois, japonais, espagnol et allemand). Ces 5 dictionnaires sont relis par un dictionnaire interlingue (voir figure 4.2). Les units lexicales des dictionnaires monolingues sont des units smantiques. Le dictionnaire interlingue contient un ensemble dÕunits interlingues appeles IR. La dfinition des dictionnaires monolingues se fait exactement de la mme manire que dans lÕexemple prcdentÊ: (define-monolingual-dictionary english :language "English" :owner "CRL-NMSU") La dfinition du dictionnaire interlingue se fait grce la fonctionÊ: define-interlingual-dictionary name Keywords* o name est un symbole dfinissant de manire unique le dictionnaire pour lÕensemble de la base. Ainsi, la dfinition du dictionnaire interlingue se fera de la manire suivanteÊ: (define-interlingual-dictionary IR :owner "CRL-NMSU" :links (english chinese japanese german spanish)) Chinese English GermanJapanese Spanish Dictionnaire monolingue Dictionnaire interlingue IR Figure 4.2Ê: Base lexicale quintilingue fonde sur une approche interlingue Le dictionnaire interlingue sera nomm de manire univoque par le symbole IR dans lÕensemble de la base. LÕattribut :links dfinit lÕensemble des dictionnaires monolingues relis par le dictionnaire interlingue IR. La structure linguistique porte par les units des dictionnaires interlingues peut donc utiliser ou se rfrer des structures dfinies dans chacun des dictionnaires monolingues. La base lexicale elle-mme se dfinit comme auparavantÊ: (define-lexical-database ULTRA :owner "CRL-NMSU" :comment "Une base lexicale fondée sur une approche interlingue" :dictionaries (english german spanish japanese chinese IR)) 1.1.3. Une architecture mixte Notre dernier exemple montre comment dfinir lÕarchitecture lexicale dÕune base lexicale base la fois sur une approche bilingue et sur une approche interlingue. Cette architecture lexicale est inspire de lÕarchitecture lexicale du projet EDR [EDR 1993]. Dictionnaire monolingue Dictionnaire interlingue Dictionnaire bilingue unidirectionnel japonais anglais Concept Dictionary Figure 4.3Ê: Base lexicale anglais-japonais fonde sur une approche mixte La base lexicale que nous souhaitons dfinir comprend 2 dictionnaires monolingues (anglais et japonais). Ces 2 dictionnaires sont relis la fois par deux dictionnaires monolingues unidirectionnels et par un dictionnaire interlingue (voir figure 4.3.). Les units lexicales des dictionnaires monolingues sont des units smantiques. Le dictionnaires interlingue contient un ensemble dÕunits interlingues appeles concepts. Les dictionnaires bilingues contiennent un ensemble de liens reliant les units du dictionnaire source des units du dictionnaire cible. La dfinition des dictionnaires monolingues se fait exactement de la mme manire que dans les exemples prcdentsÊ: (define-monolingual-dictionary english :language "English" :owner "EDR") Le dictionnaire interlingue se dfinit exactement comme dans lÕexemple prcdentÊ: (define-interlingual-dictionary concept-dictionary :owner "EDR" :links (english japanese)) Les dictionnaires bilingues se dfinissent exactement comme les dictionnaires du premier exemple : (define-bilingual-dictionary japanese-english :type unidirectionnal :source japanese :target english :owner "EDR") Et la base elle-mme se dfinit comme dans les exemples prcdentsÊ: (define-lexical-database EDR :owner "EDR" :comment "Une base lexicale fondée sur une approche mixte" :dictionaries (english japanese concept-dictionary)) 1.2. Le langage de définition de l’architecture lexicale : LEXARD Le langage LEXARD permet de dfinir une base lexicale. La dfinition dÕune base lexicale passe par la cration de ses lmentsÊ: les dictionnaires. LEXARD offre trois types de dictionnairesÊ: - dictionnaires monolingues, - dictionnaires bilingues, - dictionnaires interlingues. La dfinition des dictionnaires monolingues se fait grce la fonctionÊ: define-monolingual-dictionary name Keywords* o name est un symbole dfinissant de manire unique le dictionnaire pour lÕensemble de la base. Les Keywords dfinissent des renseignements indispensables pour la gestion du dictionnaireÊ: :owner string spcifie le propritaire du dictionnaire. :language string spcifie la langue du dictionnaire. La dfinition des dictionnaires bilingues se fait grce la fonctionÊ: define-bilingual-dictionnary name Keywords* o name est un symbole dfinissant le dictionnaire de manire unique lÕintrieur de la base. :owner string spcifie le propritaire du dictionnaire. :type type spcifie le type (soit unidirectionnel, soit bidirectionnel) du dictionnaire. :source symbol spcifie le dictionnaire source (seulement si unidirectionnel). Pour implmenter ce dictionnaire, le plus simple est dÕutiliser les structures logiques suivantesÊ: - un arbre pour coder une entre et ses raffinements de sens, - des structures de traits pour coder lÕinformation linguistique associe chaque sens. Pour cela, le linguiste dfinit un ensemble de classes. Chacune de ces classes hrite des classes prdfinies (les structures logiques). Cette dfinition se fait grce la fonctionÊ: define-linguistic-class name class-definition o name est un symbole dfinissant de manire unique la classe dfinie lÕintrieur du dictionnaire. LÕargument class-definition contient la dfinition dÕune classe, note de la manire suivanteÊ: (logical-structure arguments*) o logical-structure reprsente lÕune des structures logiques dont on veut hriter le comportement. Les arguments dpendent de la structure logique spcifie. Dans le cas dÕun arbre, on notera les restrictions sur les classes linguistiques dcorant les diffrentes parties de lÕarbre. Dans le cas dÕune structure de traits, on donne lÕensemble des traits et leurs valeurs possibles. Pour plus de dtails, le lecteur se rfrera la section suivante. Pour coder ce dictionnaire, nous utiliserons les structures logiques dÕarbre et de structure de traits. La dfinition dÕune classe de structure logique arbre se fait comme suitÊ: (tree keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrentes parties de lÕarbre. Les mots-cls possibles sontÊ: :root class spcifie la classe acceptable pour la valeur de la dcoration de la racine de l'arbre. :leaves class spcifie la classe acceptable pour la valeur de la dcoration des feuilles de l'arbre. :nodes class spcifie la classe acceptable pour la valeur de la dcoration de lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elle ne sont pas dfinies par ailleurs). La dfinition d'une classe de structure logique structure de traits se fait comme suitÊ: (feature-structure features) o lÕargument features est une liste de couples parenthss reprsentant la liste des attributs dfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. La catgorie dÕune entre ne peut prendre quÕune valeur parmi un ensemble fini de valeurs. Pour cela, nous utiliserons la structure logique one-of qui prend comme argument la liste des valeurs possiblesÊ: (one-of possible-values) Ainsi, lÕentre du dictionnaire est dfinie comme un arbre dont la racine est dcore par une structure de traits simple (contenant une catgorie et une forme graphique) et dont les nÏuds sont dcores par des units smantiquesÊ: (define-linguistic-class entry (tree :root (feature-structure (graphic-form string) (category cat)) :nodes sem-unit)) (define-linguistic-class cat (one-of (nc np vb adj card deict repr sub coord))) L'unit smantique est dfinie comme une simple structure de traits. Les drivationsÊ sont implmentes comme une structure de traits notant le type et la valeur de la drivation: (def-linguistic-class sem-unit (feature-structure ((category cat) ;; information de dérivation. (drvv (feature-structure ((deriv-kind (one-of (naction nresult nlieu nagent ninstr adject adjpass adjpotpas adjresact verbe))) (deriv-from sem-unit)))) (drvn (feature-structure ((deriv-kind (one-of (ncond nlieu ninstr ncollect nperson adjrelat adjqual verbe))) (deriv-from sem-unit)))) (drva (feature-structure ((deriv-kind (one-of (nabst nperson verbe))) (deriv-from sem-unit)))) ;; information sur les valences (val0 valency) (val1 valency) (val2 valency) (val3 valency) ;; autres informations (gnr (one-of (masc fem))) (nbr (one-of (sg pl))) (aux (one-of (être avoir))) (reciproque (one-of (arg0-arg1 arg1-arg2))) (aspect (one-of (achevé inachevé début fin duratif fréquentatif instantané) ))))) La valence admet comme valeur un ensemble de valeurs prises parmi les valeurs de valences possibles. Pour cela, on utilise la structure logique set-of qui prend comme argument la liste des valeurs possiblesÊ: (set-of possible-values keywords*) o lÕargument possible-values est la liste des classes acceptables pour les lments de lÕensemble, et o les mots-cls dfinissent des contraintes de cardinalit sur lÕensembleÊ: :min-elements number spcifie le nombre minimal dÕlments dans lÕensemble (par dfautÊ: 0). :max-elements number spcifie le nombre maximal dÕlments dans lÕensemble (par dfautÊ: pas de maximum). Ainsi, les valences se dcrivent comme suitÊ: (def-linguistic-class valency (set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) 2.1.2. Une structure Ò la MULTILEXÓ La seconde architecture linguistique que nous souhaitons dfinir est (librement) inspire de l'architecture linguistique de MULTILEX. Les dtails de cette architecture sont donns par la figure 4.6., reprise du chapitre II. Une unit lexicale de MULTILEX (LU) identifie un sens de mot. Elle est relie une ou plusieurs GPMU (unit graphique, phonologique et morphologique) qui identifie une forme canonique. Une LU donne accs diffrents types dÕinformations (sous forme dÕensembles de traits). Ainsi, une LU est relie une et une seule unit smantique, une ou plusieurs units syntaxiques et zro ou plusieurs units de transfert. Syntax pragmatics terminology example Syntax pragmatics ter inology example LU pragmatics terminology GPMU Semantics/ terminology definition example Transfer Maintenance record Cross- references Syntax pragmatics terminology GPMU pragmatics terminology GPMU pragmatics pragmatics terminology example Figure 4.6Ê: Vue gnrale dÕune LU (Lexical Unit) de MULTILEX Nous noterons une unit lexicale comme une structure de traits o certains traits ont pour valeur un ensemble de liens reliant les diffrentes units (GPMU, syntaxique, smantiques et de transfert). Nous ne donnerons que la description d'une GPMU, et d'une unit syntaxique. Comme le projet Multilex, nous reprsenterons les informations associes ces units sous forme de structures de traits. Pour dfinir une valeur de lien, nous utiliserons la structure logique prdfinie link qui sÕutilise comme suitÊ: (link keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrents lments du lien. Les mots-cls possibles sontÊ: :label class spcifie la classe acceptable pour la valeur de dcoration du lien. :source [dict::]class spcifie la classe de lÕinstance de laquelle part le lien. Si le lien vient dÕune structure dÕun autre dictionnaire, on indique ce dictionnaire. :target [dict::]class spcifie la classe de lÕinstance vers laquelle pointe le lien.Si le lien va vers une structure dÕun autre dictionnaire, on indique ce dictionnaire. :bidirectionnel boolean Le systme doit-il grer le lien inverse (qui pointera vers la structure ou est dfinie le lien dÕorigine)Ê? Pour dfinir une valeur de type ensemble, nous utiliserons la structure logique set-of dfinie plus haut. Une unit lexicale est relie une et une seule unit smantique, une ou plusieurs units de syntaxiques et une ou plusieurs GPMU. On la dfinit donc comme suitÊ: id nime_radgp contexte_var retrait ajout CombVE id datation niveau_lgue frquence var_geog Um_S id appelation catgram ss-catgram autonomie Umg id libell vedette appellation attestation Ump id libell vedette appellation attestation a-pour-umg a-pour-ump s'crit/se prononce Mfg id comment exemple appellation Mfp id comment exemple appellation Radg id libell nime contexte_var Radp id libell nime contexte_var a-pour-mfg a-pour-mfp CombTM id mode temps personne genre nombre nombre_posseur Cffg id nime_radgp contexte_var retrait ajout Cffp a-pour-ffg a-pour-ffp s'crit/se prononce 1,n 1,n 0,1 0,n 0,10,1 0,n 0,1 0,n 0,1 1,n 1,n 0,n 0,n 1,11,1 1,1 1,1 1,n 1,n 0,n 0,n 1,n 1,n 1,n 1,n 0,n 0,n Figure 4.8Ê: Structure de lÕUM simple Une UM simple hrite de la structure dÕune UM gnrale et rajoute des lments particuliers. Pour dnoter de cet hritage, nous utilisons la syntaxeÊ: (parent-linguistic-class arguments*) o parent-linguistic-class est le nom de la structure linguistique dont on veut hriter. Les arguments dpendent de la structure linguistique spcifie. Le dtail de ces arguments et la smantique exacte de lÕhritage seront exposs dans le paragraphe suivant. Dans le cas dÕune structure de traits, on hrite des traits dj dfinis, que lÕon rajoute aux traits spcifis sur la sous-classe. LorsquÕun trait de la sous-classe existe dj sur la classe dont on hrite, deux cas se prsententÊ: - hritage simpleÊ: dans ce cas, la valeur spcifie dans la classe dont on hrite est crase. Seule compte donc la valeur donne dans la sous-classe. - hritage par unificationÊ: dans ce cas, on fait lÕunification des deux valeurs donnes dans la classe dont on hrite et dans la sous-classe que lÕon dfinit. Si lÕunification choue, lÕhritage simple est adopt. Si elle russit, le trait litigieux prend pour valeur le rsultat de lÕunification. Cette opration dÕunification sera dtaille dans le paragraphe suivant. Le linguiste peut spcifier le type dÕhritage dsir en utilisant le mot-cl inheritance-type, que lÕon retrouve dans les arguments quelle que soit la structure de base. Ce mot-cl prend pour valeur simple ou unification. Le comportement par dfaut est lÕhritage simple. Ainsi, la dfinition de lÕUM simple de GENELEX est la suivanteÊ: (def-linguistic-class UM_S (UM ((catgram (one-of (nom adjectif adverbe verbe preposition conjonction interjection determinant pronom particule))) (ss-catgram (one-of (propre commun possessif demonstratif partitif defini indefini interrogatif cardinal ordinal relatif personnel_fort personnel_faible impersonnel exclamatif qualitatif coordination subordination completif))) (autonomie (one-of (oui non))) (usyn-l (set-of (USyn))) (a-pour-Umg (set-of (Umg) :min-elements 1)) (a-pour-Ump (set-of (Ump) :min-elements 1))) )) Cette dfinition utilise les notions dÕunits morphologiques graphiques (Umg, qui portent les informations sur lÕcrit) et dÕunits morphologique phonmiques (Ump, qui portent des informations sur lÕoral). (def-linguistic-class Umg (feature-structure ((vedette (one-of (oui non))) (appellation string) (attestation string) (combVe combVe) (a-pour-mfg Mfg) (a-pour-radg (set-of (Radg))) (se-prononce (set-of (Ump) :min-elements 1)))) )) (def-linguistic-class Ump (feature-structure ((vedette (one-of (oui non))) (appellation string) (attestation string) (combVe combVe) (a-pour-mfg Mfp) (a-pour-radp (set-of (Radp))) (s-écrit (set-of (Umg) :min-elements 1)))) )) Ces structures utilisent un ensemble de radicaux graphiques et phonmiques (Radg, Radp) donnant lÕensembles des bases sur lesquelles se fondent les rgles morphologiques. (def-linguistic-class Radg (feature-structure ((nième integer) (contexte_var string)))) (def-linguistic-class Radp (feature-structure ((nième integer) (contexte_var string)) )) Les units morphologiques sont associes des informations morphologiques graphiques et phonmiques (Mfg, Mfp). (def-linguistic-class Mfg (feature-structure ((comment string) (exemple string) (appellation string) (a-pour-ffg (set-of ((link :target Cffg :label CombTM))))))) (def-linguistic-class Mfp (feature-structure ((comment string) (exemple string) (appellation string) (a-pour-ffg (set-of ((link :target Cffp :label CombTM))))))) Ces informations de morphologiques utilisent des rgles de calcul des formes flchies pour les units graphiques et phonmiques (Cffg, Cffp). (def-linguistic-class Cffg (feature-structure ((nième-radgp integer) (contexte_var string) (retrait string) (ajout string) (se-prononce (set-of (Cffp))))) (def-linguistic-class Cffp (feature-structure ((nième-radgp integer) (contexte_var string) (retrait string) (ajout string) (se-prononce (set-of (Cffg))))) Chaque rgle de calcul est associe une combinaison temps/mode (combTM) identifiant la forme flchie obtenue. (def-linguistic-class CombTM (feature-structure ((mode (one-of (indicatif subjonctif conditionnel imperatif infinitif participe))) (temps (one-of (present imparfait passe-simple futur passe))) (personne (one-of (1 2 3))) (genre (one-of (masculin feminin neutre))) (nombre (one-of (singulier pluriel)) (nombre-posseur (one-of (singulier-posseur pluriel-posseur)))))) On a ainsi dfini une UM simple selon GENELEX. 2.1.4. Une structure complexeÊ: le DEC de MelÕcÿuk JusquÕ prsent, nous avons montr comment dclarer en SUBLIM des bases lexicales existantes. Nous avons pu constater que mme si les personnes dveloppant ces bases disent quÕelles ne font appel quÕ une structure de base (graphe ou structure de traits), il est utile de disposer de plusieurs autres structures pour les implmenter (notion dÕensemble, etc.). LÕexemple que nous allons tudier maintenant nÕest pas une base lexicale usage machinal. Il sÕagit dÕun dictionnaire (essentiellement papier) dont les informations sont assez complexes. Ce dictionnaire a t dvelopp par Igor MelÕcÿuk et ses collgues, Moscou, puis Montral. Quelques exemples dÕarticles de ce dictionnaire sont donns en Annexe C3. Une unit de ce dictionnaire est un sens de mot ou de locution (un smantme). Cette unit lexicale est associe une unit morphologique, une dfinition, dÕventuelles 3 Je tiens à remercier Igor Mel’čuk qui me les a très gentiment communiquées. complexe o lÕon retrouve lÕensemble des combinaisons possibles de ralisations dÕarguments. On peut donc reprsenter cette partie de deux maniresÊ: - en restant proche de sa forme papier. On a alors un tableau et une liste des combinaisons impossibles. - en reprsentant cette structure de manire plus abstraite. On peut ainsi la reprsenter par un automate dont chaque chemin forme une combinaison valide. Si lÕon choisit la seconde solution, le rgime donn en exemple sera donc reprsent par lÕautomate donn en figure 4.9. X Y Z N N ε N (rare) N N Vinf ε Figure 4.9Ê: Rgime dÕenseigner 1, sous forme dÕautomate Pour exprimer cette solution, nous utiliserons la structure logique dÕautomate dfinie comme suitÊ: (automaton keywords*) o les mots-cls dfinissent des contraintes sur les classes acceptables en dcoration des diffrents lments de lÕautomateÊ: :arcs class spcifie la classe acceptable en dcoration des arcs. :nodes class spcifie la classe acceptable en dcoration de lÕensemble des nÏuds. :starting-node class spcifie la classe acceptable en dcoration du nÏud dÕentre. :ending-nodes class spcifie la classe acceptable en dcoration des nÏuds de sortie. Ainsi, cette structure sÕexprimera sous forme dÕune structure de traits dont lÕun comportera lÕautomate, un autre donnera lÕordre dans lequel les arguments apparaissent dans le rgime et un troisime donnera lÕensemble des exemplesÊ: (def-linguistic-class régime (feature-structure ((automate automate-régime) (argument-order (list-of (string))) (exemples exemples-régime)))) (def-linguistic-class automate-régime (automaton :arcs réalisation-argument)) (def-linguistic-class exemples-régime (set-of ((feature-structure ((réalisations (list-of (string))) (exemple string)))))) La partie la plus importante de ce dictionnaire rside dans lÕensemble des fonctions lexicales du smantme. Leur meilleur dfinition est donne, en premire partie du DEC, par lÕauteur, Igor MelÕcÿukÊ: Les fonctions lexicales (FL) présentent l’ensemble de la cooccurrence lexicale restreinte intéressant le lexème considéré. Elles constituent une innovation lexicographique qui permet de décrire d’une façon systématique un vaste ensemble de locutions plus ou moins figées qui ne sont quand même pas des expressions idiomatiques stricto sensu. Il s’agit, par exemple, des locutions comme une FERME intention, une résistance ACHARNÉE, un argument DE POIDS, un bruit INFERNAL, un désir ARDENT, une envie FOLLE, une règle STRICTE, une vérité INCONTESTABLE, où des adjectifs bien spécifiques doivent être employés avec les différents noms pour exprimer la même idée d’intensification. Comme autre exemple de locution de ce type, on peut citer les expressions DONNER une leçon, FAIRE un pas, COMMETTRE un crime, PORTER une accusation, etc., où des verbes sémantiquement vides (ou presque vides) différents doivent être choisis en fonction du nom d’action pour lier le nom d’agent en tant que sujet grammatical au nom d’action en tant que complément d’objet direct. LÕcriture gnrale dÕune FL est de la formeÊ: f(X) = Y, o f est la FL, X est son argument (un lexme ou bien une locution), et Y est la valeur de la FL f pour cet argument, cÕest dire lÕensemble des expressions linguistiques qui peuvent exprimer le sens ou le rle syntaxique donn (not par f) auprs de X. Comme ce dictionnaire est imprim, les expressions linguistiques sont donnes sous une forme linaireÊ: MPRIS, nom, masc. I. Attitude motionnelle dfavorableÉ [le mpris pour ce corrupteur ] [É] Fonctions lexicales Caus 3 Func 1 : engendrer [ART s chez N] [La familiarit engendre le mprisÊ] Caus (3) Func 1 : apprendre, inculquer [ART s N] [Jean inculque ses tudiants le mpris de l'hypocrisie ; Son attitude partiale envers ses employs apprend ces derniers le mpris de leur chefÊ] Caus (2/3) Func 1 : inspirer [ART s N] [Cet vnement inspire aux travailleurs le mpris de leur patron ; L'argent inspirait ce philosophe un tel mpris qu'il a donn son hritage son frreÊ; L'hypocrisie de Jean leur inspirait un profond mprisÊ] Mais la structure interne de ces expression linguistique est un arbre syntaxique donnant la construction de cette expressions linguistiques et de lÕargument X pour raliser la fonction f. Ainsi, la structure interne de Caus 3 Func 1 (Mpris I) est lÕarbre donn en figure 4.10.Ê: Caus3Func0 (X = mpris) = engendrer N chez NX ART Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale Une fonction lexicale reprsente donc un lien entre un smantme et une expression linguistique complexe comportant dÕautres smantmes. Aussi, la valeur de ces FL peut tre reprsente comme un ensemble dÕarbres dont certains nÏuds sont des variable, et dÕautres sont des smantmes. Il faut aussi reprsenter les fonctions lexicales. En effet, sÕil y a un nombre limit de fonctions lexicales de base, on trouvera des fonctions composes dans les diffrents articles de dictionnaire. Prenons un exempleÊ: les fonctions Oper 1 , Oper 2 É ont pour valeur les verbes smantiquement vides qui prennent le nom du premier, deuximeÉ actant comme sujet grammatical et C0 (leur argument) comme complment dÕobjet principalÊ: Oper1(attention) = faire Oper2(attention) = attirer Oper1(conseil) = donner Oper2(conseil) = recevoir Oper1(aide) = prter, accorder Oper2(aide) = recevoir La fonction Caus reprsente la notionÊ: Òfaire en sorte que quelque chose ait lieuÓ. Elle sÕemploie le plus souvent en combinaison avec dÕautres FL. Ainsi, si Oper1(dsespoir) = prouver, ressentir, avoir, CausOper1(dsespoir) reprsente Òfaire en sorte que quelquÕun prouve du dsespoirÓ. Donc CausOper1(dsespoir) = pousser, rduire [qqn au dsespoir], jeter [qqn dans le dsespoir], frapper [qqn de dsespoir]. Il nÕest donc pas possible de reprsenter chaque fonction lexicale comme un attribut dand une structure, puisque la possibilit de composition entrane toute une combinatoire des fonctions lexicales. Nous les reprsenterons donc par la structure logique de base function. Cette structure logique sÕexprime de la manire suivanteÊ: (function keywords*) o les mots-cls dfinissent des contraintes sur les classes acceptables pour les diffrents lments de fonctionÊ: :label class spcifie la classe identifiant la fonction. :arguments class spcifie la liste des classes acceptable pour les arguments de la fonction. :value class spcifie la classe acceptable en valeur de la fonction. Ainsi, la structure correspondant aux fonctions lexicales peut sÕexprimer comme suitÊ: (def-linguistic-class lex-sem-fns (set-of (lex-sem-fn))) (def-linguistic-class lex-sem-fn (function :label nom-FL :arguments (FL-arg) :value expression-linguistique)) Pour reprsenter la composition de fonctions, on peut autoriser lÕutilisation dÕune fonction lexicale en argument dÕune fonction lexicale. Nanmoins, la valeur de la FL argument (si elle existe) nÕest pas pertinente. Seule lÕtiquette des fonctions composes est porteuse dÕinformation. Aussi, le plus simple est dÕautoriser une valeur complexe en label de la fonction. Nous dfinirons donc un label de fonction comme une liste (ordonne) de noms de fonctions de base. (def-linguistic-class nom-FL (list-of (nom-FL-base))) Le nom dÕune fonction de base est donn par un identificateur de la fonction (une chane de caractres) et par le numro de lÕactant sur lequel elle opreÊ: (def-linguistic-class nom-FL-base (feature-structure ((fonction string) (actant integer)))) LÕargument de la fonction est un smantme. Le fait dÕindiquer cet argument est redondant puisque cette fonction est dfinie lÕintrieur dans la structure mme du smantme. (def-linguistic-class FL-arg sémantème) Un ordre partiel est dfini sur Σ et not <<. Les structures logiques de base sont incomparables selon cet ordre. (Σ, <<) dfinit un treillis ayant lÕaspect donn en figure 4.11. Si la classe linguistique X est dfinie en fonction de la structure logique x, alors X se trouvera dans le sous-treillis ΣÕx. Si la classe linguistique Y est dfinie en fonction de X, figurant dans le sous treillis ΣÕx, alors Y figurera dans le sous-treillis ΣÕx. Deux classes linguistiques quelconques figurant dans deux sous-treillis diffrents sont donc incomparables par <<. LÕopration dÕunification (note U) est dfinie sur ΣÕx × ΣÕx pour toute structure logique x. Elle choue (retourne ⊥) sur ΣÕx × ΣÕy (x y). Le symbole spcial T, situ au sommet du treillis (Σ,<<), est lÕlment neutre de lÕopration dÕunification. 2.2.2. Arbres La structure linguistique et informatique la plus classique est sans conteste lÕarbre. Il est donc normal de proposer cette structure en premier. La structure dfinie ici reprsente la classe des arbres dcors. 2.2.2.1. Dfinition de la structure La dfinition dÕune classe linguistique ayant une structure dÕarbre se fait de la manire suivanteÊ: (tree keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrentes parties de lÕarbre. Les mots-cls possibles sontÊ: :root class spcifie la classe acceptable pour les valeurs des dcorations de la racine de l'arbre. :leaves class spcifie la classe acceptable pour les valeurs des dcorations des feuilles de l'arbre. :nodes class spcifie la classe acceptable pour les valeurs des dcorations de lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elles ne sont pas dfinies par ailleurs). class est une classe linguistique quelconque. Si les mots-cls root et leaves ne sont pas dfinis, ils prennent la valeur associe :nodes. 2.2.2.2. Hritage Si parent-class est une classe linguistique ayant une structure dÕarbre, on peut en hriter en dfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-cls redfinissent les classes qui peuvent tre valeurs de dcoration des diffrentes parties de parent-class. Les mots-cls sont les mmes que ceux utiliss dans la dfinition dÕun arbre. On peut aussi spcifier le mot-cl inheritance-type, qui rgit la smantique de lÕhritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (tree :root Y :leaves Z :nodes W)) et si XÕ est dfini de la manire suivanteÊ: (define-linguistic-class X’ (X :root A)) alors XÕ correspond la structureÊ: (tree :root A :leaves Z :nodes W) - si inheritance-type a la valeur unificationÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (tree :root Y :leaves Z :nodes W)) et si XÕ est dfini de la manire suivanteÊ: (define linguistic-class X’ (X :root A)) alors XÕ correspond la structureÊ: (tree :root U’(Y,A) :leaves Z :nodes W) 2.2.2.3. Unification LÕunification sur ΣÕarbres × ΣÕarbres est dfinie de la manire suivanteÊ: UÊ: ΣÕarbres × ΣÕarbres → ΣÕarbres (T1, T2) → T Si T1est lÕarbre dont les valeurs de dcoration acceptables sontÊ: en racineÊ: R1 en feuillesÊ: F1 en nÏudsÊ: N1. et si T2 est lÕarbre dont les valeurs de dcoration acceptables sontÊ: en racineÊ: R2 en feuillesÊ: F2 en nÏudsÊ: N2. alors T est lÕarbre dont les valeurs de dcoration acceptables sontÊ: en racineÊ: UÕ(R1,R2) en feuillesÊ: UÕ(F1,F2) en nÏudsÊ: UÕ(N1,N2). LorsquÕune valeur de dcoration acceptable nÕest pas dfinie par le linguiste, elle a la valeur T. 2.2.3. Graphes La seconde structure que nous proposons est largement utilise dans le domaine du Traitement Automatique des Langues Naturelles. Bien souvent, on interprte une structure en terme de graphes (les structures de traits avec rentrance notamment). Il est donc naturel de proposer cette structure de graphe parmi les structures logiques de base. Les graphes implments ici portent des dcorations quelconques sur les nÏuds et les arcs. 2.2.3.1. Dfinition de la structure La dfinition dÕune classe linguistique ayant une structure de graphe se fait de la manire suivanteÊ: (graph keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrentes parties du graphe. Les mots-cls possibles sontÊ: :nodes class spcifie la classe acceptable pour les valeurs des dcorations des nÏuds du graphe. :arcs class spcifie la classe acceptable pour les valeurs des dcorations des arcs du graphe. class est une classe linguistique quelconque. 2.2.3.2. Hritage Si parent-class est une classe linguistique ayant une structure de graphe, on peut en hriter en dfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-cls redfinissent les classes qui peuvent tre valeurs de dcoration des diffrentes parties de parent-class. Les mots-cls sont les mmes que ceux utiliss dans la dfinition dÕun graphe. On peut aussi spcifier le mot-cl inheritance-type, qui rgit la smantique de lÕhritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (graph :nodes Y :arcs Z)) et si XÕ est dfini de la manire suivanteÊ: (define-linguistic-class X’ (X :nodes A)) alors XÕ correspond la structureÊ: (graph :nodes A :arcs Z) - si inheritance-type a la valeur unificationÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (graph :nodes Y :arcs Z)) et si XÕ est dfini de la manire suivanteÊ: (define linguistic-class X’ (X :nodes A)) alors XÕ correspond la structureÊ: (graph :nodes U’(X,A) :arcs Z) 2.2.3.3. Unification LÕunification sur ΣÕgraphes × ΣÕgraphes est dfinie de la manire suivanteÊ: UÊ: ΣÕgraphes × ΣÕgraphes → ΣÕgraphes (G1, G2) → G Si G1est le graphe dont les valeurs de dcoration acceptables sontÊ: en arcs: A1 en nÏudsÊ: N1. et si T2 est lÕarbre dont les valeurs de dcoration acceptables sontÊ: en arcs: A2 en nÏudsÊ: N2. alors T est lÕarbre dont les valeurs de dcoration acceptables sontÊ: en arcs: UÕ(A1, A2) en nÏudsÊ: UÕ(N1, N2). LorsquÕune valeur de dcoration acceptable nÕest pas dfinie par le linguiste, elle a la valeur T. 2.2.4. Liens Il est souvent trs utile de pouvoir tablir un lien entre diffrentes units dÕune base lexicales. Certains travaux dfinissent grce de tels liens des graphes recouvrant lÕensemble des lexiques. De plus, cet lment est quasi indispensable dans une approche par transfert. La classe de liens dfinie ici porte une dcoration quelconque. 2.2.4.1. Dfinition de la structure La dfinition dÕune classe linguistique ayant une structure de lien se fait de la manire suivanteÊ: (link keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrents lments du lien. Les mots-cls possibles sontÊ: mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (automaton :arcs Y :nodes Z :starting-node W)) et si XÕ est dfini de la manire suivanteÊ: (define linguistic-class X’ (X :arcs A :ending-nodes B)) alors XÕ correspond la structureÊ: (automaton :arcs U’(Y, A) :nodes Z :starting-node W :ending-nodes B) 2.2.5.3. Unification LÕunification sur ΣÕautomates × ΣÕautomates est dfinie de la manire suivanteÊ: UÊ: ΣÕautomates× ΣÕautomates → ΣÕautomates (A1, A2) → A Si A1est le graphe dont les valeurs de dcoration acceptables sontÊ: en arcs: Ar1 en nÏudsÊ: N1 en nÏud initialÊ: NI1 en nÏuds finalsÊ: NF1. et si A2 est le graphe dont les valeurs de dcoration acceptables sontÊ: en arcs: Ar2 en nÏudsÊ: N2. en nÏud initialÊ: NI2 en nÏuds finalsÊ: NF2. alors A est le graphe dont les valeurs de dcoration acceptables sontÊ: en arcs: UÕ(Ar1, Ar2) en nÏudsÊ: UÕ(N1, N2) en nÏud initialÊ: UÕ(NI1, NI2) en nÏuds finalsÊ: UÕ(NF1, NF2). LorsquÕune valeur de dcoration acceptable nÕest pas dfinie par le linguiste, elle a la valeur T. 2.2.6. fonctions Les fonctions lexicales, comme celle introduites par Igor MelÕcÿuk, vont jouer un grand rle dans les dictionnaires. Il est possible de simuler une telle structure avec un lien portant une certaine dcoration. Nanmoins, nous avons choisi de lÕinclure parmi les structures de base. 2.2.6.1. Dfinition de la structure La dfinition dÕune classe fonction se fait de la manire suivanteÊ: (function keywords*) o les mots-cls dfinissent des contraintes sur les classes acceptables pour les diffrents lments de la fonctionÊ: :label class spcifie la classe identifiant la fonction. :arguments class spcifie la liste des classes acceptable pour les arguments de la fonction. :value class spcifie la classe acceptable en valeur de la fonction. 2.2.6.2. Hritage Si parent-class est une classe fonction, on peut en hriter en dfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-cls redfinissent les classes qui peuvent tre valeurs de dcoration des diffrentes parties de parent-class. Les mots-cls sont les mme que ceux utiliss dans la dfinition dÕune fonction. On peut aussi spcifier le mot-cl inheritance-type, qui rgit la smantique de lÕhritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (function :label Y :arguments Z :value W)) et si XÕ est dfini de la manire suivanteÊ: (define-linguistic-class X’ (X :label A)) alors XÕ correspond la structureÊ: (function :label A :arguments Z :value W) - si inheritance-type a la valeur unificationÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spcifies pour le mme mot-cl. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (function :label Y :arguments Z :value W)) et si XÕ est dfini de la manire suivanteÊ: (define linguistic-class X’ (X :label A)) alors XÕ correspond la structureÊ: (automaton :label U’(Y, A) :arguments Z :value W)) 2.2.6.3. Unification LÕunification sur ΣÕfonctions × ΣÕfonctions est dfinie de la manire suivanteÊ: UÊ: ΣÕfonctions × ΣÕfonctions → ΣÕfonctions (F1, F2) → F Si F1est une classe fonction dont les valeurs acceptables sontÊ: en tiquette: L1 en argumentsÊ: A1 en valeursÊ: V1 et si A2 est une classe fonction dont les valeurs acceptables sontÊ: en tiquette: L2 en argumentsÊ: A2 en valeursÊ: V2 alors A est une classe fonction dont les valeurs acceptables sontÊ: en tiquette: UÕ(L1, L2) en argumentsÊ: UÕ(A1, A2) en valeursÊ: UÕ(V1, V2) LorsquÕune valeur de dcoration acceptable nÕest pas dfinie par le linguiste, elle a la valeur T. 2.2.7. Structures de traits Les structures de traits sont trs utilises par diffrents formalismes Òfonds sur lÕunificationÓ. Nous les incluons donc dans lÕensemble des structures logiques de base de SUBLIM. La classe dfinie ici est une gnralisation des structures de traits, puisque nÕimporte quelle structure linguistique peut tre valeur dÕun trait. 2.2.7.1. Dfinition de la structure La dfinition dÕune classe linguistique de type structure de traits se fait de la manire suivanteÊ: (feature-structure features) o lÕargument features est une liste de couples parenthss reprsentant la liste des attributs dfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. Contrairement certains langages dÕunification [At-Kaci 1986, Emele & Zajac 1990b], apparents aux langages prototypes, nous tablissons une diffrence entre les classes (ce que nous dfinissons ici) et leurs instances, qui serviront de briques de base aux articles de dictionnaires. Aussi, lorsque nous dfinissons une classe linguistique de la manire suivanteÊ: (feature-structure ((trait1 class1) (trait2 class2) (trait3 class3))) les instances de cette classe linguistique ne peuvent pas contenir de traits non dfinis ici. Seuls trait1, trait2 et trait3 seront des traits valides pour ces instances. Par contre, il est possible dÕhriter dÕune classe linguistique de type structure de traits en rajoutant de nouveaux traits. 2.2.7.2. Hritage Si parent-class est une classe linguistique de type structure de traits, on peut en hriter en dfinissant une nouvelle classe linguistique parÊ: (parent-class features keywords*) o lÕargument features est une liste de couples parenthss reprsentant la liste des attributs (re)dfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. Les mots- cls permettent de spcifier le comportement de lÕhritage. LorsquÕun attribut de la classe rsultante est gale lÕunion des attributs de la classe mre et des attributs de lÕargument features, la valeur des attributs situs dans lÕintersection des attributs de la classe mre et des attributs de lÕargument features, dpend du mot-cl inheritance-typeÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique remplacent la valeur de la classe mre, spcifies pour le mme attribut. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (feature-structure ((trait1 X) (trait2 Y))) et si XÕ est dfini de la manire suivanteÊ: (define-linguistic-class X’ (X ((trait1 A) (trait3 Z))) alors XÕ correspond la structureÊ: (feature-structure ((trait1 A) (trait2 Y) (trait3 Z))) - si inheritance-type a la valeur unificationÊ: pour chaque mot-cl, les valeurs spcifies dans la dfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spcifies pour le mme attribut. Par exemple, si X est dfini de la manire suivanteÊ: (define-linguistic-class X (feature-structure ((trait1 X) (trait2 Y))) et si XÕ est dfini de la manire suivanteÊ: (define-linguistic-class X’ (X ((trait1 A) (trait3 Z))) alors XÕ correspond la structureÊ: (feature-structure ((trait1 U’(A, X)) (trait2 Y) (trait3 Z))) 2.3. Implémentation LÕimplmentation du noyau de SUBLIM repose sur le langage Dcor, dfini et implment par Mathieu Lafourcade [Lafourcade 1994b]. Dcor est un langage de dcoration implment en CLOS. Ce langage permet de dfinir des types (analogues aux classes en CLOS). Il est possible de contraindre les type de valeurs possibles pour les attributs (analogues aux slots en CLOS). Enfin, on peut dfinir son propre mcanisme dÕhritage et associer, aux attributs dÕun type, des contraintes qui devront tre vrifis tout moment. 2.3.1. Les structures de base Les structures de base de SUBLIM sont implmentes comme des types en DCOR. Les lments du dictionnaire seront des instances de ces types. Ë titre dÕillustration, nous allons donner lÕimplmentation des types structures de traits, arbres, et ensembles. LÕimplmentation des structures de traits est immdiate dans un langage de dcoration tel que Dcor, ces structures tant dj dfinies sous le nom :aggregatedÊ: (define! feature-structure :type (:is-a :aggregated)) Le type arbre nÕest pas dfini dans DCOR. Nous allons donc le dfinir comme un type agrgat. Chaque arbre contient un trait donnant son pre, la liste de ses fils et sa dcorationÊ: (define! daughters :type (:is-a :list) (:allowed-types '(tree))) (define! tree :type (:is-a :aggregated) (father (:type 'tree) (:obl t)) (daughters (:type 'daughters) (:obl t)) (decoration (:type :top))) Enfin, le type liste tant dfini dans Dcor, nous l'utiliserons pour l'implmentation des ensemblesÊ: (define! set-of :type (:is-a :list)) 2.3.2. Les classes linguistiques La dfinition des classes linguistiques est faite par rapport aux structures de base ou des classes linguistiques dj dfinies. Cette dfinition se traduit par la cration dÕun nouveau type DCOR hritant du type correspondant la structure de base. Les expressions de dclaration de classes linguistiques sont des macros LISP qui se rcrivent sous forme de dfinitions de types. Nous donnons un exemple dÕune telle dclaration pour des structures de traits, des arbres et des ensembles. Le premier exemple est une dclaration de structure de traits. (define-linguistic-class morph (feature-structure (graphic-form string) (category cat)) Cette dclaration se rcrit enÊ: (define! morph :type (:is-a 'feature-structure) (graphic-form (:type :lexical)) (category (:type 'cat))) Le second exemple porte sur la dclaration dÕune classe linguistique base sur une structure dÕarbreÊ: (define-linguistic-class entry (tree :root morph :leaves sem-unit)) Cette dclaration se rcrit enÊ: (define! entry :type (:is-a 'tree) (:root-decoration '(morph)) (:leaves-decoration '(sem-unit))) o les contraintes root-decoration et leaves-decoration ont t dfinies comme suitÊ: (define! root-decoration :constraint (:arguments (decoration-classes :list)) (:object-category :decor) (:daemons :if-added) (:check-constraint-method (object object-category constraint-name args) (if (and (first args) (= (get-value object.father) nil)) (or-list (mapcar #'(lambda (x) (is-a-p (get-value object.decoration) x)) (first args)) )))) (define! leaves-decoration :constraint (:arguments (decoration-classes :list)) (:object-category :decor) (:daemons :if-added) (:check-constraint-method (object object-category constraint-name args) (if (and (first args) (= (get-value object.daughters) nil)) (or-list (mapcar #'(lambda (x) (is-a-p (get-value object.decoration) x)) (first args)) )))) Le troisime exemple porte sur la dfinition dÕune classe linguistique base sur une structure dÕensembleÊ: (def-linguistic-class valency (set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) Cette dfinition se rcrit enÊ: (define! valency :type (:is-a 'set-of) (:allowed-types '(nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) LÕhritage dÕune structure linguistique dfinie auparavant se traduit exactement de la mme manire quÕune dfinition, partir dÕune des structures de base prdfinies. Si par exemple la classe linguistique UM est dfinie de la manire suivanteÊ: (def-linguistic-class UM (feature-structure ((formes-brèves (set-of ((link :target UM :label type-forme-brève)))) (étymologie (set-of ((link :target étymon)))) (combVE (link :target combVE)) (appellation string) ))) Cela correspond en DCOR Ê: (define! UM :type (:is-a 'feature-structure) (formes-brèves (define! nil :type (:is-a 'set-of) (:allowed-types '((define nil :type (:is-a 'link) (target (:type 'UM)) (label (:type 'type-forme-brève))))))) (étymologie (define! nil :type (:is-a 'set-of) (:allowed-types '((define nil :type (:is-a 'link) (target (:type 'étymon))))))) (combVE (define nil :type (:is-a 'link) (target (:type 'combVE)))) (appellation :lexical)) Il sera possible dÕhriter de cette structure, comme dans la dfinition suivanteÊ: (def-linguistic-class UM_S (UM ((usyn-l (set-of (USyn))) (a-pour-Umg (set-of (Umg) :min-elements 1)) (a-pour-Ump (set-of (Ump) :min-elements 1))) )) Ce qui correspond, de manire analogue, Ê: (define! UM_S :type (:is-a 'UM) (usyn-l (define! nil :type (:is-a 'set-of) (:allowed-types '(USyn)))) (a-pour-Umg (define! nil :type (:is-a 'set-of) (:allowed-types '(Umg)) (:range 1))) ;; seule la borne inférieure est notée ;; lorsqu'il n'y a pas de borne sup. (a-pour-Ump (define! nil :type (:is-a 'set-of) (:allowed-types '(Ump)) (:range 1))) Lorsque lÕinterprtation de lÕhritage est diffrente du mcanisme dÕhritage standard, DCOR permet, grce des formules, de modifier cet hritage. Ainsi, on dfinit lÕhritage dÕune structure dÕensemble de la manire suivanteÊ: (def-linguistic-class T2 (T1 (x1 x2 x3) :min-elements 1)) se rcrit enÊ: (define! T2 :type (is-a 'T1) (:allowed-types (:value '(set-inheritance super-type '(x1 x2 x3))) (:interpretation :formula)) (:range (:value '(min (get-value T1.range 1))) (:interpretation :formula))) o set-inheritance est une fonction LISP calculant lÕhritage sur lÕensemble des classes possibles pour les lments de lÕensemble. Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Syntaxe entrée Figure 5.1Ê: Architecture logicielle du systme SUBLIM Cette architecture permet au systme SUBLIM dÕtre neutre par rapport au type de base de donnes que lÕon souhaite utiliser. Elle permet aussi de bien sparer structure interne et prsentation, ce qui permet de bnficier des avantages exposs dans la partie suivante. 2. Niveau Interne : manipulation des informations linguistiques LÕutilisation dÕune base quelle quÕelle soit passe par la possibilit dÕextraire des informations de cette base. Dans lÕoutil SUBLIM, les informations linguistiques ont deux caractristiques essentiellesÊ: - une structuration trs forte, - un mlange de structures logiques de base. Il nous faut donc dvelopper un moyen qui permette dÕextraire de la base lexicale une structure, selon les critres que le linguiste souhaite dfinir. Pour extraire une structure de la base lexicale, le linguiste doit donner lÕensemble des conditions minimales que doivent vrifier les structures extraire. Pour cela, il spcifie une structure ÒpatronÓ. Le rsultat de cette requte dÕextraction est la liste des lments de dictionnaire qui sÕapparient avec la structure ÒpatronÓ. Cette extraction peut tre utilise pour diffrents types dÕutilisation (navigation, manipulation). Dans le cas o le linguiste souhaite faire des calculs sur les structures ainsi extraites, il est intressant dÕaffecter des variables des lments de cette structure. Pour dfinir une structure ÒpatronÓ, il faut pouvoir dnoter des instances particulires des diffrentes classes linguistiques. Notre langage le permet. De plus, lorsqu'on sait dnoter une structure linguistique, il faut pouvoir lire et manipuler les diffrentes valeurs associes aux lments de cette structure. Dans cette partie, nous donnons un moyen de dnoter un ensemble de structures linguistiques et un moyen de manipuler ses diffrentes parties. 2.1. Dénoter un ensemble de structures Pour dnoter un ensemble de structures, on dfinit un ÒpatronÓ. Ce patron est une structure partiellement dfinie et comportant des variables. Il dsigne toutes les structures de la base auxquelles il sÕapparie. Les particularits du systme Sublim font quÕun tel patron peut tre complexe. Par exemple, on doit pouvoir dsigner une structure dÕarbre, dont la racine est un automate o lÕtat dÕentre est une structure de traits contenant au moins un trait nomm cat ayant la valeur X, et dont les feuilles sont des structures de traits ayant un trait nomm cat avec la mme valeur X. On le voit, le linguiste doit pouvoir spcifier un patron trs complexe. Dans ce cas, le plus simple pour le linguiste est de manipuler une vue graphique. Il pourra ainsi visualiser sa structure linguistique de manire simple alors que la traduction de cette vue graphique en sa vue interne sera trop complexe pour tre lisible. Nous ne donnerons pas la syntaxe interne dans son ensemble, mais en montrerons des extraits dans les exemples de contraintes et de rgles de valeurs par dfaut que nous donnons plus loin. 2.2. Manipuler une structure linguistique Pour manipuler une structure linguistique, il faut disposer de moyens d'accder aux diffrentes composantes de cette structure. Dans cette section, nous donnons les diffrentes fonctions d'accs aux informations linguistiques. 2.2.1. valeurs de base Les valeurs de base (boolean, string, integer, real) sont notes sous leur forme habituelle. Par exempleÊ: - booleanÊ: true, false; - stringÊ: "ceci est une chaîne", "cela aussi"É - integerÊ: 1, 2, 3É - realÊ: 1.32, 2É 2.2.2. Arbres La manipulation d'une structure d'arbre passe par les primitives suivantesÊ: - rootÊ: retourne la racine de l'arbreÊ; - daughters: retourne les sous-arbres de l'arbreÊ; - leavesÊ: retourne la liste des feuilles de l'arbreÊ; - leave?Ê: retourne vrai si l'arbre est une feuilleÊ; - nodesÊ: retourne la liste des nÏuds de l'arbre (cette fonction prend un argument supplmentaire indiquant si le parcours se fait en profondeur d'abord ou en largeur d'abord). 2.2.3. Graphes La manipulation d'une structure de graphe passe par les primitives suivantesÊ: - nodesÊ: retourne la liste des nÏuds du graphe, sans duplication, sans ordre particulierÊ; - arcsÊ: retourne la liste des arcs du graphe, sans duplication, sans ordre particulier. Sur un nÏud d'un graphe, on peut utiliser les primitivesÊ: - entering-arcsÊ: retourne la liste des arcs menant ce nÏudÊ; - leaving-arcsÊ: retourne la liste des arcs partant de ce nÏudÊ; Sur un arc d'un graphe, on peut utiliser les primitivesÊ: - sourceÊ: le nÏud d'o vient l'arcÊ; - targetÊ: le nÏud vers lequel pointe l'arc. Et, indiffremment sur un nÏud ou sur un arcÊ: - decorationÊ: retourne la structure de dcoration associe au nÏud (ou l'arc). 2.2.4. Liens La manipulation d'un lien est identique la manipulation d'un arc de grapheÊ: - sourceÊ: le nÏud d'o vient l'arcÊ; - targetÊ: le nÏud vers lequel pointe l'arcÊ; - decorationÊ: retourne la structure de dcoration associe l'arc. 2.2.5. Automates La manipulation d'une structure d'automate passe par les primitives suivantesÊ: - starting-nodeÊ: retourne l'tat initial de l'automateÊ; - ending-nodesÊ: retourne la liste des tats finals de l'automateÊ; - nodesÊ: retourne la liste des nÏuds de l'automateÊ; - transitionsÊ: retourne la liste des transitions de l'automate. Sur l'tat d'un automate, on peut utiliser les primitivesÊ: - entering-transitionsÊ: retourne la liste des transitions menant cet tatÊ; - leaving-transitionsÊ: retourne la liste des transitions partant de cet tat. Sur une transition, on peut utiliser les primitivesÊ: - sourceÊ: l'tat d'o vient la transitionÊ; - targetÊ: l'tat vers lequel pointe la transition. Et, indiffremment sur un tat ou sur une transitionÊ: - decorationÊ: retourne la structure de dcoration associe au nÏud (ou l'arc). 2.2.6. fonctions La manipulation d'une structure fonction passe par les primitives suivantesÊ: - labelÊ: retourne le label de la fonction (qui peut tre une structure complexe)Ê; - argumentsÊ: retourne les arguments associes une instance de fonction (lorsque cette instance est associe une structure particulire)Ê; - valueÊ: retourne la valeur associe une instance de fonction (lorsque cette instance est associe une structure particulire)Ê; - applyÊ: retourne la valeur rsultat de l'application de la fonction aux arguments passs en paramtres. Figure 5.3Ê: Le mme article vu sous la forme habituelle Une telle mthode permet de sÕaffranchir des problmes typographiques lors de lÕdition dÕun document. 3.2. Le dictionnaire, un document structuré De la mme manire quÕun document a une structure interne, un dictionnaire est un ensemble dÕarticles ayant une structure particulire. Dans le chapitre prcdent, nous avons expos les moyens dont dispose le linguiste pour dfinir la structure dÕune base lexicale et des dictionnaires quÕelle contient. LorsquÕon veut crer, remplir, grer ou consulter un dictionnaire, on utilise une forme particulire refltant cette structure interne. La problmatique tant analogue celle des documents structurs, nous proposons de rutiliser les outils produits dans ce domaine pour grer lÕinterface entre un utilisateur et un dictionnaire. Un dictionnaire est tout de mme un document structur particulier, par sa taille, par la complexit des structures quÕil peut contenir, et par le nombre lev dÕusages diffrents que lÕon veut en faire. Ces particularits rendent cruciale la possibilit de proposer diffrentes vues dÕun mme dictionnaire. En effet, les utilisateurs dÕun dictionnaire souhaitent avoir une forme particulire leur usage, soit parce quÕelle est mieux adapte leurs motivations, soit parce quÕils ne souhaitent voir que les informations pertinentes un usage particulier. Pour illustrer cette possibilit, prenons lÕexemple dÕun dictionnaire bilingue que nous allons coder en GRIF. Ce dictionnaire a un titre, des commentaires, et une liste dÕentres regroupes en lettres. Les entres du dictionnaire se composent dÕun lemme, dÕune catgorie et dÕune liste de sens. Un sens comprend un contexte ou synonyme (lÕidentifiant parmi les diffrents sens possibles) ainsi quÕune liste de constructions syntaxiques (un ensemble dÕarbres), une liste de traductions (repres par un contexte), et une liste dÕexemples avec leurs traductions. En GRIF, cette structure sÕcrit de la manire suivante, dans le langage S4Ê: {Nom de la structure} STRUCTURE bilingue; {Nom de sa présentation principale} DEFPRES bilingueP; STRUCT {Un dictionnaire bilingue a deux attributs (la langue cible et la langue source} {Il a un nom, des commentaires et un ensemble d’entrées } bilingue (ATTR !Langue_source = TEXT; !Langue_cible = TEXT) = BEGIN Nom_Dico = Text; ?Commentaire = Paragraphe_sequence; Entr\351e_sequence = LIST OF (Lettres_Entr\351e); END; Paragraphe_sequence = LIST OF (Paragraphe); { Les entrées sont regroupées par lettres } Lettres_Entr\351e (ATTR !Lettre = TEXT) = LIST OF (Entr\351e); { Une entrée comprend un lemme, une catégorie et une liste de sens } Entr\351e = BEGIN Lemme = TEXT; cat\351gorie = TEXT; Liste_sens = LIST OF (sens); END; { Le sens est indiqué par un contexte, suivi d’un ensemble d’arbres syntaxiques, de traductions et d’exemples } sens = BEGIN Contexte_Global = TEXT; ?Syntaxes = LIST OF (Arbre); ?Traductions = LIST OF (Trad); ?Exemples = LIST OF (Exemple); END; 4 L’annexe B donne une introduction à GRIF et présente brièvement ses différents langages. Trad = BEGIN Contexte_Source = TEXT; Traduction = TEXT; END; Exemple = BEGIN Exemple_Source = TEXT; Traduction_exemple = TEXT; END; END LorsquÕon indexe ce dictionnaire, on veut avoir une vue o les informations sont compltes et clairement spares. Ainsi, lÕentre composer du dictionnaire peut tre cre sous la forme donne par les figures 5.4 et 5.5. Figure 5.4Ê: Vue intgrale de lÕentre composer (transitif) Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. LÕutilisation dÕun systme de production de documents structurs nous permet donc, pour un cot rduit, dÕoffrir de nombreuses vues dÕun mme dictionnaire. Par la cration de vues ÒditorialesÓ, on intgre lÕensemble de la chane de production dÕun dictionnaire (conception, cration, gestion, ditionÉ) dans un seul outil. LÕutilisation du systme GRIF, pour la prsentation des donnes, est facilite par son architecture. En effet, il ne se prsente pas uniquement comme une application autonome et ferme, mais comme une bote outils. Cet aspect permet de lÕutiliser, non pas comme un diteur indpendant du systme SUBLIM, mais comme un composant intgr au systme. Nanmoins, GRIF prsente actuellement deux limitations qui sont importantes dans le contexte des dictionnaires. En premier lieu, GRIF est un outil mono-script. Cela signifie quÕil nÕest capable de grer que les langues dont lÕcriture est base sur lÕalphabet romain. Ainsi, il est impossible de manipuler des dictionnaires russes, arabes, chinois ou japonais5. LÕditeur GRIF permet dÕditer et de manipuler du texte. Or, certaines structures de dictionnaire ont des attributs qui ont un nombre fini de valeurs atomiques possibles. Dans ce cas, on souhaiterait que lÕditeur ne permette pas la saisie dÕune valeur non prvue. Cela peut se faire en associant lÕattribut en question un menu droulant contenant lÕensemble des valeurs possibles. Mais, deuxime limitation, lÕutilisation dÕun tel menu nÕest pas possible lÕintrieur dÕun document GRIF. Bien que GRIF soit utilisable pour construire une maquette de systme, voire un prototype limit dans les langues quÕil accepte, il ne peut pas tre utilis dans son tat actuel pour la cration dÕun systme de gestion de dictionnaires multilingues. Son utilisation dans une maquette a deux avantages importantsÊ: - illustrer les avantages dÕune approche du dictionnaire en tant que document structur, - inciter les constructeurs de systme de production de documents structurs gnraliser leurs produits et les tendre de nouveaux scripts. 4. Vérificateur de cohérence Le but du vrificateur de cohrence est de vrifier que les entres dÕun dictionnaire sont conformes des contraintes spcifies a priori. Ces contraintes sont dfinies en rfrence la structure linguistique du dictionnaire. Pour chaque dictionnaire, le linguiste peut dfinir un ensemble de contraintes et les vrifier sur lÕensemble du dictionnaire lorsquÕil le souhaite (contraintes statiques). Il peut aussi dfinir des contraintes qui seront vrifies chaque fois quÕune entre sera cre ou modifie (contraintes dynamiques). Notons que certaines parties de la dfinition de lÕarchitecture linguistique sont analogues des contraintes (la cardinalit dÕune liste par exemple). Ces contraintes, dites ÒstructurellesÓ sont vrifies dynamiquement la modification des attributs sur lesquels elles portent. Aprs avoir prcis les notions utilises par le vrificateur de cohrence, nous donnerons quelques exemples de contraintes. 4.1. Notions Une contrainte est une rgle dfinie par un linguiste. Ces contraintes sont vrifies lorsque le linguiste le souhaite, o chaque fois quÕune entre est cre ou modifie. Un filtre est un ensemble de contraintes. On dfinit trois niveaux de contraintesÊ: - AlerteÊ: lorsquÕune contrainte de ce niveau est invalide pour une entre, un message est envoy au linguiste. Tous les traitements restent autoriss sur cette entre. LÕalerte 5 En effet, le travail de multilinguisation de GRIF effectué par Huy Khánh Phan [Phan 1991, Phan & Boitet 1992] a été réalisé sur une version de laboratoire figée et n’a pas (encore) été repris dans la version commerciale, ni dans les versions de recherche plus récentes du projet OPERA. disparat ds que le lexicographe valide lÕentre. Ce type de contrainte est utilis pour dtecter des erreurs potentielles. - DlaiÊ: lorsquÕune contrainte de ce niveau est invalide pour une entre, un message est envoy au linguiste. LÕentre en question ne pourra pas tre exporte. Les traitements interactifs (dition, navigation) ne sont pas changs. Ces contraintes sont utilises pour la gestion dÕentres temporairement incompltes. - CritiqueÊ: ce niveau de contrainte nÕest pertinent que pour une contrainte dynamique. LorsquÕune contrainte de ce niveau est viole par une transaction sur une entre, cette transaction est annule. Un message est envoy au linguiste avec les renseignements ncessaires la rectification de lÕerreur. On dfinit trois types de contraintesÊ: - IntgritÊ: une contrainte dÕintgrit sÕapplique un article dÕun dictionnaire de la base lexicale. Elle assure quÕaucun article de la base lexicale ne prsente une configuration illicite. - Cohrence localeÊ: un contrainte de cohrence locale sÕapplique diffrents articles dÕun mme dictionnaire. Ces contraintes permettent de vrifier la cohrence dÕun dictionnaire. - Cohrence globaleÊ: une contrainte de cohrence globale sÕapplique diffrents articles de diffrents dictionnaires dans une mme base lexicale. Ces contraintes permettent de vrifier la cohrence globale de lÕensemble des dictionnaires dans une base lexicale. Une contrainte contient trois parties principalesÊ: - un patron qui spcifie lÕensemble des objets de la base de donnes qui sont concerns par cette contrainte, - une expression boolenne qui doit tre vrifie par lÕensemble des objets concerns, - une partie dclaration qui donne des informations supplmentaires sur la contrainte (message dÕerreur, commentaire, niveauÉ). Les contraintes dÕintgrit et de cohrence locale sont associes un dictionnaire. Les contraintes de cohrence globale sont associes une base lexicale. La dfinition dÕune contrainte ne peut se faire que si lÕon a auparavant dfini lÕarchitecture linguistique des diffrents dictionnaires. En effet, les expression dÕextraction et les expressions boolennes portent sur des lments des diffrentes structures linguistiques. Avant de donner des exemples de contraintes, nous dfinissons donc lÕarchitecture linguistique de la base lexicale auxquelles elles sont associes. 4.2. Structure de la base lexicale La base lexicale sur laquelle portent nos exemples est base sur une approche par transfert. Elle est compose de 3 dictionnaires monolingues (franais, anglais, allemand) et des six dictionnaires bilingues correspondantsÊ: (define-monolingual-dictionary french :language "Français" :owner "GETA") (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") (define-lexical-database example-database :owner "GETA" La seconde contrainte que lÕon souhaite tester est lie aux attributs de drivation de chaque unit smantique. Ces attributs (drvv, drvn, drva) sont incompatibles (un seul dÕentre eux peut tre instanci la fois). Cette contrainte porte sur toutes les units smantiques. LÕexpression boolenne doit vrifier quÕun seul parmi ces attributs est instanci. LorsquÕun attribut nÕest pas instanci, sa valeur est :undef. Cette contrainte sÕexprime de la manire suivanteÊ: (define-coherence-rule only-one-drv :applies-on (@Usem french-sem-unit) :verifies (let ((drvv (get-value Usem.drvv)) (drvn (get-value Usem.drvn)) (drva (get-value Usem.drva))) (cond ((not (= drvv :undef)) (and (= drvn :undef) (= drva :undef))) ((not (= drvn :undef)) (and (= drvv :undef) (= drva :undef))) ((not (= drva :undef)) (and (= drvv :undef) (= drvn :undef))) (T T))) :error-message "Deux dérivations pour une unité sémantique" :level :critical) La dernire contrainte dÕintgrit que nous utiliserons porte aussi sur les drivations. Le type de drivation dfini dpend de la catgorie de lÕunit smantique. Par exemple, un adjectif ne peut porter une information indiquant quÕil est produit par une drivation de verbe vers nom. Nous fractionnons cette contrainte en plusieurs contraintes simples selon la catgorie de lÕunit smantique de laquelle on drive et de la catgorie de lÕunit smantique vers laquelle on drive. Ainsi, le patron dcrit les units smantiques ayant une mme catgorie et drivant dÕune mme catgorie dÕunit smantique. Nous donnons en exemple les adjectifs drivant dÕun verbe. Il nous faut de plus manipuler le type de drivation. Le patron spcifie donc une variable en valeur de lÕattribut deriv-kind. Comme on nÕimpose pas de restriction sur la valeur de ce trait, seule la variable apparat dans le patron (on ne dnote pas sa valeur). LÕexpression boolenne vrifie que le type de drivation est admis dans ce contexteÊ: (define-coherence-rule adj-drvv-coherence :applies-on (french-sem-unit [category : adj, drvv : [deriv-kind : @kind]]) :verifies (or (= kind 'adject) (= kind 'adjpass) (= kind 'adjpotpas) (= kind 'adjresact)) :error-message "L’adjectif a une dérivation incompatible" :level :critical) 4.3.2. Contraintes de cohrence locale Les contraintes de cohrence locale permettent de vrifier la bonne formation de lÕensemble dÕun dictionnaire. Ces contraintes portent donc sur plusieurs units du dictionnaire. Ce type de contrainte est dfini de manire identique aux contraintes prcdentes. La contrainte que nous souhaitons dfinir vrifie que la catgorie de lÕunit smantique indique comme source dÕune drivation est compatible avec cette drivation. En effet, si une unit smantique est le rsultat dÕune drivation en provenance dÕun verbe (resp. dÕun nom, dÕun adjectif), alors lÕattribut drvv (resp. drvn, drva) sera spcifi et lÕunit smantique indique en valeur du trait deriv-from devra tre un verbe (resp. dÕun nom, dÕun adjectif). Nous dfinirons la contrainte vrifiant la cohrence pour lÕattribut drvv. Cette contrainte porte sur toutes les entres qui ont une valeur pour lÕattribut drvv. LÕexpression boolenne suivant :verifies vrifie que lÕunit smantique indique en valeur de lÕattribut deriv-from est un verbeÊ: (define-coherence-rule drvv-deriv-from-coherence :applies-on (french-sem-unit [drvv : [deriv-from : @source]]) :verifies (= (get-value source.category) 'vb) :error-message "Une dérivation verbale doit provenir d’un verbe." :level :critical) 4.3.3. Contraintes de cohrence globale Les contraintes de cohrence globale vrifient la bonne formation de lÕensemble de la base lexicale. Elles portent donc sur des units de diffrents dictionnaires. Ce type de contrainte est dfini de manire analogue aux contraintes prcdentes , mais porte sur diffrents dictionnaires. Le patron doit indiquer sur quel dictionnaire il sÕapplique. Pour cela, chaque classe linguistique indique sera note, prcde du nom du dictionnaire et de Ò::Ó. Ce type de contrainte est dfini au niveau de la base lexicale. La contrainte de cohrence globale que nous souhaitons indiquer vrifie que lÕunit smantique, indique comme source sur un lien du dictionnaire french-english, existe bien dans le dictionnaire french. Cette contrainte porte sur tous les liens de transfert du dictionnaire bilingue french-english. LÕexpression boolenne vrifie lÕexistence de lÕunit smantique source dans le dictionnaire monolingue frenchÊ: (define-coherence-rule drvv-deriv-from-coherence :applies-on (french-english::french-english-transfer-link :source @french-sem-unit) :verifies (exist? french::@french-sem-unit) :error-message "L’unité sémantique source du lien n’existe pas." :level :critical) 5. Défauteur Le but du dfauteur est de donner des valeurs par dfaut aux lments des structures qui nÕont pas t renseigns par le lexicographe. Pour calculer les valeurs par dfaut des diffrents lments, le dfauteur dispose de rgles de calcul dfinies en faisant rfrence la structure linguistique du dictionnaire. Pour chaque dictionnaire, le linguiste peut dfinir un ensemble de rgles de calcul produisant des valeurs probables pour diffrents lments des structures linguistiques. Ces contraintes pourront tre utilises interactivement lors de lÕdition dÕune entre (afin de faciliter le travail du lexicographe) ou bien tre utilises pour complter des entres importes ou partiellement indexes. Aprs avoir prcis les notions utilises par le dfauteur, nous donnerons quelques exemples de rgles de dfaut. 5.1. Notions Une rgle de valeur par dfaut contient trois parties principalesÊ: - un patron qui spcifie lÕensemble des objets de la base de donnes qui sont concerns par cette rgle, - un test qui doit tre vrifi pour que la rgle sÕapplique, - une expression qui associe une valeur un des lments de la structure linguistique. Cet lment ne prendra sa nouvelle valeur que sÕil tait indfini auparavant (le linguiste a cependant un moyen de forcer lÕaffectation sÕil le dsire). On dfinit une rgle de valeur par dfaut par lÕexpression define-default-ruleÊ: define-default-rule name :applies-on pattern :test boolean-expression :do modifications :redefine? boolean Le patron (pattern) a t dfini dans la section prcdente. Le test est une expression boolenne. La rgle ne sÕappliquera que si cette expression est vrifie. La modification porte sur un et un seul lment de la structure linguistique. Le mot-cl :redefine? indique si on force lÕaffectation lorsque la valeur est pralablement dfinie (par dfaut, sa valeur est false). 5.2. Exemples de règles de valeurs par défaut Les exemples suivants sÕappliquent sur la structure utilise dans la section prcdente. Notre premier exemple concerne le trait category de lÕentre french-entry. Pour calculer sa valeur par dfaut, on utilise une rgle heuristique, qui spcifie que les lemmes se terminant en ÒenceÓ sont probablement des noms. Cette rgle de dfaut sÕapplique sur toutes les entres du dictionnaire. Le test porte sur la terminaison du lemme. La modification porte sur le trait category de lÕentre. (define-default-rule nominal-ending-ence :applies-on (@entry french-entry) :test (let ((decor (root entry))) (suffix? (get-value decor.graphic-form) "ence")) :do (assign decor.category 'nc)) Notre second exemple de rgle de valeur par dfaut permet de donner une valeur au trait deriv-kind d'une unit smantique en s'appuyant sur le suffixe du lemme et sur sa catgorie. Ainsi, un nom dont le lemme se termine par ÒementÓ est probablement un nom driv dÕun verbe en tant que nom dÕaction. Cette rgle est complexe crire car elle manipule une entre (afin de tester le lemme) et une des units smantiques qui lui sont associes. Les units smantiques sont les feuilles de lÕarbre dont la racine est dcore par le lemme et la catgorie. Ces feuilles apparaissent une profondeur variable dans les diffrentes entres. Aussi, le patron doit slectionner une feuille de lÕarbre qui se trouve une profondeur quelconque. Pour cela, nous dfinissons un patron sur les arbres french-entry. Ce patron impose une contrainte sur la dcoration de la racine (une dcoration est indique entre accoladesÊ: Ò{patron-sur-décoration}Ó). Il slectionne aussi une des racines de lÕarbre french-entry. Pour cela, nous utilisons les notations suivantesÊ: - @idÊ: dnote un arbre, Pour la seconde tape, le point de dpart est lÕune des units du lexique dÕexport. Cette tape a pour but le remplissage de chacune des units du lexique dÕexport. <entry> <lemma> composition </lemma> <category> nc </category> <USem> <derivation kind = nresult> composer </derivation> ... </USem> </entry> Base Lexicale SUBLIM tape 2Ê: remplissage des units du lexique d'export R Unit du lexique d'export <entry> <lemma> composition </lemma> <category> nc </category> <USem> </USem> </entry> R Unit remplie du lexique d'export Figure 5.9Ê: Seconde tape du processus dÕexport Ainsi, lorsquÕon dfinit ces rgles de remplissage, on se situe dans le contexte dÕune seule unit du lexique dÕexport. De plus, on se place dans le contexte dÕun lment bien particulier dans la structure de cette unit. Ces rgles sont associes chaque lment de la structure dÕexport. Il est possible de disposer dÕune interface graphique pour dfinir les rgles dÕexport. Cette interface permettra de visualiser la structure cible. Ainsi, on peut associer chaque lment de la structure cible une mthode rgissant la cration et la forme de la valeur associe. 6.2. Exemple d’export La structure de dpart est la structure dfinie dans la section 4 de ce chapitre. La structure cible est dfinie par la DTD SGML suivanteÊ: <!-- GETA-IMAG, 1994, export.dtd v.1.0 23/08/94 --> <!-- DTD d'une structure d'export --> <!--Un dictionnaire est une liste d'entrées. On lui associe aussi une langue--> <!ELEMENT Dict - - entry* > <!ATTLIST Dict language CDATA #REQUIRED > <!-- Une entrée est composée d'un lemme et d'une catégorie. --> <!-- Elle est associée à une liste de sens --> <!ELEMENT entry - - Usem* > <!ATTLIST entry lemma CDATA #REQUIRED category %cat #REQUIRED > <!ENTITY % cat "nc|np|vt|vi|adj|card|deict|repr|sub|coord"> <!-- Usem code une unité sémantique. --> <!ELEMENT Usem - - (derivation & aux & reciproque) > <!-- La dérivation donne le lemme source. 2 attributs sont définis --> <!-- pour coder la catégorie du lemme source et le type de dérivation. --> <!ELEMENT derivation - - CDATA > <!ATTLIST derivation source_cat %cat #REQUIRED kind %deriv_kind #REQUIRED > <!ENTITY % deriv_kind "naction|nresult|nlieu|nagent|ninstr|ncond|ncollect| nperson|nabst|adject|adjpass|adjpotpas|adjresact| adjrelat|adjqual|verbe"> <!ELEMENT aux - - EMPTY > <!ATTLIST aux value %auxiliary #REQUIRED > <!ENTITY % auxiliary "être|avoir" > <!ELEMENT reciproque - - EMPTY > <!ATTLIST reciproque value %recipr #REQUIRED > <!ENTITY % auxiliary "arg0_arg1|arg1_arg2" > Le but de la procdure que nous illustrons ici est dÕexporter lÕensemble des noms et verbes dÕun dictionnaire franais dans la structure SGML dfinie ci-dessus. La premire tape de cette procdure consiste crer les units du lexique dÕexport. Ces units sont dsignes par leur lemme et leur catgorie. Ces deux attributs constituent lÕensemble minimal permettant de dsigner une entre de manire non ambigu. La cration des units du lexique source est faite selon les rgles dfinies parÊ: create-export-unit name :when pattern :if boolean-expression :create creation :context variable-list o name identifie la rgle de cration. Le mot-cl when prend pour valeur un patron. Cette rgle ne sera appele que si une unit du lexique sÕapparie avec lui. Le mot-cl if prend pour valeur une condition portant sur les variables dfinies dans le patron. La cration nÕaura lieu que si cette condition est vrifie. Le mot-cl creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette expression, on donne les lment SGML qui sont crer. Les attributs SGML sont nots entre accolades la suite de lÕlment qui les porte et les valeurs sont notes sous forme de symboles ou de chanes de caractres aprs les lments et leurs ventuels attributs. Les sous- lments sont nots entre parenthses. Le mot-cl context indique le contexte qui sera conserv pour lÕtape suivante (remplissage). LÕattribut creation spcifie les valeurs qui identifient de manire unique une unit du lexique dÕexport. Si cette unit existe dj, la cration nÕa pas lieu, mais le contexte de la rgle sÕajoute au contexte de lÕunit dj existante. La cration des units nominales se fait sans problme, puisquÕil y a correspondance directe entre les units nominales des deux lexiques. La rgle de cration spcifie donc que, pour chaque unit nominale du lexique source, on cre une unit dans le lexique dÕexportÊ: (create-export-unit noun-creation :when (@entry french-entry:(@- {[category : @cat (?or nc np), graphic-form : @lemma]} @*-)) :create (entry {lemma = @lemma, category = @cat}) :context (@entry)) La cration des units verbales est plus complexe. En effet, on ne crera un verbe transitif que si lÕune des units smantiques dÕun verbe a une valence val1 nÕayant que la valeur nom. Un verbe intransitif sera cr si lÕune des units smantiques du verbe source considr a une valence val1 ayant une autre valeur que nom. Ces entres ne sont cres que si elles nÕexistent pas encore. (create-export-unit vt-creation :when (@entry french-entry:(@- {[category : @cat vb, graphic-form : @lemma]} @?-.@!Usem)) :if (equal (get-value Usem.val1) '(nom)) :create (entry {lemma = @lemma, category = vt}) :context (@entry @Usem)) (create-export-unit vi-creation :when (french-entry:(@- {[category : @cat vb, graphic-form : @lemma]} @?-.@!Usem)) :if (not (equal (get-value Usem.val1) '(nom))) :create (entry {lemma = @lemma, category = vi}) :context (@entry @Usem)) Une fois que ces units sont cres, il faut les complter, partir des informations prsentes dans la base. Pour cela, on associe chaque lment de la structure dÕexport, un ensemble de rgles qui calculeront sa valeur, en se rfrant au contenu de la base lexicale. Certains lments doivent tre crs avant dÕtre remplis. On aura donc, localement une unit du lexique export, un ensemble de rgles de cration dÕlments. Ces rgles sont dfinies grce Ê: create-export-element name :on pattern :when pattern :if boolean-expression :create creation :context variable-list o name est le nom de la rgle. Le mot-cl on prend pour valeur un patron qui sÕappliquera sur lÕunit dÕexport en cours de traitement. Ce patron sert restreindre les units sur laquelle porte la rgle, aussi bien quÕ nommer des variables utilises par la suite. Le mot-cl when prend pour valeur un patron qui sÕappliquera sur le contexte de lÕunit du lexique dÕexport en cours de traitement. Cette rgle ne sera appele que si une unit du contexte sÕapparie avec le patron. Le mot-cl if prend pour valeur une condition portant sur les variables dfinies dans le patron. La cration nÕaura lieu que si cette condition est vrifie. Le mot-cl creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette expression, on donne les lment SGML qui sont crer. Les attributs SGML sont nots entre accolades la suite de lÕlment qui les porte et les valeurs sont notes sous forme de symboles ou de chanes de caractres aprs les lments et leurs ventuels attributs. Les sous- lments sont nots entre parenthses. Le mot-cl context indique le contexte qui sera conserv pour le remplissage des sous- lments de la structure cible. Le premier lment remplir est lÕlment Usem. On associe donc lÕlment Usem certaines rgles de cration dÕlments. (create-export-element Usem-filling :on (entry {lemma = @lemma, category = nc}) :when (@entry french-entry:(@- {[category : @cat nc, graphic-form : @lemma]} Spécialisation à l’interlingue par acceptions Introduction Le systme SUBLIM prcdemment dcrit est gnrique. Il nÕa donc pas dÕa priori, ni sur lÕarchitecture lexicale dÕune base, ni sur lÕarchitecture linguistique de ses dictionnaires. On peut donc lÕutiliser pour crer des instances de bases lexicales ayant des fondements thoriques diffrents. En contrepartie, il ne peut fournir quÕune aide gnrale pour la gestion de bases lexicales, quÕelles soient monolingues, multilingues par transfert, ou interlingues. Cependant, son implmentation par objets le rend susceptible dÕtre spcialis pour la gestion de bases ayant une architecture lexicale particulire. Les recherches sur la traduction automatique fonde sur le dialogue [Blanchon 1992, Blanchon 1994, Boitet 1990b, Boitet & Blanchon 1993] se dveloppent depuis quelques annes. Dans cette approche, on demande lÕauteur dÕinteragir pour aider lÕordinateur lever les ambiguts de son texte. Cette interaction nÕa lieu quÕune fois pour le texte source, quel que soit le nombre de langues vers lesquelles on veut traduire. LÕide de base est que lÕauteur acceptera de passer du temps cette interaction sÕil obtient des traductions dans plusieurs langues cibles et si le dialogue est assez ergonomique et comprhensible. Dans le cadre de lÕUnion Europenne, qui reconnat 9 langues officielles, les besoins en bases lexicales multilingues regroupant (au moins) ces 9 langues sont cruciaux. Il est donc important de dvelopper des bases lexicales multilingues regroupant de nombreuses langues. Dans ce contexte, une approche interlingue prend tout son sens. Comme nous lÕavons signal dans la premire partie, les approches interlingues sont souvent confondues avec les approches ÒontologiquesÓ (fondes sur la connaissance du ou des domaines de discours). Or, une approche fonde sur la connaissance rend difficile la gestion dÕune base lexicale. En effet, aux difficults inhrentes aux diffrentes langues de la base sÕajoutent les difficults propres la reprsentation des connaissances (description du sens, classification des conceptsÉ). Nous prfrons une approche plus linguistique, dfendue aussi bien par des linguistes ÒpursÓ (comme Igor MelÕcÿuk [MelÕcÿuk 1984, MelÕcÿuk 1988, MelÕcÿuk 1992]) que par des spcialistes 122 Spcialisation l interlingue par acceptions Langue L1 Langue L2 Langue L3 Langue L4 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idales 1.1.2. Relations entre acceptions Hlas, ces conditions ne sont jamais ralises, et les problmes de raffinement de concepts entre diffrentes langues ne peut tre ignors. Les exemples sont nombreux. Par exemple, entre le franais et lÕanglais, on peut noter la diffrence de raffinement entre les acceptions de rivire et fleuve, dÕune part et celle de river, dÕautre part. En franais, on fait une diffrence entre les cours dÕeau se jetant dans la mer et les autres (fleuve/rivire), alors quÕen anglais, on ne la fait pas (river). Les acceptions correspondantes nÕtant pas smantiquement identiques, nous obtiendrons une organisation illustre en figure 6.2. franais anglais rivire fleuve river Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river Pour que le lien entre acceptions soit conserv (afin de pouvoir traduire ces termes), nous utiliserons un lien entre acceptions interlingues nomm lien de raffinement. Ainsi, lÕorganisation obtenue est illustre en figure 6.3. franais anglais rivire fleuve river Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement Dans cet exemple, le lien de raffinement correspond un raffinement smantique. En effet, la smantique de lÕacception river correspond lÕunion des smantiques des acceptions rivire L approche par acceptions 123 et fleuve. Ce nÕest pas toujours le cas. En effet, des problmes contrastifs dÕorigine non smantique peuvent se prsenter. Prenons lÕexemple en chinois de (goøngzu). Certains dictionnaires (comme le Òdictionnaire franais de la langue chinoiseÓ [Ricci 1986]) associent deux acceptions cette entreÊ: - travailler (de ses mains), travail manuel; - travailler (en gnral), travail, occupation, besogne. Comme nous le voyons, ces acceptions ont toutes deux la fois un aspect nominal et un aspect verbal. Si on veut les relier aux acceptions franaises correspondantes, on doit choisir entre lÕacception correspondante de travail (nominal) ou lÕacception correspondante de travailler (verbal). On a donc bien un problme contrastif rsoudre. Les solutions ce problme sont les suivantesÊ: - On modifie le dictionnaire chinoisÊ: cette solution ne doit tre envisage que si lÕon considre que lÕentre, telle quÕelle apparat dans le dictionnaire monolingue, est errone. - On lie lÕacception chinoise arbitrairement lÕune des acceptions du franais (supposons lÕacception verbale)Ê: on ne pourra donc traduire quÕ condition de disposer de relations de drivation permettant de nominaliser lÕacception franaise lorsque cela est ncessaire. Chaque dictionnaire monolingue est indpendant des autres langues prsentes dans la base. On ne peut donc envisager la premire solution que dans le cas o lÕon a dtect une erreur, ce qui nÕest pas le cas gnral. LÕapproche par acceptions ne peut faire des hypothses a priori sur les informations que lÕon trouve dans les dictionnaires monolingues. On ne peut donc pas prsupposer lÕexistence dÕun lien de drivation dans ces dictionnaires. Aussi, la solution de ce problme passe, dans le cas gnral, par le lien de raffinement. On obtiendra donc la configuration indique dans la figure 6.4. franais chinois travailler travail Figure 6.4Ê: Un exemple de lien de raffinement motiv par un phnomne contrastif non smantique Dans cette configuration, le lien de raffinement a une interprtation linguistique et non smantique. 1.2. Concepts Nous lÕavons vu, les units du lexique interlingue sont des acceptions, et non des ÒconceptsÓ, tels quÕon les rencontre en gnral dans les bases lexicales fondes sur la connaissance. Mais la diffrence entre les deux approches ne rside pas uniquement dans leur vocabulaire. LÕapproche par connaissances se base sur lÕhypothse quÕil existe un niveau smantique universel, indpendant des langues, et que les langues sont des reflets de ce niveau. 124 Spcialisation l interlingue par acceptions Ainsi, une base lexicale interlingue fonde sur la connaissance part dÕun ensemble de dictionnaires de languesÊ: Langue 1 Langue 2 Langue 3 Figure 6.5Ê: Un ensemble de dictionnaires monolingues Ë cet ensemble de dictionnaire, on ajoute un nouveau dictionnaire reprsentant un reflet du niveau smantique universel (la connaissance)Ê: Figure 6.6Ê: Une base de connaissances Le but est donc de relier les units des diffrentes langues aux units de la base de connaissancesÊ: Langue 1 Langue 2 Langue 3 Figure 6.7Ê: Une base lexicale fonde sur la connaissance Dans cette approche, la base interlingue est une modlisation du monde, suffisante pour permettre des calculs sur la smantique des concepts manipuls dans le domaine. Selon lÕapproche par connaissances, le dictionnaire interlingue est indpendant de lÕensemble des langues de la base. En thorie, lÕajout dÕune langue ne devrait pas modifier son contenu. LÕexemple le plus reprsentatif de ce type dÕapproche a t donn par le projet KBMT [Goodman & Nirenburg 1991] dvelopp au Center for Machine Translation de Carnegie Mellon University. Ce projet utilisait une reprsentation du monde des ordinateurs personnels (appele ontologie), et un outil dÕacquisition et de maintenance des connaissances nomm ONTOS. Le dictionnaire de concepts de KBMT est une reprsentation conceptuelle, indpendante des langues, des interactions entre un ordinateur personnel et son utilisateur. Cette ontologie est reprsente comme un rseau interconnect et hierarchis de frames, chacune reprsentant un concept en ONTOS. L approche par acceptions 127 1.3.3. Mthodologie de cration Le dictionnaire dÕacceptions interlingues est un moyen de lier les diffrentes units des dictionnaires monolingues. La cration de ce dictionnaire ne se base pas sur une reprsentation du monde. Il nous faut donc crer une mthodologie de cration et de gestion des units de ce dictionnaire. La mthodologie que nous proposons se base sur la dfinition de liens bilingues. La construction dÕune base lexicale multilingue se passe en deux temps. Dans un premier temps, le lexicographe dfinit les informations monolingues pour un certain nombre dÕentres du dictionnaire. Ensuite, il donne diffrentes traductions pour ces entres. La premire tape dans la construction du dictionnaire dÕacceptions est la cration des acceptions interlingues correspondant aux acceptions monolingues dÕun dictionnaire particulier (voir figure 6.9.). Ce dictionnaire particulier sera appel dictionnaire de rfrence. franais anglais allemand acceptions copie des acceptions du dictionnaire de rfrence dans le dictionnaire d'acceptions. Figure 6.9Ê: Cration du dictionnaire dÕacceptions, premire tape. On relie ensuite les acceptions monolingues des autres dictionnaires aux acceptions interlingues ainsi cres. Pour cela, un lexicographe fournit des informations bilingues reliant les units de deux dictionnaires monolingues. LÕune au moins des units lies doit tre auparavant associe une acception interlingue. Prenons lÕexemple dÕune base lexicale franais-anglais-allemand, et choisissons le dictionnaire anglais comme dictionnaire de rfrence. LÕensemble des acceptions du dictionnaire anglais correspond donc des acceptions interlingues (voir figure 6.9.). Le lexicographe donne une traduction de lÕacception courante du mot franais rivire en anglais. Il donne donc le mot anglais river comme traduction de rivire. Le systme lui demande de choisir parmi les acceptions de river celle qui correspond au sens de rivire. Le systme tablit donc un lien entre lÕacception franaise de rivire et lÕacception interlingue correspondant lÕacception anglaise de river. Ainsi, lÕinformation bilingue donne par le linguiste a permis dÕtablir un lien interlingue. Aprs cette tape, la base de donnes prsente la structure illustre par la figure 6.10. 128 Spcialisation l interlingue par acceptions franais anglais acceptions rivire river #river Figure 6.10Ê: tat de la base lexicale aprs avoir li rivire, avant dÕavoir li fleuve Cette structure, bien quÕerrone (puisque les acceptions de rivire et river ne recouvrent pas la mme smantique), est cohrente avec le contenu de la base. En effet, tant que le mot fleuve nÕa pas t introduit dans le dictionnaire ou li lÕinterlingue, il nÕy a aucune raison de scinder lÕacception associe rivire et river, puisque ces mots sont toujours traduction lÕun de lÕautre. Ce problme contrastif apparatra lÕintroduction du mot franais fleuve. Lorsque le lexicographe indique que fleuve se traduit par river, le systme devra dtecter que deux acceptions franaises sont associes la mme acception interlingue. Cela nÕest possible que si ces deux acceptions sont parfaitement synonymes. franais anglais acceptions rivire river #river fleuve Figure 6.11Ê: Configuration illicite dtecte par le systme Or, les acceptions de rivire et de fleuve ne recouvrent pas le mme sens (en fait, les cas de synonymie parfaite son rares). Le systme doit dtecter ce genre de configuration et demander au lexicographe de rsoudre le problme. Dans cet exemple, il y a quatre solutions possiblesÊ: franais anglais acceptions rivire river #river fleuve #rivire franais anglais acceptions rivire river #river fleuve #rivire #fleuve franais anglais acceptions rivire river #river fleuve franais anglais acceptions rivire river #river fleuve 1) 2) 4)3) #fleuve Figure 6.12Ê: Les diffrentes solutions aux problmes contrastifs. L approche par acceptions 129 Dans lÕexemple considr, les sens de river, rivire et fleuve sont distincts deux deux. Le systme crera donc deux nouvelles acceptions interlingues correspondant rivire et fleuve, et relies par un lien de raffinement lÕacception de river (solution n¡ 4). 2. Acceptions et fonctions lexicales Notre approche est trs bien adapte lÕutilisation de fonctions lexico-smantiques dans les dictionnaires monolingues, aussi bien que dans les dictionnaires bilingues. Le principe des fonctions lexicales dveloppes par Igor MelÕcÿuk Moscou puis Montral repose sur la constatation que certains mots dans un texte nÕont pas une valeur dnominative, mais ne sont prsents que pour modifier dÕautres mots proches. Ainsi, lorsque lÕon parle dÕune Òforte fivreÓ, le mot forte apparat comme intensifieur de fivre. Pour pouvoir traduire un texte, il faut tre capable dÕidentifier la fonction de ces mots. En effet, Òforte fivreÓ ne peut tre traduit par Òstrong feverÓ, mais par Òhigh feverÓ. On traduit donc la fonction du terme, plutt que le terme lui-mme. Le Dictionnaire Explicatif et Combinatoire (DEC) indique que lÕintensifieur de fivre est forte. Cette indication est donne sous forme dÕune fonction (Magn), applique fivre et dont le rsultat est forte. Igor MelÕcÿuk et ses collgues ont recens 52 fonctions lexicales. Certaines de ces fonctions peuvent mme tre modifies par lÕajout dÕindices ou dÕexposants (pris parmi un ensemble fini). Ces fonctions lexicales ont t tudies sur de nombreuses langues (russe, polonais, franais, anglais, espagnol, allemand, et moins systmatiquement sur le japonais, tatare, hongrois, chinois) et elles apparaissent actuellement comme universelles. LÕapproche par acceptions utilise les sens de mots. Elle manipule donc les mmes units que les dictionnaires utilisant les fonctions lexico-smantiques. De plus, les fonctions lexicales sont des liens formant un rseau reliant les units dÕun dictionnaire. LÕapproche par acceptions passe par lÕutilisation dÕau moins un lien entre units du dictionnaireÊ: le lien de raffinement. Cette approche ne restreint pas les informations linguistiques des dictionnaires monolingues. Nanmoins, elle est propice lÕutilisation de fonctions lexicales. Les fonctions lexicales dfinies par Igor MelÕcÿuk et ses collgues sont instancies au niveau des dictionnaires monolingues. Par lÕutilisation dÕun systme de bases lexicales fondes sur une approche par acceptions, il est possible dÕtudier les moyens permettant de reporter et/ou de reflter certaines de ces fonctions lexico-smantiques au niveau du lexique interlingue. 3. PARAX, une expérimentation Afin dÕexprimenter lÕapproche par acceptions, tienne Blanc a construit une maquette de base lexicale interlingue par acceptions. Cette maquette a t implmente avec HyperCardª sur Macintoshª, et une version a t porte sur le gestionnaire de bases de donnes 4Dª. Dans ce paragraphe, nous prsentons la version HyperCard de cette maquette. 132 Spcialisation l interlingue par acceptions On procde de la mme manire pour obtenir les correspondants des sous-acceptions. Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois Enfin, en cliquant sur MONOPIVOT pour lÕacception cible considre, on arrive au dictionnaire monolingue de la langue cible. Figure 6.17Ê: Une entre chinoise correspondant lÕacception Ò#acheter_commerceÓ L approche par acceptions 133 3.3. PARAX et les fonctions lexicales Chaque acception monolingue est associe un ensemble dÕexemples et de fonctions lexicales telles quÕelles apparaissent dans le Dictionnaire Explicatif et Combinatoire dÕIgor MelÕcÿuk. On obtient les exemples en cliquant sur EXEMPLE et les fonctions lexicales en cliquant sur FLEXICALES. Figure 6.18Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_commerceÓ Figure 6.19Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_corrompreÓ 134 Spcialisation l interlingue par acceptions 3.4. Problèmes et limitations LÕutilisation du logiciel HyperCard ne permettra pas la construction de bases lexicales de grande taille, mme si une exprimentation dans un logiciel de base de donnes commerciale (4D) nÕa pas permis de conclure la supriorit dÕun tel systme. La cration de nouvelles acceptions nÕest pas pilote par le systme, mais reste lÕinitiative du lexicographe. Cette mthodologie trs ouverte oblige le linguiste se poser de nombreuses questions lors dÕune telle cration. En consquence, les motivations de cette cration sont plus souvent dus un raffinement naturel du linguiste (qui raisonne en termes de concepts) quÕa des besoin de codage dÕun problme contrastif. Avec une plate-forme de dveloppement aussi gnrale, il est toujours possible de rajouter des fonctionnalits permettant lÕindexage dÕune entre, la cration dÕune acception, son renommage, et la cration dÕun lien lexical. Par contre, il est difficile dÕoffrir une interface diffrente de celle prsente plus haut. En particulier, il est impossible dÕoffrir au linguiste une vue graphique des diffrents rseaux lexicaux dfinis par les fonctions lexicales de MelÕcÿuk. Pourtant, une telle visualisation globale est utile pour la vrification des informations lexicales. Notons quÕun systme se basant sur SUBLIM doit dfinir un outil de visualisation de graphe. En effet, une telle visualisation nÕest pas trs aise dfinir en GRIF. Enfin, cause de lÕabsence dÕun mcanisme pratique de manipulation de structures complexes, HyperCard ne permet pas la dfinition et la vrification efficace de contraintes de cohrence. HyperCard a donc permis de dvelopper rapidement une maquette de base lexicale interlingue par acceptions. Il a aussi permis dÕexprimenter les problmes de maintenance rencontrs dans cette approche, et dÕen dduire les comportements gnraux souhaitables dans un systme gnrique de gestion de bases lexicales interlingues par acceptions. 4. Conclusion de l’étude LÕapproche par acceptions rgit lÕarchitecture lexicale et lÕorganisation des diffrentes units du lexique. Elle nÕimpose pas de restriction sur les informations linguistiques associes aux units de dictionnaires. On peut donc la considrer comme un cadre gnral dans lequel le linguiste est libre dÕimplmenter sa base lexicale, condition de satisfaire la condition suivanteÊ: - les units du dictionnaire sont des acceptions. Ë cette condition, le linguiste dispose donc de toute la flexibilit de SUBLIM pour le codage des ses informations linguistiques. De plus, il est possible dÕassocier des informations aux acceptions interlingues. Enfin, lÕapproche par acceptions nÕest donc pas antinomique dÕune information linguistique interlingue. En particulier, on peut imaginer de ÒglisserÓ vers lÕapproche conceptuelle, dans le cas de bases restreintes/ddies des langues de spcialit. Enfin, nous pouvons dgager trois aspect gnriques lÕapproche interlingue par acceptionsÊ: - quelle que soit la forme de lÕinformation linguistique contenue dans les dictionnaires, les units des lexiques monolingues et bilingues sont des acceptionsÊ; VII. Implémentation 1. L’acception, une structure logique supplémentaire La premire partie de la spcialisation de SUBLIM vers NADIA porte sur son noyau. Afin de pouvoir grer des acceptions monolingues et interlingues, on introduit deux nouvelles structures de baseÊ: monolingual-acception et interlingual-acception. 1.1. Acceptions monolingues LÕacception monolingue est une structure pouvant accueillir nÕimporte quelle information linguistique. De plus, elle doit contenir un lien vers une et une seule acception interlingue se trouvant dans le dictionnaire interlingue. Nous la dfinissons comme une sous-classe de la classe acception, dfinie comme un agrgat avec un seul trait contenant nÕimporte quelle information linguistique. Ainsi, la dfinition en DCOR de la nouvelle structure de base est la suivanteÊ: (define! acception :type (:is-a :aggregated) (linguistic-information T)) (define! link-to-interlingua :type (:is-a 'link) (target (:type 'interlingual-acception))) (define! monolingual-acception :type (:is-a 'acception ) (interlingual-acception 'link-to-interlingua)) Pour dfinir une classe linguistique base sur la structure d'acception, on utilise l'expression suivanteÊ: (monolingual-acception keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrents lments de lÕacception monolingue. Le mot-cl possible estÊ: :information class spcifie la classe acceptable pour lÕinformation linguistique associe l'acception. Ainsi, la dfinitionÊ: (define-linguistic-class french-acception (monolingual-acception :information (feature-structure (id string) (definition string)))) se rcrit enÊ: (define! french-acception :type (:is-a monolingual-acception) (linguistic-information (define! nil :type (:is-a 'feature-structure) (id (:type 'string)) (definition (:type 'string)))))) On peut ainsi dfinir une acception sans ce soucier des liens quÕelle entretient avec les units du dictionnaire interlingue. 1.2. Acceptions interlingues LÕacception interlingue peut, elle aussi, accueillir nÕimporte quelle information linguistique ou smantique. De plus, elle doit contenir un ensemble de liens vers des acceptions monolingues se trouvant dans les diffrents dictionnaires interlingues. Ainsi, la dfinition en DCOR de la nouvelle structure de base passe par la dfinition d'un lien vers les acceptions monolingues. Cette dfinition est la suivanteÊ: (define! link-to-monolingual-acception :type (:is-a 'link) (target (:type 'monolingual-acception)) (source (:type 'interlingual-acception))) (define! interlingual-acception :type (:is-a 'acception) (monolingual-acceptions (define! nil :type (:is-a :list) (:range 1) (:allowed-types 'link-to-monolingual-acception))) (close-acceptions (define! nil :type (:is-a :list) (:allowed-types 'refinement-link))) (explanation string)) On remarque dans cette dfinition quÕune acception interlingue contient une explication sous forme dÕune chane de caractres (ce qui est ncessaire pour une bonne gestion de la base). Cette dfinition utilise la classe 'refinement-link dfinie plus bas. Pour dfinir une structure base sur la structure d'acception interlingue, on utilise lÕexpression suivanteÊ: (interlingual-acception keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de dcoration des diffrents lments de lÕacception interlingue. Les mots-cls possibles sontÊ: :information class spcifie la classe acceptable pour lÕinformation linguistique associe l'acception. :refinement-link class* spcifie la (ou les) classe(s) de lien de raffinement (par dfaut, on aura la classe 'refinement-link). :link-to-monolingual-acception class* spcifie la (ou les) classe(s) de lien vers les dictionnaires monolingues. On remarque quÕil est possible de modifier les liens de raffinement afin de leur associer une information (pondrationÉ). Il est aussi possible de changer la classe des liens vers les acceptions monolingues afin dÕy ajouter une information quelconque. Ainsi, la dfinitionÊ: (define-linguistic-class my-acception (interlingual-acception :information (feature-structure (id string) (definition string)) :refinement-link 'my-link)) se rcrit enÊ: (define! my-acception :type (:is-a 'interlingual-acception) (linguistic-information (define! nil :type (:is-a 'feature-structure) (id (:type 'string)) (definition (:type 'string))))) (close-acceptions (define! nil :type (:is-a :list) (:allowed-types '(my-link))))) 1.3. Dictionnaires d’acceptions Le noyau de SUBLIM comprend aussi des lments dictionnaires qui sont les lments de base de la dfinition dÕune base lexicale. NADIA introduit donc une nouvelle classe de dictionnaireÊ: le dictionnaire interlingue par acceptions. La dfinition dÕun dictionnaire interlingue par acceptions se fait grce la fonctionÊ: define-acception-dictionary name Keywords* o name est un symbole dfinissant de manire unique le dictionnaire pour lÕensemble de la base. :owner string spcifie le propritaire du dictionnaire. :links list spcifie la liste des dictionnaires lis par le dictionnaire interlingue. Cette liste est donne sous forme de liste de symboles, chacun correspondant un dictionnaire dfini par ailleurs. Cette dfinition se traduit par la cration dÕune instance de la classe acception-dictionary. La classe acception-dictionary dfinie dans Nadia comprend des mthodes spcialises pour la cration et la gestion des acceptions interlingues. 2. Le lien lexical Comme nous lÕavons indiqu dans le chapitre prcdent, lÕapproche par acceptions se prte bien lÕutilisation de liens lexicaux analogues aux fonctions lexicales. 2.1. Lien général Comme dans SUBLIM, un lien a une source, une cible et une tiquette. Dans le cas dÕun lien lexical, la source et la cible sont des acceptions. Pour le lien gnral, on ne fait aucune hypothse sur lÕinformation porte par lÕtiquette. Ainsi, ce lien lexical est une nouvelle structure de base dfinie comme suitÊ: (define! lexical-link :type (:is-a 'link) (target (:type 'acception)) (source (:type 'acception)) (label T)) Pour dfinir une structure base sur la structure de lien lexical, on utilise lÕexpression suivanteÊ: (lexical-link keywords*) o les mots-cls restreignent les classes qui peuvent tre valeurs de l'tiquette du lien. Les mots-cls possibles sontÊ: :label class spcifie la classe acceptable pour l'tiquette du lien. :target class spcifie la classe de la cible ('acception par dfaut). :source class spcifie la classe de la source ('acception par dfaut). :verifies (let ((source (corresponding-acception source-acception)) (target (corresponding-acception target-acception))) (if (and source target) (exist? (french::lexical-function {lexical-function-name [flname : 'Syn]} [from: @source-acception, to: @target-acception])) T)) :error-message "Un synonyme interlingue doit être reflété dans le dictionnaire français" :level :warning) On ne peut avoir de cycle dans le sous-rseau des relations de synonymie englobante Syn∩ (voir figure 7.2.)Ê: Syn∩ Syn∩ Syn∩Syn∩ Syn∩ Figure 7.2Ê: Configuration illicite dans le sous-rseau de synonymie englobante Syn∩ Ainsi, dans chaque dictionnaire, il faut pouvoir spcifier que la relation de synonymie englobante Syn∩ n'admet pas de cycle. Cette relation permet de trouver des problmes potentiels dans le rseau lexical d'une langue particulire. Lorsqu'une relation est donne dans diffrents dictionnaires, elle forme un rseau qui recouvre un ensemble de dictionnaires (voire la totalit de la base). Dans ce cas, il est intressant de vrifier la cohrence entre les relations donnes sur les diffrents dictionnaires. Dans ce cas, la contrainte dfinie plus haut correspond la dtection d'un schma illicite ayant la forme donne dans la figure 7.3. Syn∩ Langue L Acceptions Syn∩ Syn∩ Figure 7.3Ê: Configuration illicite dans le sous rseau lexical interdictionnaire de synonymie englobante Syn∩ Ces contraintes portent sur l'ensemble d'un rseau lexical. On ne peut donc utiliser de manire efficace le moteur de vrification propos par SUBLIM. On dfinit donc un moteur spcialis dans la vrification de cohrence sur des rseaux lexicaux. 3.2. Déclaration d’une contrainte de cohérence sur le réseau lexical La plupart des schmas dtecter passe par la dtection dÕun cycle dans un rseau lexical complexe. Cette dtection de cycle ne peut se faire quÕavec des liens orients. Par contre, certains liens orients forment des rseaux o les cycles sont valides. Aussi, il faut donner au linguiste un moyen dÕexprimer quels sont les liens pour lesquels la cohrence doit tre vrifie. Ces dclarations de contraintes comportent 2 parties principalesÊ: - la dclaration du rseau lexical sur lequel portent les contraintes, - la proprit qui doit tre vrifie par le rseau ainsi dclar. La dclaration dÕun rseau lexical passe par la dclaration des liens qui le composent. On peut dfinir un rseau portant sur un dictionnaire (la dfinition est alors faite au niveau du dictionnaire) ou sur un ensemble de dictionnaires (la dfinition est alors faite au niveau de la base lexicale). La dclaration dÕun rseau portant sur un dictionnaire est faite en donnant lÕensemble des liens qui dfinissent ce rseauÊ: (lexical-network links*) ou links est un suite de liens dfinis sur le dictionnaire. Ainsi, le rseau form par lÕensemble des liens de synonymie de MelÕcÿuk est dfini par lÕexpressionÊ: (lexical-network (lexical-function {lexical-function-name [flname : 'Syn]}) (lexical-function {lexical-function-name [flname : 'Syn^]}) (lexical-function {lexical-function-name [flname : 'Syn<]}) (lexical-function {lexical-function-name [flname : 'Syn>]})) La dclaration dÕun rseau portant sur un ensemble de dictionnaires est faite en donnant lÕensemble des liens qui dfinissent ce rseau. Ces liens seront nots en indiquant le dictionnaire sur lequel ils portent. Ainsi, un rseau de synonymie englobante Syn∩ portant sur trois dictionnaires monolingues (franais, anglais et allemand) et le dictionnaire dÕacceptions est-il dfini au niveau de la base lexicale de la manire suivanteÊ: (lexical-network (french::lexical-function {lexical-function-name [flname : 'Syn^]}) (english::lexical-function {lexical-function-name [flname : 'Syn^]}) (german::lexical-function {lexical-function-name [flname : 'Syn^]}) (acception::lexical-function {lexical-function-name [flname : 'Syn^]}) link-to-interlingua) Rappelons que link-to-interlingua est la classe des liens qui relient une acception monolingue son acception interlingue correspondante. La proprit vrifier sur un rseau lexical est lÕune des proprits suivantesÊ: acyclic : vrifie quÕun rseau est sans cycle, graph : vrifie que le rseau (un multigraphe) est compos dÕun seul graphe, forest : vrifie que le rseau (un multigraphe) est quivalent une fort (chaque graphe du rseau est un arbre), tree : vrifie que le rseau (un multigraphe) est quivalent un arbre (le rseau est compos dÕun seul graphe quivalent un arbre). Nous avons vu lÕutilit de la proprit acyclic. Les proprits graph, forest et tree sont utiles pour tester des relations dfinissant une hirarchie (on ne doit avoir quÕun graphe sans cycle) ou une arborescence. Ainsi, une contrainte de cohrence portant sur un rseau lexical sÕexprime grce lÕexpressionÊ: define-network-coherence-rule name :applies-on lexical-network-spec :verifies property :error-message string :level level La contrainte de cohrence vrifiant lÕabsence de cycle dans le rseau lexical de synonymie englobante dÕun dictionnaire particulier est dfinie de la manire suivante (au niveau du dictionnaire)Ê: (define-network-coherence-rule acyclic-more-general-synonymy :applies-on (lexical-network (lexical-function {lexical-function-name [flname : 'Syn^]})) :verifies 'acyclic :error-message "Détection d’un cycle dans le réseau de synonymie englobante" :level :warning) La contrainte vrifiant lÕabsence de cycle dans le rseau lexical de synonymie englobante sur plusieurs dictionnaires est dfinie de la manire suivante (au niveau de la base lexicale)Ê: (define-network-coherence-rule global-acyclic-more-general-synonymy :applies-on (lexical-network (french::lexical-function {lexical-function-name [flname : 'Syn^]}) (english::lexical-function {lexical-function-name [flname : 'Syn^]}) (german::lexical-function {lexical-function-name [flname : 'Syn^]}) (acception::lexical-function {lexical-function-name [flname : 'Syn^]}) link-to-interlingua) :verifies 'acyclic :error-message "Détection d’un cycle dans le réseau de synonymie global" :level :warning) Le systme NADIA ainsi dfini est en cours de ralisation. La premire tape de son utilisation passe par la rcupration de la maquette Parax dans ce systme. De plus, NADIA sera applique au dveloppement dÕune version informatique du DEC dans le cadre dÕune action de recherche partage entre le GETA et lÕquipe dÕIgor MelÕcÿuk lÕUniversit de Montral. Bibliographie [Abeill 1989] Abeill A. (1989) LÕunification dans une grammaire dÕarbre adjoints: quelques exemples en syntaxe franaise. T.A. Information, 30/1-2: pp. 69-112. [Abeill 1993] Abeill A. (1993) Les nouvelles syntaxes - Grammaires dÕunification et analyse du franais, Armand Colin, Paris, 327 p. [Adriaens & al. 1990] Adriaens G. & Lemmens M. (1990) The Self Extending Lexicon : Off-line and On-line Defaulting of Lexical Information in the METAL Machine Translation System. Proc. Coling-90, Helsinki, 20-25 August 1990, H. Karlgren ed. vol. 3/3: pp. 305-307. [At-Kaci 1986] At-Kaci H. (1986) An Algebrac Approach to the Effective Resolution of Type Equations. Theoretical Computer Science, 45: pp. 293-351. [At-Kaci & al. 1988] At-Kaci H. & Lincoln P. (1988) LIFE : a Natural Language for Natural Language. T.A. Information, 30/1-2: pp. 37-67. [At-Kaci & al. 1992] At-Kaci H., Meyer R. & Roy P. V. (1992) Wild LIFE - A User Manual, Available with the WILD-LIFE software, 81 p. [At-Kaci & al. 1986] At-Kaci H. & Nasr R. (1986) LOGIN : a Logic Programming Language with Built-in Inheritance. Journal of Logic Programming, 3: pp. 185-215. [Andr & al. 1989a] Andr J., Furuta R. & Quint V. (1989a) By way of an introduction. Structured Documents: What and Why? In ÒStructured DocumentsÓ, J. Andr, R. Furuta & V. Quint ed., Cambridge University Press: pp. 1-6. [Andr & al. 1989b] Andr J., Furuta R. & Quint V. (1989b) Structured Documents P. Hammersley ed., The Cambridge Series on Electronic Publishing, Cambridge University Press, Cambridge, 220 p. [Apple Computer Inc. 1992a] Apple Computer Inc. (1992a) Macintosh Human Interface Guidelines, Addison-Wesley Publishing Company, Inc., 384 p. 148 Bibliographie [Apple Computer Inc. 1992b] Apple Computer Inc. (1992b) Text Services Manager. In ÒInside Macintosh: TextÓ, Apple Computer Inc.: pp. 1-107 (section 7). [Apple Computer Inc. 1989] Apple Computer Inc. (1989) Hypercard Stack Design Guidelines, Addison- Wesley Publishing Company, Inc., 230 p. [Barnett & al. 1990] Barnett J., Knight K., Mani I. & Rich E. (1990) Knowledge and Natural Language Processing. Communications of ACM, 33/8: pp. 50-71. [Blanchon 1990] Blanchon H. (1990) Ambiguity resolution and paraphrase selection. Proc. DBMT-90, Post-COLING seminar on Dialogue-Based MT, Le Sappey, France, 26-28 August 1990, E. Blanc & C. Boitet ed. vol. 1/1: pp. 38-41 & 238-241. [Blanchon 1991] Blanchon H. (1991) Problmes de dsambigusation interactive en TAO personnelle. Proc. LÕenvironnement traductionnel : La station de travail du traducteur de lÕan 2001, Mons (Belgique), 25-27 avril 1991, Actualits scientifiques, A. Clas: pp. 31-48. [Blanchon 1992] Blanchon H. (1992) A Solution to the Problem of Interactive Disambiguation. Proc. Coling-92, Nantes, France, 23-28 juillet 1992, C. Boitet ed. vol. 4/4: pp. 1233-1238. [Blanchon 1994] Blanchon H. (1994) LIDIA-1 : une premire maquette vers la TA interactive Òpour tousÓ. Thse nouveau doctorat, Universit Joseph Fourier (Grenoble 1), 319 p. [Boitet 1988a] Boitet C. (1988a) Hybrid Pivots using m-structures for multilingual Transfer- based systems. Japanese Institute of Electronic Information and Communication Engineering, NLC, 88/3: pp. 17-22. [Boitet 1988b] Boitet C. (1988b) Representation and computation of units of translation for Machine Interpretation of spoken texts. Technical report, GETA - ATR, 1988, 20 p. [Boitet 1990a] Boitet C. (1990a) Multilingual Machine Traslation does not have to be saved by Interlingua. Proc. MMT-90, Tokyo, 5-6 November 1990, 2 p. [Boitet 1990b] Boitet C. (1990b) Towards Personnal MT : general design, dialogue structure, potential role of speech. Proc. Coling-90, Helsinki, 20-25 August 1990, H. karlgren ed., Hans karlgren, vol. 3/3: pp. 30-35. [Boitet 1993a] Boitet C. (1993a) Crucial open problems in Machine Translation & Interpretation. Proc. BKKÕ93, Bangkok, Thailand, 17-20 March 1993 vol. 1/1. [Boitet 1993b] Boitet C. (1993b) Human-Oriented Design and Human-Machine-Human Interactions in Machine Interpretation. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 13 p. [Boitet 1993c] Boitet C. (1993c) Integration of Heterogeneous Components for Speech Translation: the ÒWhiteboardÓ Architecture and an Architectural Prototype. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 20 p. [Boitet 1993d] Boitet C. (1993d) La TAO comme technologie scientifique : le cas de la traduction automatique fonde sur le dialogue. In ÒLa traductiqueÓ, P. Bouillon & A. Clas ed., Les presses de lÕUniversit de Montral, AUPELF/UREF: pp. 109- 148. Bibliographie 149 [Boitet 1993e] Boitet C. (1993e) Multimodal Interactive Disambiguation: first report on the MIDDIM project. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 16 p. [Boitet 1993f] Boitet C. (1993f) TA et TAO GrenobleÉ 32 ans dj ! T.A.L. (revue semestrielle de lÕATALA), 33/1Ñ2, Spcial Trentenaire: pp. 45-84. [Boitet & al. 1990] Boitet C. & Blanchon H. (1990) TAO personnelle et promotion des langues nationales : le projet LIDIA du GETA. Proc. Les industries de la langue : perspectives des annes 1990, Montral, Canada, 22-24 novembre 1990 vol. 1/2: pp. 415-434. [Boitet & al. 1993] Boitet C. & Blanchon H. (1993) Dialogue-based MT for monolingual authors and the LIDIA project. Proc. NLPRSÕ93, Fukuoka, Japon, 6-7 dcembre 1993: pp. 208-222. [Boitet & al. 1982a] Boitet C., Guillaume P. & Quezel-Ambrunaz M. (1982a) ARIANE-78: an integrated environment for automatic translation and human revision. Proc. COLING-82, Prague, July 1982: pp. 19-27. [Boitet & al. 1982b] Boitet C., Hue & Collomb Rd. (1982b) ÒDSE-2Ó Ñ Spcification du systme Ariane-X. Projet ESOPE Contrat ADI/CAP-Sogeti/Champollion, GETA- Champollion - Cap Sogeti France, 24 juin 1982. [Boitet & al. 1982c] Boitet C. & Nedobejkine N. (1982c) Base lexicale : organisation gnrale et indexage. rapport final, projet ESOPE ADI, partie D, GETA, Grenoble, 1982, 30 p. [Boitet & al. 1986a] Boitet C. & Nedobejkine N. (1986a) Toward Integrated Dictionary for M(A)T : Motivations and Linguistic Organisation. Proc. COLING 86, Bonn, 25- 29 aout 1986 vol. 1/1: pp. 423-428. [Boitet & al. 1986b] Boitet C. & Nedobejkine N. (1986b) Vers une base lexicale intgre pour la T(a)O : motivations et organisation linguistique. Proc. Journes francophones de lÕinformatique, bases de donnes et bases de connaissances, Grenoble, janvier 1986 vol. 1/1: pp. 151-169. [Boitet & al. 1994] Boitet C. & Seligman M. (1994) The ÒWhiteboardÓ Architecture: A Way to Integrate heterogeneous components of NLP Systems. Proc. COLING-94, Kyoto, Japan, 5-9 August 1994, M. Nagao ed. vol. 1/2: pp. 426-430. [Boitet & al. 1988] Boitet C. & Zaharin Y. (1988) Representation trees and string-tree correspondences. Proc. Coling-88, Budapest, 22Ð27 August 1988, D. Vrgha ed.: pp. 59-64. [Booch 1992] Booch G. (1992) Conception oriente objets et applications. Addison-Wesley ed., Addison-Wesley, 588 p. [Brachman 1993] Brachman R. J. (1993) Viewing Data Through a Knowledge Representation Lens. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JPDEC, vol. 1/1. [Briscoe & al. 1993a] Briscoe T. & Caroll J. (1993a) Generalized Probabilistic LR parsing Natural Language (Corpora) with Unification-Based Grammars. C.L., 19/1: pp. 25-59. [Briscoe & al. 1993b] Briscoe T., Paiva V. d. & Copestake A., ed. (1993b) Inheritance, Defaults, and the Lexicon. Studies in Natural Language Processing, B. Boguraev ed., Cambridge University Press, Cambridge, 298 p. 152 Bibliographie [Genthial & al. 1990] Genthial D., Courtin J. & Kowarski I. (1990) Contribution of a Category Hierarchy to the Robusteness of Syntactic Parsing. Proc. COLING-90, Helsinki, 20-25 aot 1990, H. Karlgren ed., Hans Karlgren, vol. 2/3: pp. 139-144. [Goodman & al. 1991] Goodman K. & Nirenburg S., ed. (1991) The KBMT project: a case study in Knowledge-Based Machine Translation., Morgan Kaufmann Publishers, San Mateo, California, 330 p. [Gross 1987] Gross M. (1987) The Use of Finite Automata in the Lexical Representation of Natural Language. Proc. Electronic Dictionaries and Automata in Computational Linguistics- LITP Spring School on Theoretical Computer Science, St Pierre dÕOleron, M. Gross ed., Springer Verlag, Berlin,: pp. 34-50. [Gross & al. 1985] Gross M. & Tremblay D. (1985) Etude du contenu dÕune banque terminologique. Rapport technique, LADL Paris, mai 1985, 180 p. [Hari 1990] Hari S. (1990) Analyse automatique dÕun dictionnaire en vue de la constitution dÕune base de donnes lexicales. Mmoire de DEA en Informatique et Automatique mention XIAO, Universit dÕAix-Marseille III, GRTC,n¡ 371, septembre 1990, 68 p. [Herwijnen 1990] Herwijnen E. V. (1990) Practical SGML, Kluwer Academic Publishers, Dordrecht(Nl.), 307 p. [Hutchins 1986] Hutchins W. J., ed. (1986) Machine Translation - Past, Present, Future. Computers and their Applications, E. Horwood ed., Ellis Hordwood Limited, New York/Chichester/Brisbane/Toronto, 382 p. [Hutchins & al. 1992] Hutchins W. J. & Somers H. L. (1992) An introduction to Machine Translation, Academic Press, Harcourt Brace Jovanovich, 362 p. [Karttunnen 1984] Karttunnen L. (1984) Features and Values. Proc. COLING-84, Stanford University, California, 2-6 July 1984, ACL ed., Association for Computational Linguistics, vol. 1/1: pp. 28-33. [Karttunnen 1991] Karttunnen L. (1991) Finite-state Constraints. Proc. CICL-91, USM, Penang, Malaysia vol. 1/1: pp. 1-18. [Karttunnen 1993] Karttunnen L. (1993) Finite-State Lexicon Compiler. Research Report,n¡ ISTL- NLTT-1993-04-02, Xerox PARC, Avril 1993, 18 p. [Karttunnen & al. 1992] Karttunnen L. & Beesley K. R. (1992) Two-Level Rule Compiler. Research Report,n¡ ISTL-92-2, Xerox PARC, October 1992, 15 p. [Kay 1973] Kay M. (1973) The MIND system. In ÒCourant Computer Science Symposium 8: Natural Language ProcessingÓ, R. Rustin ed., Algorithmics Press, New York: pp. 155-188. [Kay 1980] Kay M. (1980) The Proper Place of Men and Machines in Language Translation. Research Report,n¡ CSL-80-11, Xerox, Palo Alto Research Center, octobre 1980, 20 p. [Kay 1982] Kay M. (1982) Machine Translation. American Journal of Computational Linguistics, 8/2: pp. 74-78. [Keene 1989] Keene S. E. (1989) Object-Oriented Programming in Common Lisp, Addison- Wesley, 266 p. [Kiczales & al. 1991] Kiczales G., Rivires J. d. & Bobrow D. G. (1991) The Art of the Metaobject Protocol, MIT Press, 335 p. Bibliographie 153 [Lafourcade 1992] Lafourcade M. (1992) Le problme de lÕaccs au lexique dans les outils pour rdacteurs. ODILE, une approche. Proc. Sminaire Lexique, Toulouse, Ple langage naturel et parole du GDR-PRC CHM, vol. 1/1: pp. 81-89. [Lafourcade 1993] Lafourcade M. (1993) Geta-Browser. GETA-IMAG, Grenoble, Common Lisp Object System (MCL - CLOS), Apple Macintosh, version 2.2. [Lafourcade 1994a] Lafourcade M. (1994a) Applying Pivot MT Techniques to Multi-dialectal Programming Language Editors. rapport interne, GETA-IMAG, janvier 1994. [Lafourcade 1994b] Lafourcade M. (1994b) Gnie logiciel pour le gnie linguiciel. Thse nouveau doctorat, Universit Joseph Fourier (Grenoble 1), 300 p. [Lafourcade 1994c] Lafourcade M. (1994c) ODILE: un outil personnel dÕaide la traduction. Turjuman, 3/1: pp. 13-21. [Lafourcade 1994d] Lafourcade M. (1994d) Re-Engineering with added Genericity of Specialized Languages for Linguistic Programming - A case study with the ATEF & LT SLLPs. Proc. IACLÕ94, Penang, Malaysia, 26-28 July 1994: pp. 51-57. [Lafourcade & al. 1992] Lafourcade M. & Srasset G. (1992) Geta-Strings. Logiciel GETA, Grenoble, Common Lisp Object System (MCL - CLOS), Macintosh, version 1.0. [Lafourcade & al. 1993a] Lafourcade M. & Srasset G. (1993a) DOP (Dictionary Object Protocol). GETA-IMAG, Grenoble, Common Lisp Object System (MCL - CLOS), Apple Macintosh, version 2.0. [Lafourcade & al. 1993b] Lafourcade M. & Srasset G. (1993b) Geta-Grapher. GETA-IMAG, Grenoble, Common Lisp Object System (MCL-CLOS), Apple Macintosh, version 1.1. [Lay & al. 1992] Lay M.-H., Zaysser L. & Flores S. (1992) Projet Eureka Genelex, le modle syntaxique. Rapport technique, Projet Eureka Genelex, 10 juin 1992, 107 p. [Lenat & al. 1990] Lenat D. B., Guha R. V., Pittman K., Pratt D. & Shepherd M. (1990) CYC: Toward Programs with Common Sense. Communications of ACM, 33/8: pp. 30- 49. [MelÕcÿuk 1984] MelÕcÿuk I. (1984) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-smantiques I, Presses de lÕuniversit de Montral, Montral(Quebec), Canada, 172 p. [MelÕcÿuk 1988] MelÕcÿuk I. (1988) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-smantiques II, Presses de lÕuniversit de Montral, Montral(Quebec), Canada, 332 p. [MelÕcÿuk 1992] MelÕcÿuk I. (1992) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-smantiques III, Presses de lÕuniversit de Montral, Montral(Quebec), Canada, 323 p. [Melby 1988] Melby A. k. (1988) Lexical Transfert: Between a Source Rock and a Hard Target. Proc. Coling-88, Budapest, 22-27 aot 1988, D. Vargha ed. vol. 2/2: pp. 411-413. [Melby 1991] Melby A. K. (1991) Pour le traducteur : un poste de travail trois niveaux dÕassistance. Proc. LÕenvironnement traductionnel ; La station de travail du traducteur de lÕan 2001, Mons, Belgique, 25-27 avril 1991 vol. 1/1: pp. 151-153. [Meyer & al. 1990] Meyer I., Onyshkevych B. & Carlson L. (1990) Lexicographic Principles and Design for Knowledge-Based Machine Translation. Technical Report,n¡ CMU-CMT-90-118, Carnegie Mellon University, August 13, 1990, 66 p. 154 Bibliographie [Miike 1990] Miike S. (1990) How to Define Concepts for Electronic Dictionaries. Proc. international workshop on electronic dictionaries, Oiso Kanagawa, Japan: pp. 43-49. [Morin 1991] Morin J.-Y. (1991) Intgration des connaissances en gnie linguistique : niveaux, dimensions, objets et contraintes. Proc. LÕenvironnement traductionnel - La station de travail du traducteur de lÕan 2001, Mons, Belgique, 25-27 avril, AUPELF&UREF, Presses de lÕUniversit de Montral, vol. 1/1: pp. 109-133. [Nagao 1993] Nagao M. (1993) Current Status and Future Trends of Natural Language Processing. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1: pp. 31-39. [Nagao & al. 1985] Nagao N., Tsujii J. & Nakamura J. (1985) Terminology dictionary for machine translation. Proc. Second Infoterm Symposium on Terminology, Wien, 15-18 avril 1985. [Ndobejkine 1990] Ndobejkine N. (1990) Reprsentation des informations lexicales dans les dictionnaires lectroniques. T.A. Informations, 31/1: pp. 5-15. [Ndobejkine 1991] Ndobejkine N. (1991) Dictionary Approach in Natural Language Processing. Proc. Third International Conference on Translation, Kuala Lumpur (Malaysia). [Nirenburg 1987] Nirenburg S., ed. (1987) Machine translation. Studies in Natural Language Processing, A. K. Joshi ed., Cambridge University Press, Cambridge, 350 p. [Nirenburg 1989a] Nirenburg S. (1989a) KBMT-89 Project Report., Center for Machine Translation, Carnegie Mellon University, Pittsburg, avril 1989, 286 p. [Nirenburg 1989b] Nirenburg S. (1989b) Knowledge-based machine translation. M.T., 4/1: pp. 5-24. [Nirenburg & al. 1990a] Nirenburg S. & Defrise C. (1990a) Lexical and Conceptual Structure for Knowledge-Based Machine Translation. Proc. ROCLING III, Taipeh, 20-22 August 1990 vol. 1/1: pp. 105-130. [Nirenburg & al. 1990b] Nirenburg S. & Goodman K. (1990b) Treatment of Meaning in MT Systems. Proc. ROCLING III, Taipeh, 20-22 August 1990 vol. 1/1: pp. 81-101. [Nirenburg & al. 1989] Nirenburg S. & Levin L. (1989) Knowledge Representation Support. M.T., 4/1: pp. 25-52. [Norvig 1992] Norvig P. (1992) Paradigms of Artificial Intelligence Programming: Case Studies in Common Lisp, Morgan Kaufmann Publishers, San Mateo - California, 948 p. [Phan 1991] Phan H. K. (1991) Contribution lÕinformatique multilingue, extension dÕun diteur de documents structurs. Thse nouveau doctorat, Universit des sciences et techniques de Lille, Flandres Artois, 231 p. [Phan & al. 1992] Phan H. K. & Boitet C. (1992) Multilinguization of an editor for structured documents. Application to a trilingual dictionary. Proc. COLING 92, Nantes, 23-28 July 1992, C. Boitet ed., ACL, vol. 3/4: pp. 966 - 971. [Qi 1991] Qi Y. (1991) Research and Development of the Chinese Dictionary Used for Multilingual Machine Translation. Proc. International Symposium on Bibliographie 157 [Vronis & al. 1989a] Vronis J., Ide N. M. & Hari S. (1989a) Construction automatique de grands rseaux de neurones pour la dsambiguisation du langage naturel. Proc. 10mes journes Systmes Experts et leurs applications, confrence spcialise : le traitement des langues naturelles et ses applications, Avignon, 28 mai-1 juin 1990: pp. 105-117. [Vronis & al. 1989b] Vronis J., Ide N. M. & Wurbel N. (1989b) Extraction dÕinformations smantiques dans les dictionnaires courants. Proc. 7me congrs Reconnaissance des Formes et Intelligence Artificielle, AFCET RFIA, Paris: pp. 1381-1395. [Vronis & al. 1990] Vronis J., Ide N. M., Wurbel N. & Hari S. (1990) Construction et exploitation dÕune base de donnes lexicale Franco-Anglaise: le projet Vassar/GRTC. Proc. Journes nationales du PRC Communication Homme- Machine, Toulouse, Octobre 1990: pp. 115-124. [Wilks 1986] Wilks Y. (1986) An Intelligent Analyzer and Understander of English. In ÒReadings in Natural Language ProcessingÓ, B. J. Grosz, K. Spark Jones & B. L. Webber ed., Morgan Kaufmann Publishers, Inc., Los Altos, California: pp. 193- 204. [Wilks & al. 1990] Wilks Y. & Farwell D. (1990) A White paper on Research in Pragmatic-based Machine Translation. Memorandan in Computer and Cognitive Science,n¡ MCCS-90-188, Computing Research Laboratory, New Mexico State University, Las Cruces, NM, 25 p. [Wilks & al. 1993] Wilks Y. & Nirenburg S. (1993) Toward Automated Knowledge Acquisition. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1: pp. 54-58. [Yaoliang & al. 1991] Yaoliang J. & Zhendong D. (1991) As a CICC MMT (ODA) Project. Proc. International Symposium on Multilingual Machine Translation (MMT-91), Beijing, 19-21 August 1991 vol. 1/1: pp. 13-15. [Yokota 1990] Yokota E. (1990) How to Organise a Concept Hierarchy. Proc. International workshop on electronic dictionaries, Oiso Kanagawa Japan, Japan Electronic Dictionary Research Institute, Ltd., vol. 1/1: pp. 50-57. [Zajac 1988] Zajac R. (1988) Operations on Typed Feature Structures: Motivations and Definitions. Internal Report, ATR Interpreting Telephony Research Laboratories, 1988, 32 p. [Zampolli 1973] Zampolli A. (1973) LÕautomatisation de la recherche lexicographique : tat actuel et tendances nouvelles. 18/1/2: pp. 103-138. [Zaysser & al. 1992] Zaysser L., Laporte E., Lay M.-H., Vandenbussche C. & Francopoulo G. (1992) Projet Eureka Genelex, couche morphologique. Rapport Technique, Projet Eureka Genelex, 2 juin 1992, 97 p. Annexes 162 Annexes Dans cet exemple, le dbut de lÕlment est indiqu par lÕtiquette <quote>. Sa fin est indique par </quote>. ÒquoteÓ indique le nom de lÕlment. LÕutilisation des chevrons (< et >) et du slash (/) est la convention standard utilise en SGML (cette convention peut tre redfinie). Un lment peut tre vide, contenir un simple texte, on contenir un ensemble dÕautres lments dÕun type diffrent. Cela permet le codage de structure plus complexes. Supposons que lÕon souhaite coder une anthologie, qui contiendra un ensemble de pomes dont on connat le titre, et un ensemble de strophes (elles mme constitues dÕun ensemble de vers). Un tel document apparatra sous la forme suivante7Ê: <anthology> <poem><title>The SICK ROSE</title> <stanza> <line>O rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed</line> <line>Of crimson joy:</line> <line>And his dark secret love</line> <line>Does thy life destroy.</line> </stanza> </poem> <poem> <!-- more poems go here --> </anthology> Des blancs et retours la lignes ont t introduits pour simplifier la lecture du document. Ils ne jouent aucun rle dans la dfinition de la structure du document. De plus, la ligneÊ: <!-- more poems go here --> est un commentaire SGML qui nÕest pas trait comme une partie du texte. Cet exemple ne fait aucune hypothses sur les rgles qui gouvernent la structure dÕune anthologie. Pourtant, on peut dfinir des rgles qui permettront de simplifier lÕtiquetage du documentÊ: - une anthologie contient des pomes, et rien dÕautre, - un pome a un seul titre qui prcde la premire strophe et qui ne contient pas dÕautre lment, - mis part le titre, un pome ne contient que des strophes, - une strophe ne contient quÕun ensemble de vers, - seuls une strophe ou un autre pome peuvent venir la suite dÕune strophe, - seuls un vers ou une strophe peuvent venir la suite dÕun vers. Ë partir de ces rgles, on peut infrer quÕil nÕest pas ncessaire dÕtiqueter explicitement la fin des vers et des strophes. La deuxime rgle implique quÕil est inutile de marquer la fin dÕun titre (qui est implicitement marque par un dbut de strophe). De la mme manire, il est 7 Cet exemple est extrait de “Songs of innocence and experience” (1974) de William Blake. Description informelle de SGML 163 inutile dÕtiqueter explicitement la fin dÕun pome. Ainsi, on peut reprsenter le mme document de la manire suivanteÊ: <anthology> <poem><title>The SICK ROSE <stanza> <line>O rose thou art sick. <line>The invisible worm, <line>That flies in the night <line>In the howling storm: <stanza> <line>Has found out thy bed <line>Of crimson joy: <line>And his dark secret love <line>Does thy life destroy. <poem> <!-- more poems go here --> </anthology> Les rgles, telles celles dcrites ci-dessus, sont la premire tape du processus de cration dÕune spcification formelle de la structure dÕun document SGML. Cette description est une ÒDfinition de Type de DocumentÓ (DTD). Ainsi, la DTD correspondant lÕexemple ci-dessus est dfinie comme suitÊ: <!ELEMENT anthology - - (poem+)> <!ELEMENT poem - O (title?, stanza+)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT stanza - O (line+)> <!ELEMENT line - O (#PCDATA)> On a ainsi dfini les diffrents lments du document. On a pu indiquer lÕoptionnalit ou lÕobligation des tiquettes de dbut et de fin. Ainsi, dans la ligneÊ: <!ELEMENT title - O (#PCDATA)> le Ò-Ó indique lÕobligation de lÕtiquette de dbut et le ÒOÓ indique que lÕtiquette de fin peut tre omise. En troisime partie de la dfinition de chaque lment (entre parenthses) apparat la dfinition de son contenu. Le contenu peut tre une suite de caractres (#PCDATA) ou un ensemble dÕlments (title?, stanza+). Le Ò?Ó la suite dÕun lment indique sont optionnalit. Un Ò+Ó la suite dÕun lment indique que cet lment est obligatoire et peut tre rpt. Un Ò*Ó la suite dÕun lment indique que cet lment peut tre rpt, mais nÕest pas obligatoire. Un Ò,Ó entre deux lment indique leur mise en squence. Il est possible dÕassocier des attributs chacun des lments dÕun document. Il est ainsi possible dÕassocier un identificateur un lment particulier ou de lui associer un numro, un statut, etc. Ainsi, pour pouvoir associer un identificateur et un statut un lment de type poem, on va ajouter la dfinition suivante dans la DTD anthologyÊ: <!ATTLIST poem id ID #IMPLIED status (draft | revised | published) draft > Dans cette dfinition, on indique quel lment sont associs les attributs dfinis. Pour chaque attribut, on donne un nom, un ensemble de valeur, et une valeur par dfaut. ID est un type de valeur spcial permettant de donner un nom unique un lment du document. Sa 164 Annexes valeur est calcule automatiquement (#IMPLIED). LÕattribut status peut avoir trois valeursÊ: draft, revised, published, avec draft comme valeur par dfaut. Les concepts exposs jusquÕalors portent sur la dnotation dÕune structure dans le document. SGML propose aussi un moyen simple et souple de coder et de nommer des parties arbitraires du contenu dÕun document, de manire portable. Cette possibilit est offerte par les entits. Une entit est une partie nomme du contenu du document, indpendamment de sa structure. Par exemple, la dclaration suivanteÊ: <!ENTITY tei "Text Encoding Initiative"> dfinit une entit de nom tei et dont la valeur est la chane ÒText Encoding InitiativeÓ. On peut rfrer ces entits lÕintrieur dÕun document en insrant leur nom, prcd dÕun Ò&Ó et termin par un point-virgule. Ainsi, le texte ÒLa &tei; est une initiative…Ó est quivalent au texte ÒLa Text Encoding Initiative est une initiative…Ó. Ce mcanisme dÕentit est utilis notamment pour coder les caractres diacrits dans un texte que lÕon souhaite pouvoir passer dÕune machine une autre. Description informelle de GRIF 167 Stanza = BEGIN Lines = LIST OF (Line); END; Line = TEXT; END Ici, lÕlment Anthology a un attribut editor dont la valeur est un texte. tant donne cette structure, on peut dfinir une prsentation la refltant dans un document. Cette prsentation est dfinie en associant, chaque lment de la structure, une bote de prsentation, dont la position et la taille sont dfinies en fonction de celle des botes voisines. Par exemple, la bote correspondant au titre de lÕanthologie est centre par rapport sa bote contenante (celle correspondant lÕanthologie), et son texte est crit en Helvetica 14 grasÊ: Anthology_title: BEGIN HorizPos: VMiddle = Enclosing . VMiddle; VertPos: Top = Enclosing . Top; Size: 14; Font: Helvetica; Style: Bold; END; Un pome est align gauche, et se trouve 1 cm en dessous du pome prcdentÊ: Poem: BEGIN HorizPos: Left = Enclosing . Left; VertPos: Top = Previous Poem . Bottom + 1 cm; END; Son titre est prsent en Times 12 gras, align gaucheÊ: Title: BEGIN VertPos: Top = Enclosing . Top; HorizPos : Left = Enclosing . Left; Size: 12; Font: Times; Style: Bold; END; LÕauteur est prsent en Times 10 italiques, avec un retrait gauche dÕun demi centimtreÊ: Author: BEGIN VertPos: Top = Previous Title . Bottom; HorizPos: Left = Enclosing . Left + 0.5 cm; Size: 10; Font: Times; Style: Italics; END; LÕensemble des strophes dÕun pome est align gauche et son texte est en Times 10. On laisse un espace de 0,7 centimtre aprs le nom dÕauteurÊ: Stanzas: BEGIN VertPos: Top = Previous Author . Bottom + 0.7 cm; HorizPos: Left = Enclosing . Left; Size: 10; Font: Times; Style: Roman; END; 168 Annexes De la mme manire, une strophe se trouve un demi-centimtre en dessous de la strophe prcdente, et aligne sur la gauche, en Times 10 (la typographie a t hrite de la bote contenante Stanzas)Ê: Stanza: BEGIN VertPos: Top = Previous Stanza . Bottom + 0.5 cm; HorizPos: Left = Enclosing . Left; END; Ainsi, on a dfini une prsentation pour la classe de document Anthology. Nous donnons une instance de cette classe de document dans la figure B.1. Figure B.1Ê: Une instance de document de la classe Anthology Enfin, grce au langage T, il est possible dÕexporter les documents de cette classe sous certaines formes. Dans lÕexemple propos, nous allons exporter vers la forme SGML prsente dans lÕannexe prcdente. Dans le format que lÕon veut produire, on doit gnrer les tiquettes <anthology> et </anthology> autour du documentÊ: Anthology: BEGIN Create "<anthology>" before; Create "</anthology>" after; END; De plus, le titre de lÕanthologie nÕapparat pas. On ne lui associe donc pas de rgle de traduction. Description informelle de GRIF 169 Les tiquettes <poem> et </poem> apparaissent autour de chaque pomeÊ: Poem: BEGIN Create "<poem>" before; Create "</poem>" after; END; Le titre d'un pome apparat entre les tiquettes <title> et </title>Ê: Title: BEGIN Create "<title>" before; Create "</title>" after; Create content; END; Chaque strophe est entoure de <stanza> et </stanza>Ê: stanza: BEGIN Create "<stanza>" before; Create "</stanza>" after; END; Enfin, chaque vers est entour de <line> et </line>Ê: Line: BEGIN Create "<line>" before; Create "</line>" after; Create content; END; D'autre mcanismes permettent la gnration de formats d'export plus compliqus (conditions d'application de rgles, sortie vers plusieurs fichiers, traduction des caractres spciaux, utilisation de compteursÉ). 172 Annexes CÎUR, nom, masc. I.1a. Organe principal de la circulation sanguine d'une personneÉ [le cÏur de Jean ] 1b. Organe principal de la circulation sanguine d'un animalÉ [le cÏur de lion ] 2. Produit alimentaire É [le cÏur de veau ] 3. Partie de la poitrine d'une personne É [Il a serr son fils sur son cÏur ] 4a. Organe imaginaire des sentiments É [Le cÏur espre toujours ] 4b. Organe imaginaire de l'intuition É [Son cÏur le lui dit ] 5a. É proprit de la personnalit É [un cÏur de glace ] 5b. Personne possdant le cÏur I.5a [Vous devez la vie un noble cÏur, un homme vaillant ] II.1a. Partie principale d'une unit fonctionnelleÉ [le cÏur du bateau ] 1b. lment principal [le cÏur du problme ] 2a. Partie centrale d'un espaceÉ [le cÏur du royaume ] 3. ObjetÉ ayant la forme du cÏur I.1a [un cÏur en papier ] 4. Une des quatre couleurs 2 des cartes jouerÉ [l'as de cÏur ] III. Organe imaginaire des nauses É [Cette senteur lui tournait le cÏur ] I.1a. CÏur de X = Organe principal de la circulation sanguine d'une personne X qui se trouve dans la partie centrale du corps II.1d de X et qu'on reprsente symboliquement comme ayant la forme . Connotations 1) CÏur I.1a est le sige des sentiments [voir CÎUR I.4a]. 2) CÏur I.1a est le sige de l'intuition [voir CÎUR I.4b]. 3) CÏur I.1a qui bat 1 reprsente la vie [voir les phrasmes correspondants dans CÎUR I.1a]. Rgime 1 = X 1. de N 2. A poss C1 : le cÏur de Marie, son cÏur Fonctions lexicales Gener : organe (interne), viscre [le cÏur, le foie, les poumons et autres organes internes <viscres >] A 0 : de [ s ] [maladie de cÏur ] // cardiaque 1 [artre cardiaque, palpitations cardiaques, affections cardiaques ] Bon = Ver : bon | prpos; parfait, excellent; sain; fort, puissant, solide AntiBon = AntiVer : mauvais | prpos; faible, malade 1a Loc in : dans [le s ]; au [ s ] | C 1 = v [On le dcouvrit tendu, un poignard dans le cÏur ; ressentir une douleur au cÏur ] Loc ad : en [plein s ] [Il a reu la balle en plein cÏur ] Oper 1 : avoir [ART s ] | C. a un dpendant [avoir le cÏur malade <sain>] Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 173 S 1 (Oper 1 + AntiBon) : cardiaque 2 Fact 0 : battre 1; se contracter SingS 0 Fact 0 : battement [de s ] F 1 = FinFact 0 : s'arrter F 1 comme consquence de Excess usual : cder S 0 FinFact 0 : arrt [de ART s ] de nouveau CausFact 0 : ranimer [ART s ] CausFact 0 ATTR _____. PlusBon :soutenir, stimuler [ART s ] Son = Fact 0 : cogner, battre 2 [J'entends battre son cÏur ] SingS 0 Son : coup [de ART s ] [J'entendais les coups rapides de son cÏur ] S 0 AntiFact actual,0 :// attaque, crise (cardiaque 1) AntiFact usual,0 : fam battre la breloque, fam avoir des rats S 0 AntiFact usual,0 : maladie 1a [de s ] // spc insuffisance cardiaque 1 Degrad : faiblir, flancher Degrad actual : [Cl dat ] manquer [Ë cette nouvelle, le cÏur lui manqua ] F 2 = Caus usual,1 Excess : se fatiguer [le s ] nonPerm usual,1 Excess :fam soigner 2, mnager [A poss s ] Excess actual : palpiter, acclrer S 0 Excess actual : // spc palpitations (cardiaques 1), battements prcipits [de ART s ] AntiBon comme cons- quence de Excess usual : us Stop(C.) Ñ Sympt 13 (peur , motion ,É) :s'arrter [(de N)] Stop(C.) Ñ Sympt 123 (motion forte) : [Cl dat ] flanche [(de N)] [Le cÏur lui flanche ] F 3 = Stop(C.) Ñ Sympt 13 (chagrin ) : se rompre, se briser [(de N)] CausF 3 : rompre [le s ] F 4 = Excess(C.) Ñ Sympt 13 (motion forte) : fam battre la chamade [(de N)] Adv 1 F 4 : le s battant [Nous l'attendons le cÏur battant ] Excess(C.) Ñ Sympt 13 (peur, horreur, effroi, chagrin, dsespoirÊ) : se serrer, cogner, battre vite <fort> [(de N)] Excess(C.) Ñ Sympt 13 (joie ,amour ) : bondir, tressaillir, palpiter, frmir [(de N)] Excess(C.) Ñ Sympt 13 (piti, chagrin, angoisse ) : se serrer [(de N)] en forme de C. : en [ s ] [un ornement en cÏurÊ] Parties du cÏur 174 Annexes F 5 = moiti latrale droite du C. : s droit F 6 = moiti latrale gauche du C. : s gauche cavit dans la partie suprieure de F 5 et de F 6 :// oreillette ([du s ]) cavit dans la partie infrieure de F 5 et de F 6 :// ventricule ([du s ]) Affections du cÏur F 7 = syncope provoque par un court arrt du C. entranant une grande pleur : syncope blanche maladie 1a entranant de frquentes F 7 : maladie 1a blanche malformation du C. chez les nouveau-ns : maladie 1a bleue avoir une lsion au C. entranant un souffle [bruit anormal] : avoir un souffle [au s ] hmorragie dans le C. : infarctus syndrome caractris par des douleurs dans la rgion du C. : angine de poitrine personne qui a une affection du C. : cardiaque 2 Traitement du cÏur discipline mdicale s'occupant du C. : // cardiologie examen des bruits du C. : // ausculation cardiaque 1 tude des enregistrements graphiques des mouvements du C. : // cardiographie mdicament pour le C. : // potion cordiale, cordial opration sur le C. qui continue battre 1 : opration [ s ferm] opration sur le cÏur qui est arrt : opration [ s ouvert] pile lectrique pour stimuler le C. : stimulateur cardiaque Exemples Le cÏur te flanche, ma beaut? [J. Giono]. Sous l'influence de causes diverses, en particulier une mauvaise nouvelle, ou un coup violent port l'estomac, le cÏur peut s'arrter pendant quelques instants, en mme temps que la respiratio : la syncope est ralise [P. Vallery-Radot]. Il montait s'arrtant toutes les deux marches, reprenant souffle, attendant que se calment un peu les battements prcipits de son cÏur [A. Gide]. Ë l'annonce de cette nouvelle, il prouva une vive douleur au cÏur. Son pauvre petit cÏur se mit battre la chamade. S'il continuait malgr tout, c'est que son cÏur tait solide. Le cadavre tait froid; le cÏur avait cess de battre depuis longtemps. × (Faire) la bouche en cÏur Phrasmes relies CÎUR I.1a par la connotation ÔcÏur I.1a qui bat 1 reprsente la vieÕ Tant que ce <mon, É> cÏur battra Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 177 faon de parler motionnelle qui Caus 3 Fact 0 : loquence du s Caus 3 Fact 1 : [Cl dat ] toucher, troubler, agiter, retourner [le s ]; [Cl dat ] aller droit [au s ], parler [ ART s ], faire vibrer les cordes [du s ] Caus 3 Fact 12 : [Cl dat ] remplir, gonfler [ART s de N] [Cette nouvelle me remplit le cÏur d'espoir ] Adv 2 Fact 13 : de [ s ] [catholique de cÏur ] Fact 2 : prouver, ressentir [N] MagnFact 2 : tre plein, dborder, brler, se consumer [de N] | Y est un sentiment fort [Mon cÏur est plein <dborde > de joie ] IncepFact 2 : se remplir [de N] Fact 3 : v 0 (M 2 (C.)) [(PREP) N] [Son cÏur s'attache facilement aux personnes ; Mon cÏur espre cette rencontre ] Able 1 Fact 3 : sensible [ N] [Son cÏur fut sensible ces paroles ] IncepPredMinusAble 1 Fact 3 : faiblir nonAble 1 Fact 3 : inaccessible [ N] Labreal 12 : avoir [N au s ] [Il avait la joie au cÏur ] F 1 = Z tant trs important pour X, Labreal 13 : avoir, tenir [N s ] [J'ai mon travail <cette affaire > cÏur ] IncepF 1 : prendre [N s ], se prendre [de s pour N] Z tant important pour X, Labreal 31 : [Cl dat ] tenir [ s ] [Mon travail me tient cÏur ] Conv 21 Manif : venir [du s ] [Cette parole me vient du cÏur ] mots de X - spontanment S 2 Manif : cri [du s ] F 2 = (en disant W ses sentiments) ATTR ≤____ Caus 1 Manif : ouvrir, dcouvrir, expliquer [A poss s N], mettre, livrer, montrer [A poss s ] nu [Il mit son cÏur nu ] un peu F 2 : ouvrir [un coin de A poss s N] volontairement Caus 1 Manif :pancher, vider, dcharger [A poss s ] deviner les sentiments de X sans que X Caus 1 Manif : lire [dans le/A poss s ], sonder [le.A poss s ] nonPerm 1 Manif : cacher [A poss s ] Degrad : vieillir Excess Ñ Sympt 23 (Y) : frmir, tressaillir, tressauter, bondir [de N = Y] Excess Ñ Sympt 213 (un fort sentiment Y) : [Cl dat ] sauter dans la gorge [de N = Y] une partie du C. telle que son contenu est peru ou admis par X : fond, replis, secret, coin | le plus souvent avec Loc in [Au fond du cÏur <Dans les replis de son cÏur, dans le secret de son cÏurÊ>il ressentait encore de l'amour ] avoir dans le C. de la sympathie pour la per- sonne W : tre [de s avec N = W] 178 Annexes F 3 = facult de X d'prouver dans son C., en se souvenant des faits qui avaient provoqu des sentiments forts, ces mmes sentiments : litt mmoire I.1 [du s ] IncepMagnReal 2 (F 3 ) : // se graver au fond du s Y = amour 1,2 Real 3 : vivre [dans ART s ] Caus 3 Fact actual,0 : conqurir, gagner [ART s ] Caus 3 Fact usual,0 : attirer [ART s ] Fact 3 : tre [ N] [Mon cÏur est Pierre ] F 4 = S instr Caus 3 Fact 3 : chemin, cl [du s ] trouver F 4 : trouver [le chemin <la cl> s ] Caus 3 Fact actual,3 : [se] aliner [ART s ] le fait que la personne Z aime de X ne contacte plus X LiquFact 3 : prov Loin des yeux, loin du s Labreal 13 : porter [N dans A poss s ] tat des C. des personnes qui s'aiment : union [des ss] | C. au pl Y = amour 2 A 0 : de [Ø/ART s ] [amant <affaire, problme, histoire, drame, peine, sa dameÊ> de cœur, courrier du cœur ] IncepReal 13 : donner [A poss s N] A 1 Fact 0 : pris [Elle a le cÏur pris ], pris Caus 3 Fact 0 : possder [ART s ], tre matre [de ART s ] A 1 nonFact 0 : libre, prendre Fact 3 : appartenir [ N] beaucoup de X + Caus 3 Fact 3 : traner tous [les ss] aprs soi homme Ñ S 1 Able 1 Caus 3 Fact 3 : bourreau [de ss] | C. au pl femme Ñ S 1 Able 1 Caus 3 Fact 3 : charmeuse [de ss] | C. au pl F 5 = dans le but que Z Caus 3 Fact 0 , Caus 1 Manif Z : offrir [A poss s N = Z] F 6 = en rponse F 5 , Z Caus 1 Manif X : accorder [A poss s N = X] AntiF 6 : refuser [A poss s N = X] Y = chagrin Fact 0 : saigner, pleurer Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 179 CausFact 1 : [Cl dat ] blesser, broyer, briser, crever, dchirer, fendre, oppresser, percer, transpercer, serrer, ronger [le s ] [Cette nouvelle lui brisa le cÏur ] S res CausFact 1 : blessure [au s ] Y = dsir Real 1 : avoir [le s V inf ] [Il avait le cÏur rire ] AntiAdv 1 Real 1 : contrecÏur X refuse volontairement ce que son C. Fact 0 : bouder [contre A poss s ] Fact 1 : [le/A poss s dire Cl dat de V inf ] [Mon cÏur me dit de me promener ] Y = joie Real 1 : avoir [du s N] | N = ouvrage, travail, tche,É Adv 1 Real 1 : de bon <grand, tout> s , de gaiet de s [Il accepta de bon cÏur ] Y = plaisir Real 3 : tre [selon A poss s ] Fact 0 : chanter A 1 Fact 0 : le s en fte Caus 3 Fact actual,0 : captiver [ART s ] [Ce chant captivait son cÏur ] Caus 3 Fact 1 : rchauffer, rjouir [ART s ] Fact 3 : y tre [Il faisait son travail avec diligence, mais le cÏur n'y tait pas ] Y = sentiment pnible F 7 = Real 1 : avoir [le s gros <lourd> de N], avoir un poignard <une pine> [dans le s ] AntiF 7 : avoir [le s lger] cause d'un amour 2 non partag, Real 1 : avoir [le s ] en charpe Real 3 : [Cl dat ] rester, demeurer, peser [sur le s ]; rester en travers [du s ] [Le silence de cet homme injuste me resta sur le cÏur ] F 8 = A 1 Fact 0 : le s gros <lourd> | postpos AntiF 8 : le s lger | postpos CausFact 1 : [Cl dat ] glacer, littÊtransir, oppresser [le s ] | M 2 (C.) = peur ; [Cl dat ] pincer, ronger, empoisonner [le s ] | M 2 (C.) = haine, envie, jalousie CausMinusFact 1 : [Cl dat ] soulager, apaiser, calmer [le s ] Fact 2 : tre bourrel [de remords] | M 2 (C.) = remords Labreal 13 : avoir (fort) [N sur le s ], en avoir gros [ V inf sur le s ] [J'ai ce soufflet fort sur le cÏur ; Il en avait gros sur le cÏur leur dire adieu ] ContLabreal 13 : garder [N sur le s ] 182 Annexes Caus 1 Func 0 + F 4 : se mettre [du s ] au ventre A 2 Manif + C. 2 _____. bienveillant : plein de s // cordial 2 [mot <accueil >cordial ] A 1 Caus 1 Manif + C. 2 _____. bienveillant : // cordial 1 [personne cordialeÊ] C. 2 _____. hypocrite : s double F 6 = C. 2 _____. insensible : s sec, s de glace, s d'airain, s de pierre, litt s de granit, vieilli s de bronze CausPredF 6 : [Cl dat ] durcir [ART s] [Les nombreux malheurs lui durcissent le cÏur ] F 7 = C. 2 _____. mchant : s noir, s de vipre S 0 (F 7 ) : noirceur du s A 1 + F 7 : sans-cÏur [ce voyou sans-cÏurÊ] PredF 7 : tre [sans s ], manquer [de s ] bien que X dise des choses agrables, X a F 7 : prov Bouche de miel, s de fiel C. 2 _____. peureux : s de poulet C. 2 _____. infidle : s d'artichaut CausPred(C. 2 _____. malhonnte) : dpraver, corrompre [ART s ] Exemples Les natures au cÏur sur la main ne se font pas l'ide des jouissances solitaires de l'hypocrisieÉ[Barbey d'Aurevilly]. Comme un soldat qui prend la goutte boire pour se mettre du cÏÏur au ventreÉ [J. Giono]. Mais je n'aurais jamais le cÏur de pouvoir prfrerl'un de vous deux l'autre. Ce voyou sans cÏur et sans honneur, ce bandit! S'il te reste un cÏur, attends jusqu' demain! Ceux qui avaient encore un peu de cÏur l'ont perdu. Cet acte rvle la noirceur de son cÏur. I.5b. CÏur Y = Personne possdant le cÏur I.5a Y [= S 1 (cÏur I.5a )]. Rgime 1 = Y 1. de N 2. A C 1 : un cÏur de fer Fonctions lexicales Les FL Syn et celles de type C. 2 _____. M 2 : |̂ CÎUR I.5a C. courageux peut tout russir : prov Ë s vaillant, rien d'impossible Exemples Quoi? dans leur duret ces cÏur d'acier s'obstinent [P. Corneille]. C'est un cÏur de fer, indomptable. Vous devez de trs humbles excuses un noble cÏur, votre fils. Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 183 II.1a CÏur de X = Partie principale d'une unit fonctionnelle X o l'activit caractristique de X est la plus intense. Rgime 1 = X 1. de N 2. A poss C 1 : le cÏur du bateau <de l'usineÊ>, son cÏur Exemples La rue Sainte-Catherine est le cÏur de Montral. En un point qui n'est pas tout fait le centre du terrier, mais quia t mrement choisi pou un cas d'extrme pril, j'ai bti le cÏur de ma citadelle. La chaleur produite dans le cÏur du racteur est transfre par un fluide caloporteur un circuit eau-vapeur. II.1b. CÏur de X = lment principal de X [= FL non standard Çpartie principaleÈ(X) | X = dbat, sujet, question, problme, discussion, querelle, contrverse, document ,É, mais pas *pome , *roman ,É]. Rgime 1 = X 1. de N C 1 : le cÏur du problme <de l'intrigue > Exemples Cette attitude nous mne au cÏur d'une querelle <au cÏur de la controverse philosophique>. Nous tions parvenus au cÏur de sujet. Mais le cÏur du document tait bel et bien l'installation des rfugis. Touts ses Ïuvres paraissent dcouler d;une conception centrale, du cÏur mystrieux de sa philosophie. II.2a. pas de pl. CÏur de X = Partie centrale d'un espace topographique X. Rgime 1 = X 1. de N 2. A poss C 1 : le cÏur du royaume , son cÏur Fonctions lexicales Syn : centre, milieu 184 Annexes Loc in : dans [ART s ], au [ s ] Magn [ÔcentraleÕ] + Loc in : en plein s Loc ab : du [ s ] Exemples C'est au cÏur de cette fort que se trouvaient les deux colonnes [G. de Sde]. Il s'agit pour lui la fois de reculer ses frontires jusqu'au cÏur de la Germanie [G. de Sde]. ÉÊles oasis les plus douces, les plus riches du cÏur de l'Asie [J. Kessel]. Voil l'ennemi dans le cÏur du royaume! Pourquoi lui, Sjan, chef des 10 000 lgionnaires qui gardaient le cÏur de l'Empire romain, ne deviendrait-il pas le matre de cet Empire tout entier? Une source qui jaillit directement du cÏur du rocher. Il faut au moins protger le cÏur de ce jardin. Des lianes moussues au cÏur des buissons de lilas. Les manifestations se sont rendues en cortge au pied du tombeau en plein cÏur de la capitale polonaise. II.2b. CÏur de X = Partie centrale Ñ en paisseur Ñ d'une plante X ou de la partie X d'une plante, qui est perue comme distincte des autres parties de X. Rgime |̂ CÎUR II.2a C 1 : le cÏur de ce bouleau, son cÏur Fonctions lexicales Toutes les FL : |̂ CÎUR II.2a enlever le C. : // spc dcÏurer [dcÏurer une pice de bois ] Exemples Ils devaient aussi se repasser le cÏur de la salade, le blanc de la poularde et le foie du lapin! [M. Pagnol]. Les vieilles souches (de vigne0 sont pourries jusqu'au cÏur, et le fruit n'en vaut gure [P.-L. Courier]. Ces troncs d'arbre chous sur les plages [É] et que le soleil et la mer ont desschs jusqu'au cÏur [S. Schwartz-Bart]. Le cÏur du bouleau est malade. Un ver sortit du cÏur de la pomme. Les deux pieds de laitue taient aussi verts que la jeune herbe tendreÊ; leurs feuilles cachaient le cÏur blanc et repliaient les unes sur les autres. ×II.2 Ë cÏur [fromage fait cÏur ] Au cÏur <En plein cÏur> de Comme le cÏur de la chemine [noir comme le cÏur de la chemine ] II.3. CÏur de X = Objet en matire X ayant la forme symbolique du cÏur I.1a. Rgime 1 = X 1. en N C 1 : un cÏur en carton <papier, sucre, tissu ,É> Exemples Elle portait au cou un cÏur suspendu une chane. × CÏur de Marie <de Jeannette> CÏur-de-pigeon Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 187 Anti p : respect I Anti i : considration, gard; dfrence, estime V 0 : mpriser I A 0 : mprisant I.1 [attitude mprisante ] Gener : attitude, sentiment [de Ø/ART s ] [sentiment d'un profond mpris ] S 1p : litt contempteur S 2/3 : objet [de Ø/ART s ] [Le prsident <Sa prise de positionÊ> est l'objet d'un grand mpris ] Magn quant,1 + S 2 : paria A 1 : plein [de Ø/ART s ] | C 2 =,/ C 2.1 [Il s'est montr plein de mpris <d'un mpris insultant > pour ses confrres ] // mprisant I.2 [Quand il voit tant de malhonntet, il devient mprisant ] A 2 : couvert [de Ø/ART s ] | Y dsigne une personne tel qu'il doit PredA 2/3 : digne [de Ø/ART s ] // mprisable [Paul <Sa malhonntet > est mprisableÊ] PredAble 1 : enclin, port [ ART s ], fam avoir [le s ] facile | C 2 = v PredAble 2/3 : mriter [ART s ] Qual 1 : ddaigneux, hautain, snob, arrogant, condescendant Qual 2 : abject, ignoble, infect, infme, bas, misrable 2, sordide, dgotant, rpugnant, vil, indigne, odieux Magn : grand, profond, absolu, souverain, sans bornes; hautain, froid PredMagn : ne pas connatre <avoir> de bornes Magn quant,1 : collectif, public, gnral, universel IncepPredPlus : s'accrotre [Le mpris de l'argent s'acccrot de plus en plus dans certains groupes sociaux ] Caus (3) PredPlus : accrotre [ART s ] [La cupidit de leur sÏur n'a fait qu'accrotre leur mpris de l'argent ] IncepPredMinus : diminuer, s'attnuer [Son mpris s'est beaucoup attnu aprs qu'il l'et connu ] Ver : justifi, (bien) fond, lgitime, mrit AntiVer : injustifi, mal fond < non fond Adv 1 : dans [ART s ] | C 2 =,/ v, et G = vivre, se drouler [Jean vit dans un profond mpris pour tous ceux qui ne sont pas de son rang social ]; avec [ART s ] | C 2 (G) = Y [Jean regarde ses collgues avec un mpris souverain ] Propt : par [ s ] [Il a refus de rpondre par mpris des jugesÊ] Oper 1 : avoir, prouver [ART s ] | C 2 =,/ v Oper 2 : tre en butte [ ART s ] | Y dsigne une personne, et C 1 \o(=,/) v ou M. ATTR _____. Magn quant,1 [Jean est en butte au mpris de tout le monde ], tre victime [de ART s ], subir [ART s ] IncepOper 2 : tomber, litt sombrer [dans les s ] [Le prsident <La scienceÊ>, la suite de ces vnements, tomba dans le mpris gnral ] Magn quant,1 + CausOper 2 : // mettre, clouer [N = Y] au pilori | Y dsigne une personne FinFunc 0 : disparatre [Son mpris des gens peu fortuns a disparu ] 188 Annexes Caus 2 Func 0 : encourir [ART s ] [Jean a encouru le mpris de tous ]; atttirer [ART s ] | Y dsigne une personne, et C 1 =,/ v, ou M. ATTR_____. Magn quant,1 [Paul s'est attir le mpris gnral par son hypocrisie ] Caus 3 Func 1 : engendrer [ART s chez N] [La familiarit engendre le mprisÊ] Caus (3) Func 1 : apprendre, inculquer [ART s N] [Jean inculque ses tudiants le mpris de l'hypocrisie ; Son attitude partiale envers ses employs apprend ces derniers le mpris de leur chefÊ] Caus (2/3) Func 1 : inspirer [ART s N] [Cet vnement inspire aux travailleurs le mpris de leur patron ; L'argent inspirait ce philosophe un tel mpris qu'il a donn son hritage son frreÊ; L'hypocrisie de Jean leur inspirait un profond mprisÊ] Caus 3 Func 2 : attirer, valoir [ART s N] | C 1 =,/ v, ou M. ATTR_____. Magn quant,1 [Ses dclarations lui attirrent <valurent > le mpris d'un bon nombre de citoyens ] Labor 12 : tenir [N en s | M. sans dpendant/ dans ART s | M. a un dpendant] | Y dsigne une personne [Pierre tient Jean en mpris ] Conv 21 Manif : dnoter, montrer, traduire [ART s] malgr X, Conv 21 Manif : trahir [ART s] A 2 Manif : plein, empreint [de ART s ] | C 2 =,/ C 2.1 // mprisant I.1 Caus 1 Manif : manifester, montrer, marquer, affecter, afficher, tmoigner [ART s], faire preuve [de Ø/ART s] SingS 0 Caus 1 Manif : manifestation, signe, marque, preuve, geste 2 [de Ø/ART s] (des paroles ou un comportement grossier en public) 3 ≤___ Caus 1 Manif : // conspuer, huer, bafouer 2, litt vilipender, vieilli honnir [N] (des paroles ou un comportement grossier envers Y) 3 ≤___ Caus 1 Manif : [Cl dat ] cracher [A poss s ] la figure [Je voudrais les craser sous mes pieds et leur cracher mon mpris la figure ]; couvrir [N de ART s ] [Elle le couvrit de son mpris en le toisant des pieds la tte ] F 1 = la personne pour laquelle le locuteur Caus 1 Manif : canaille, fam con, fam salaud, fam ordure, fam cochon, fam sale type, pop couillon, pop salope, pop saligaud, pop fumier, É Mult(F 1 ) : engeance Mult(personnes ou choses pour lesquelles le locuteur Caus 1 Manif) : ramassis [de N] Adv 1 Caus 1 Manif : avec [Ø/ART s] [Jamais personne ne me toisa avec mpris comme le fit Charles ce jour-l ] Perm 1 Manif : dverser [ART s sur N] nonPerm 1 Manif : refrner [ART s ] un sourire spcifique Ñ Sympt 23 : sourire [de s ] S 0 (sourire en grima- ant Ñ Sympt 23 : rictus [de s ] ricaner Ñ Sympt 23 : ricanet [de s ] Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 189 regarder d'une faon effront Ñ Sympt 2 : // toiser [N] (des pieds la tte) hausser les paules Ñ Sympt 23 : hausser les paules [de s ] Exemples L'Anglaise reconnut sa rivale et fut glorieusement anglaise; elle nous enveloppa d'un regard plein de son mpris anglais et disparut dans la bruyre avec la rapidit d'une flche [H. de Balzac]. Je vais peut-tre vous paratre vieux jeu, mais j'ai un mpris sans bornes pour ces femmes qui vont d'amant en amant, le plus souvent sans amour, pour des raisons de prestige ou de carrire [A. Maurois]. Rien ne m'a plus donn un absolu mpris du succs que de considrer quel prix on l'obtient [G. Flaubert]. Le mpris cre et froid des passants lui pntrait dans la chair et dans l'me comme une bise. II. pas de pl. Mpris par X de Y = S 0 (mpriser II ). Rgime 1 = X 2 = Y 1. A poss 1. de N obligatoire C 2 : le mpris des lois <de la libert de presse, du danger > C 1 + C 2 : son mpris de l'horaire <de la dcision de sa femme, des insultes > Fonctions lexicales Magn quant,1 , IncepPredPlus : |̂ MPRIS I Syn i : ddain, indiffrence, dtachement Anti p : respect II.1; respect II.2 Anti i : considration; attachement, intrt; peur, crainte V 0 : mpriser II Magn : grand, absolu, total; hautain CausPredPlus : accrotre, augmenter [ART s ] [L'attitude du tribunal accroissait son mpris des menaces ] IncepPredMinus : diminuer, s'attnuer [Le mpris de la vie s'attnue ] Ver : justifi AntiVer : injustifi, insens Adv 1 : au [ s ], avec [ART s ] | C 2 =,/ v [Au mpris du danger, il s'est lanc la poursuite de l'agresseur ; Il a fait cette dclaration avec un mpris total des insultes ] Oper 1 : avoir [ART s ] [Le ministre a un mpris total de la libert de presse ] CausOper 1 : conduire, pousser [N ART s ] [Ses camarades le conduisent au mpris des humiliations ] CausFunc 1 : inspirer [ART s N] [Cet vnement inspire aux citoyens le mpris du danger ] 192 Annexes 2a. X enseigne Y Z = X nonce une affirmation Y 1 , qui fait partie d'une doctrine Y 2 propose 4a par X, dans le but de causer que Z sache I le contenu de Y. Rgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP 1. N 2. rare N 1) C 2 : obligatoire s'il n'y a pas de C 3.2 2) C 2 + C 3.2 : impossible C 1 + C 2 : Les philosophes enseignent l'galit entre les hommes <que les hommes sont gaux > C 1 + C 2 + C 3.1 : Socrate enseignait ses disciples que la connaissance de soi est fondamentale C 1 + C 3.2 : Allez enseigner toutes les nationsÉ [Bible] Fonctions lexicales Syn i : prcher, professer 2 S 1 : matre II.5, gourou S 2 : enseignement 2 S 3 : disciple Exemples Darwin enseignait que les espces sont issues les unes des autres selon les lois de la slection naturelle. Il faut toujours enseigner la vrit aux hommes. Pythagore enseignait qu'aprs la mort nous renaissions dans la nature. 2b. X enseigne Y Z = X contient une affirmation Y 1 qui fait partie d'une doctrine Y 2 propose 4a dans X [comme si X enseignait 2a Y Z]. Rgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP obligatoire 1. N C 1 + C 2 : La Bible enseigne la transcendance de Dieu <que Dieu est transcendantÊ> C 1 + C 2 + C 3 : La Bible nous enseigne que Dieu est transcendant Fonctions lexicales S 2 : enseignement 2 Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 193 Exemples Le christianisme enseigne qu'il faut aimer son prochain comme soi-mme. 3a. X enseigne Y Z = Proprit ou action de X cause que Z apprenne I.a Y. Rgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP obligatoire 1. N C 1 + C 2 : L'histoire enseigne le dclin de toutes les civilisations <que toutes les civilisations sont appeles disparatreÊ> C 1 + C 2 + C 3 : L'exprience nous enseigne que la guerre n'a jamais rsolu les problmes Fonctions lexicales Syn : apprendre I.b S 2 : enseignement 3 Exemples Leur attitude au sage enseigne / Qu'il faut en ce monde qu'il craigne / Le tumulte et le mouvement [Ch. Baudelaire]. L'exemple de mes parents m'a enseign le courage bien plus que ne l'auraient fait des discours. 3b. X enseigne Y Z = Proprit ou action de X cause que Z apprenne II.a Y. Rgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. V inf obligatoire 1. N C 1 + C 2 : La servitude enseigne la ruse < ruser > C 1 + C 2 + C 3 : Mon pre m'a enseign la prudence par son exemple Fonctions lexicales Syn : apprendre II.b Syn i : inculquer, duquer Exemples Un bon matre a ce souci constant : enseigner se passer de lui [A. Gide]. Le feu du soleil [É] enseignait la patience [J. Kessel]. C'est sa mre qui lui a enseign la coquetterie. 194 Annexes TONNANT, adj. 1. X qui tonne 1 [ 2. É qui frappe par son caractre remarquable [un film tonnant, ] 1. [X ] tonnant = X qui tonne 1 [= A 1 (tonner 1 )]. Fonctions lexicales Syn p : surprenant Magn : trs, fort, bien // stupfiant, ahurissant, bahissant, fam postouflant 2. [X ] tonnant = [X] qui frappe par son caractre remarquable [comme si X tait tonnant 1]. Fonctions lexicales Syn p : remarquable 2 Anti : ordinaire Magn p : // formidable, extraordinaire 2, merveilleux Exemples Un film tonnant, une femme tonnante TONN, adj. 1. [X] qui s'tonne de Y [tonn devant ce spectacle inattendu, Jean s'est t ] 2. É tel que Z manifeste l'tonnement de X [des yeux tonns] 1. [X ] tonn de Y = [X] qui s'tonne de Y [= A 1 (s'tonnerÊ)]. Rgime 2 = Y 1. devant N 2. de V inf C 2 :tonn devant ce spectacle inattendu <de voir son ami dans un tel tatÊ> Jean s'est t Fonctions lexicales Syn : surpris 1 Magn : bien, fort, trs // stupfait, ahuri, bahi, sidr, abasourdi, bouche be, fam souffl, fam baba Exemples Une fille tonne. Il lui crivit une lettre et fut trs tonn de recevoir une rponse. Tout le monde a t tonn de son comportement. Fort tonn devant la tournure des vnements, Pierre se demandait quoi faire. 2. [Z de X ] tonn = [Z de X] tel que Z manifeste l'tonnement de X [= A 2 Manif(s'tonner )]. Fonctions lexicales Syn : surpris 2 Exemples Les yeux tonns.