Docsity
Docsity

Prépare tes examens
Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity


Obtiens des points à télécharger
Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium


Guides et conseils
Guides et conseils

Notes sur le système universel de bases lexicales, Notes de Langue Française

Notes de langue sur le système universel de bases lexicales. Les principaux thèmes abordés sont les suivants: les efforts, les problèmes.

Typologie: Notes

2013/2014

Téléchargé le 26/03/2014

Daphnee_r
Daphnee_r 🇫🇷

4.1

(64)

392 documents

1 / 202

Documents connexés


Aperçu partiel du texte

Télécharge Notes sur le système universel de bases lexicales et plus Notes au format PDF de Langue Française sur Docsity uniquement! Table des matières INTRODUCTION 1 ƒTAT DE LÕART ET PROBLéMES INTƒRESSANTS 3 I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 1. Dictionnaires sur papier............................................................................................ 6 1.1. Dictionnaires monolingues ....................................................................................... 6 1.2. Thesaurii.................................................................................................................... 8 1.3. Dictionnaires bilingues ............................................................................................. 9 1.4. Dictionnaires multilinguesÊ ...................................................................................... 10 2. Dictionnaires sur support Žlectronique .................................................................. 11 2.1. Un format de codageÊ: SGML/TEI............................................................................ 12 2.2. Dictionnaires en ligne: le Collins On-Line ............................................................. 13 2.3. Gestionnaires de dictionnaires terminologiquesÊ: MTX Termex ............................ 14 2.4. Un environnement originalÊ: le Dicologique .......................................................... 14 3. Systmes lexicaux spŽcialisŽs ................................................................................. 16 3.1. BDLex ...................................................................................................................... 16 3.2. Dictionnaires du LADL............................................................................................ 17 3.3. Ariane ...................................................................................................................... 17 3.4. BDTAO.................................................................................................................... 19 3.5. METAL ..................................................................................................................... 19 II. EFFORTS EN COURS 21 1. Le Lexicaliste ........................................................................................................... 22 ii Table des matires 1.1. Vue gŽnŽrale du systme ........................................................................................ 22 1.2. RŽseau lexical et sŽmantique.................................................................................. 23 1.3. VŽrifications de cohŽrence et valeurs par dŽfaut ................................................... 23 2. EDR ......................................................................................................................... 24 2.1. Architecture lexicale ............................................................................................... 24 2.2. Architecture linguistique......................................................................................... 25 2.3. Dictionnaire de concepts ........................................................................................ 27 3. GENELEX.................................................................................................................. 31 3.1. Le modle conceptuel de GENELEX ....................................................................... 32 3.2. Vue gŽnŽrale dÕune unitŽ du lexique ..................................................................... 33 3.3. Le modle morphologique ..................................................................................... 34 3.4. Le modle syntaxique ............................................................................................. 36 3.5. Le modle sŽmantique............................................................................................ 38 4. MULTILEX................................................................................................................. 39 4.1. Architecture lexicale ............................................................................................... 39 4.2. Architecture linguistique......................................................................................... 40 4.3. Architecture logicielle ............................................................................................. 42 III. LES PROBLéMES INTƒRESSANTS 45 1. Architecture lexicale ............................................................................................... 45 2. Architecture linguistique......................................................................................... 48 3. PrŽsentation de lÕinformation ................................................................................. 49 CONCEPTION D'UNE BASE LEXICALE MULTILINGUE MULTIAPPLICATIONS 51 INTRODUCTION 53 IV. DƒFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 1. DŽfinition de lÕarchitecture lexicale ....................................................................... 55 1.1. Exemples ................................................................................................................. 55 1.2. Le langage de dŽfinition de lÕarchitecture lexicaleÊ: LEXARD .................................. 59 2. DŽfinition de lÕarchitecture linguistique ................................................................. 60 2.1. Exemples ................................................................................................................. 61 2.2. Le langage de dŽfinition de lÕarchitecture linguistiqueÊ: LINGARD ......................... 75 2.3. ImplŽmentation ....................................................................................................... 87 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 1. Architecture logicielle ............................................................................................. 91 2. Niveau InterneÊ: manipulation des informations linguistiques............................... 92 Liste des figures I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (Ždition de 1970) ............................................. 6 Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ..................................................................... 7 Figure 1.3Ê: Un article du RodgetÕs thesaurus .............................................................................. 8 Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. ............................................................................... 9 Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation ...................... 9 Figure 1.6Ê: Un exemple d'article du Robert & Collins.............................................................. 10 Figure 1.7Ê: Une entrŽe du dictionnaire terminologique des sciences de lÕinformation .......... 11 Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh ................................. 13 Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex ........................................... 14 Figure 1.10Ê: Exemple de la structure des ŽlŽments du Dicologique ....................................... 15 Figure 1.11Ê: Un exemple dÕentrŽes de BDLex.......................................................................... 17 Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ .................................................. 17 Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier de la sŽrie noireÓÉ ................................................................................................................... 17 Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex................................................................... 18 Figure 1.15Ê: Une entrŽe lexicale de BDTAO ............................................................................ 19 II. EFFORTS EN COURS 21 Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste .............................................. 22 Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire ........................................................... 22 Figure 2.3Ê: Architecture lexicale du projet EDR ....................................................................... 25 vi Liste des figures Figure 2.4Ê: Structure dÕune entrŽe de dictionnaire monolingue EDR ...................................... 25 Figure 2.5Ê: Exemple dÕentrŽe de dictionnaire monolingue EDR ............................................. 25 Figure 2.6Ê: Un exemple dÕinformation grammaticale associŽe ˆ une entrŽe .......................... 26 Figure 2.7Ê: Exemple dÕinformation sŽmantique associŽe ˆ une entrŽe ................................... 26 Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR .............................................. 26 Figure 2.9Ê: Exemple dÕentrŽes de dictionnaire bilingue .......................................................... 26 Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues ................................................. 27 Figure 2.11Ê: Un exemple de classification de concepts ........................................................... 30 Figure 2.12Ê: Un extrait de la hiŽrarchie de concepts du dictionnaire EDR.............................. 30 Figure 2.13Ê: Le mŽcanisme dÕhŽritage et les relations nŽgatives ............................................. 31 Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique....................................................... 33 Figure 2.15Ê: Un exemple dÕunitŽ morphologique simple prŽsentŽe sous forme graphique .. 35 Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif) .......................... 37 Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ .......................................... 37 Figure 2.18Ê: Un exemple de relations entre les diffŽrents modles GENELEX......................... 38 Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX ..................................................................... 39 Figure 2.20Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX ............................................ 41 Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ ..................................... 41 Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX ................................................................................................................................................... 42 III. LES PROBLéMES INTƒRESSANTS 45 Figure 3.1Ê: Une base lexicale basŽe sur lÕapproche bilingue................................................... 46 Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue. ............................................. 47 IV. DƒFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 Figure 4.1Ê: Base lexicale quintilingue fondŽe sur une approche bilingue unidirectionnelle . 56 Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue.......................... 58 Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte ............................ 58 Figure 4.4Ê: Un exemple dÕentrŽe de dictionnaire..................................................................... 61 Figure 4.5Ê: Table des attributs et de leurs valeurs possibles .................................................... 61 Figure 4.6Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX .............................................. 64 Figure 4.7Ê: Structure commune aux unitŽs morphologiques de GENELEX.............................. 66 Figure 4.8Ê: Structure de lÕUM simple ........................................................................................ 67 Figure 4.9Ê: RŽgime dÕenseigner 1, sous forme dÕautomate ...................................................... 72 Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale ..... 73 Figure 4.11Ê: Vue globale du treillis (Σ,<<)................................................................................ 76 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 Figure 5.1Ê: Architecture logicielle du systme SUBLIM............................................................. 92 Figure 5.2Ê: Un article vu sous forme de table des matires ..................................................... 96 Figure 5.3Ê: Le mme article vu sous la forme habituelle.......................................................... 97 Figure 5.4Ê: Vue intŽgrale de lÕentrŽe composer (transitif)....................................................... 99 Liste des figures vii Figure 5.5Ê: Vue intŽgrale de lÕentrŽe composer (intransitif) .................................................. 100 Figure 5.6Ê: Vue Žditoriale du dictionnaire bilingue ............................................................... 101 Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. ........................................................ 102 Figure 5.8Ê: Premire Žtape du processus dÕexport................................................................. 111 Figure 5.9Ê: Seconde Žtape du processus dÕexport.................................................................. 112 VI. LÕAPPROCHE PAR ACCEPTIONS 121 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idŽales ..................................... 122 Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river............................................ 122 Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement. 122 Figure 6.4Ê: Un exemple de lien de raffinement motivŽ par un phŽnomne contrastif non sŽmantique .............................................................................................................................. 123 Figure 6.5Ê: Un ensemble de dictionnaires monolingues........................................................ 124 Figure 6.6Ê: Une base de connaissances .................................................................................. 124 Figure 6.7Ê: Une base lexicale fondŽe sur la connaissance ..................................................... 124 Figure 6.8Ê: Le systme de gestion lexicale dÕULTRA ............................................................... 126 Figure 6.9Ê: CrŽation du dictionnaire dÕacceptions, premire Žtape. ...................................... 127 Figure 6.10Ê: ƒtat de la base lexicale aprs avoir liŽ rivire, avant dÕavoir liŽ fleuve ............. 128 Figure 6.11Ê: Configuration illicite dŽtectŽe par le systme .................................................... 128 Figure 6.12Ê: Les diffŽrentes solutions aux problmes contrastifs. ......................................... 128 Figure 6.13Ê: Le dictionnaire monolingue de PARAX............................................................... 130 Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ................................................... 131 Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois ... 131 Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois ................................................................................................................................................. 132 Figure 6.17Ê: Une entrŽe chinoise correspondant ˆ lÕacception Ò#acheter_commerceÓ......... 132 Figure 6.18Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_commerceÓ ............................................................................................................. 133 Figure 6.19Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_corrompreÓ ............................................................................................................. 133 VII. IMPLƒMENTATION 137 Figure 7.1Ê: Le lien de synonymie interlingue doit se reflŽter dans le dictionnaire monolingue ................................................................................................................................................. 141 Figure 7.2Ê: Configuration illicite dans le sous-rŽseau de synonymie englobante Syn∩ ....... 142 Figure 7.3Ê: Configuration illicite dans le sous rŽseau lexical interdictionnaire de synonymie englobante Syn∩..................................................................................................................... 142 ANNEXE BÊ: INTRODUCTION Ë GRIF 165 Figure B.1Ê: Une instance de document de la classe Anthology ............................................ 168 2 Introduction linguistiques complexes dÕune manire naturelle. Cette approche universelle permet la crŽation de bases lexicales pour des usages diffŽrents, automatiques aussi bien quÕhumains. Lorsque lÕon veut construire des bases lexicales comportant de nombreuses langues, une approche interlingue semble sÕimposer. Cependant, les projets EDR et KBMT, fondŽs sur la connaissance ÒextralinguistiqueÓ du domaine du discours, ont rencontrŽ des problmes thŽoriques complexes (raffinement des concepts, classification et exceptions, description des conceptsÉ), avec pour consŽquence un cožt ŽlevŽ de dŽveloppement et des problmes de cohŽrence. CÕest pourquoi, comme le projet ULTRA, nous avons choisi pour nos applications de privilŽgier une architecture lexicale interlingue fondŽe sur les connaissances linguistiques plut™t que sur les connaissances extralinguistiques. Le lexique ÒpivotÓ nÕest alors plus formŽ de ÒconceptsÓ (indŽpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des langues en prŽsence. Les bases utilisant cette architecture sont appelŽes Òbases NADIAÓ. Nous avons dŽveloppŽ autour de SUBLIM des outils facilitant la gestion de bases NADIA. Dans une base NADIA, on dŽfinit deux nouvelles classes de dictionnaires hŽritant des classes monolingues et interlingues de SUBLIM. On introduit aussi de nouvelles mŽthodes pour leur gestion, ainsi que des ÒunitŽs dictionnairiquesÓ (acceptions monolingues, acceptions interlinguesÉ) dont le linguiste hŽrite pour dŽfinir son architecture linguistique. Pour que SUBLIM (et a fortiori NADIA) puisse tre utilisable pour dŽfinir, construire et maintenir des dictionnaires de grande taille, ˆ usage ÒmachinalÓ aussi bien quÕhumain, il doit intŽgrer des outils conviviaux permettant dՎditer, de parcourir et de manipuler des structures complexes dans diffŽrents modes, textuels et graphiques. Pour cela, nous utilisons Grif, un puissant Žditeur de documents structurŽs. LÕutilisation de diffŽrentes vues dÕune mme structure permet la crŽation et le formatage dÕun dictionnaire sous diverses formes (textes SGML, formulaires, graphiques, dictionnaires imprimablesÉ). Pour la maintenance, il est Žgalement intŽressant de visualiser une structure linguistique sous diffŽrentes formes, avec possibilitŽ de cacher une partie de lÕinformation. Nous dŽfinissons aussi dÕautres outils facilitant la gestion et lÕexploitation des dictionnaires (vŽrification de cohŽrence, import/export, rgles de valeurs par dŽfautÉ). Ces outils sont organisŽs au sein dÕune architecture ˆ trois niveaux sŽparant clairement les problmes de stockage, de manipulation et de visualisation. Dans la premire partie de ce document, nous prŽsentons les travaux qui ont ŽtŽ effectuŽs dans le domaine. Cela nous permet ensuite dÕanalyser les problmes des dictionnaires et dՎvaluer les solutions qui ont ŽtŽ proposŽs par les auteurs des diffŽrents systmes. La seconde partie dŽfinit le projet SUBLIM de systme universel de gestion de bases lexicales multilingues. Nous verrons comment on peut, avec ce systme, dŽfinir une base lexicale multilingue (en dŽfinissant lÕensemble de ses dictionnaires et leurs architectures linguistiques). Nous Žtudierons ensuite lÕarchitecture logicielle et les outils dŽfinis dans ce systme. Dans la troisime partie, nous spŽcialisons SUBLIM ˆ lÕapproche interlingue par acceptions. Nous exposons les principes de cette architecture lexicale interlingue fondŽe sur une les connaissances linguistiques. Nous montrons ensuite que cette architecture lexicale est propice ˆ lÕutilisation de fonctions lexicales ҈ la MelÕcÿukÓ. Nous prŽsentons enfin PARAX, la maquette dÕune base lexicale utilisant cette approche, et dŽgageons les caractŽristiques gŽnŽriques de cette approche. Enfin, nous dŽveloppons lÕimplŽmentation de NADIA, un gestionnaire de bases lexicales interlingues par acceptions, qui se prŽsente du point de vue logique et informatique comme un spŽcialisation du systme SUBLIM. État de l’art et problèmes intéressants la langue que lÕutilisateur peut restituer le type dÕinformation prŽsent dans un article du dictionnaire. 1.1.2. Un dictionnaire dÕunitŽs complexesÊ: le LOGOS DÕautres dictionnaires monolingues se distinguent par le fait que leur unitŽs lexicales sont diffŽrentes de celles des dictionnaires classiques ŽvoquŽs plus haut. Parmi ces dictionnaires, on peut citer le LOGOS de Bordas. Les entrŽes du LOGOS correspondent ˆ des familles de lemmes dŽrivŽs du mme lemme dÕorigine, conformŽment ˆ des schŽmas dŽrivationnels rŽguliers. Cette unitŽ lexicale est notŽe par son lemme dÕorigine. Par exemple, lÕunitŽ lexicale produire regroupe les lemmes produire, producteur, productif, productivitŽ, produit. LÕentrŽe de ce dictionnaire se fait par le lemme origine de lÕunitŽ lexicale. Ainsi, si lÕon cherche le lemme producteur, il faut savoir quÕil appartient ˆ lÕunitŽ lexicale produire pour trouver ses informations associŽes. LÕinformation dÕune unitŽ lexicale du LOGOS est composŽe de deux partiesÊ: ¥ La liste des sens du lemme vedette, ¥ La liste des dŽrivations de lÕunitŽ lexicale. Pour chaque sens et pour chaque dŽrivation du lemme vedette, on a les mmes informations que dans un dictionnaire classique. De plus, ces informations apparaissent sous une forme analogue. construire v. t. (latin construere, mme sens). ¶ ƒdifier ou faire ŽdifierÊ: construire une maison, un pont, une digueÉ Ñ (absolument) On construit beaucoup actuellement dans les banlieues des grandes villes; jÕai achetŽ un terrain, car jÕai lÕintention de faire construire. Ñ (par extension) RŽaliser ou faire rŽaliser (une chose qui suppose un plan prŽalable et un travail considŽrable et complexe)Ê: les chantiers navals construisent les navires; construire un alternateur, des camionsÉ · (figurŽ) Composer, former selon un plan ou un systme plus ou moins rigoureuxÊ: construire lÕintrigue dÕun roman, le plan dÕun exposŽ; cette dissertation nÕest pas construiteÊ: nÕa pas de plan logique et net; construire une thŽorie philosophique. Ñ (spŽcialement, grammaire) Disposer les mots ou les propositions ˆ lÕintŽrieur dÕune phrase, selon un ordre dŽterminŽÊ: construire une phrase, une pŽriode oratoire. Ñ Construire une phrase latine, grecqueÉÊ: disposer les mots quÕelle contient de manire ˆ les ordonner selon lÕordre analytique (sujet, verbe, complŽmentsÉ), avant de la traduire. cf. b‰tir, disposer, dresser, Ždifier, Žlever, Žtablir, fabriquer, rŽaliser; agencer, arranger, articulier, assembler, combiner, composer. Ñ ANT. abattre, dŽmolir, dŽtruire. u se construire v. pron. 1¡ (sens passif) ætre en cours de constructionÊ: un pont se construit actuellement ˆ la sortie du village. Ñ ætre construitÊ: un tel immeuble ne peut se construire en moins de six mois. Ñ (grammaire) Se construire avecÉ, sÕemployer avecÉÊ: le verbe apprendre peut se construire avec ˆ suivi de lÕinfinitif (jÕapprends ˆ lire). Ñ 2¡ (sens rŽflŽchi indirect) É u constructeur, trice n. m. ou adj. 1¡ n. m. Celui qui construitÊ: un constructeur de bateaux, dÕavions; un constructeur-promoteur (voir promoteur). Ñ (figurŽ) Alexandre le Grand fut le constructeur dÕun immense empire. Ñ 2¡ adj. (nŽologisme) Se dit des idŽes dont la rŽalisation permettrait un progrs quelconqueÊ: une proposition constructrice. ¥ N. B.Ê: mieuxÊ: constructif. u constructif, ive adj. Qui est naturellement fait pour construireÊ: une intelligence constructive. Ñ Qui permet de rŽaliser un progrsÊ: un programme constructif. u construction n. f. 1¡ action dՎdifier, de construireÊ: une maison en construction; construction dÕun navire; chantier de construction navale; É Ñ 2¡ Manire dont une chose est construiteÊ: la construction prŽfabriquŽe permet de rŽduire le prix de revient des immeubles;É Ñ 3¡ ƒdificeÊ: raser une ancienne construction. Ñ 4¡ (figurŽ) Action de composer, de rŽaliser selon un plan; la manire dont un ouvrage est composŽ, organisŽÊ: la construction de lÕintrigue dÕune comŽdie;É Ñ 5¡ (spŽcialement, grammaire) Ordre dans lequel les mots se prŽsentent dans une phraseÊ: la construction allemande diffre de la construction franaise. Ñ É Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ. Cette unitŽ regroupe les lemmes construire, constructeur, constructif et construction 1.2. Thesaurii Les thesaurii sont des dictionnaires de concepts. LÕaccs ˆ ce type de dictionnaire ne se fait pas par une forme graphique. Les concepts sont classŽs selon leur sens dans une hiŽrarchie de concepts utilisŽe pour la recherche. Nous allons Žtudier deux de ces thesauri. 1.2.1. Le RodgetÕs Thesaurus of English Words and Phrases Le Rodget thesaurus comporte 1000 unitŽs. Ces unitŽs sont classŽes selon 39 catŽgories rŽparties dans 7 classes. LÕentrŽe de ce thesaurus est un nombre (de 1 ˆ 1000). Pour accŽder ˆ ce dictionnaire, il faut savoir ˆ quelle classe et ˆ quelle catŽgorie appartient lÕarticle recherchŽ. On peut ainsi chercher lÕarticle en question gr‰ce ˆ une table organisŽe hiŽrarchiquement. Notons que, gr‰ce ˆ un index, on peut aussi accŽder ˆ un article par un mot qui le dŽsigne. Un article de ce lexique est reprŽsentŽ par un entier et par un mot vedette. LÕarticle est ensuite dŽcomposŽ en catŽgories linguistiques (nom, verbe, adjectifÉ). Pour chaque catŽgorie linguistique, on a un ensemble de mots (classŽs par signification) qui sont liŽs ˆ ce concept. Certains de ces mots apparaissent avec une rŽfŽrence ˆ un autre concept. Enfin, on a un ensemble de liens vers des concepts sŽmantiquement liŽs au concept courant. Si on lit le texte dÕun article, on trouve des mots sŽmantiquement liŽs. Le sens des mots trouvŽs Žvolue peu ˆ peu vers des contextes diffŽrents. Pour rendre cette transition plus distincte, certains mots sont parfois ajoutŽs comme pointeurs du contexte plut™t que comme ŽlŽments de vocabulaire. 480 Judgment: conclusion N. judgment, judging (see estimate); good judgment, discretion 463 n. discrimination; bad judgment, indiscretion 464 n. indiscrimination; power of judgment, deiscretionary judgment, arbitrement 733 n. authority; arbitration, arbitrage, umpirage; judgment of facts, verdict, finding; penal judgment, sentence 963 n. punishment; spoken judgment, pronouncement; act of judgment, decision, adjudication, award; order, ruling; order of the court 737 n. decree;É estimate, estimation, view 485 n. opinion; assessment, valuation, evaluation, calculation 465 n. measurement; consideration, ponderation; comparing, contrasting 462 n. comparison; transvaluation 147 n. conversion; appreciation, appraisal, appraisement; criticism, constructive c. 703 n. aid; destructive criticism 702 n. hindrance; critique, crit, review, notice, press n., comment, comments, observations, remarks 591 n. dissertation;É estimator, judge, adjudicator; arbitrator, umpire, referee; surveyor, valuer 465 n. appraiser; inspector, inspecting officer, referendary, reporter, examiner 459 n. enquirer; counsellor 691 n. adviser; censor, critic, reviewer, commendator 591 n. dissertator; É Adj. judicial, judicious, judgmatic 463 adj. discriminating; unbiased, dispassionate 913 adj. just; juridical, juristic,É Vb. judge, sit in judgment, hold the scales; arbitrate, referree; hear, try, hear the case, try the cause 955 vb. hold court; uphold an objection, disallow an o.;É estimate, form an e., make an e., measure, calculate, make 465 vb. gauge; value, evaluate, appraise;É Adv. sub judice, under trial, under sentence. See: 147, 438, 449, 462É Figure 1.3Ê: Un article du RodgetÕs thesaurus Les mots en italiques en dŽbut de paragraphe reprŽsentent les sous-concepts. La virgule est utilisŽe pour sŽparer les mots de mme sens. Le point-virgule sŽpare des sens lŽgrement diffŽrents. Ce thesaurus se prŽsente donc comme un rŽseau de mots, liŽs sŽmantiquement, et auxquels on accde gr‰ce ˆ une classification hiŽrarchique de concepts. 1.2.2. Le vocabulaire de traitement de lÕinformation (IFIP & ICC) Le vocabulaire de traitement de lÕinformation de lÕIFIP (International Federation for Information Processing) et lÕICC (International Computation Center) est un dictionnaire terminologique qui se prŽsente comme un thesaurus. Les articles de ce dictionnaire sont rangŽs selon 20 catŽgories, classŽes dans 6 sections principales. Chacune de ces catŽgories est dŽcomposŽe de manire hiŽrarchique en termesÊ: Operation Monadic operation Dyadic operation Logic operation Compare (to) Shift Arithmetical operation Overflow Underflow Binary arith op. Borrow Carry Carry (to) Boolean operation Dual operation Complementary operation Negation Dyadic B. op. Arithmetical shift Logical shift ResultOperand Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. Chaque terme est associŽ ˆ un symbole composŽ dÕune lettre (la catŽgorie) et dÕun chiffre (numŽro du terme). Les termes sont ensuite dŽcrits, soit par une dŽfinition complte, soit en apparaissant ˆ lÕintŽrieur de la dŽfinition dÕun autre terme. Ainsi, les termes result (G2) et operands (G3) apparaissent dans la dŽfinition de operation (G1)Ê: G1 G2 G3 OPERATION A general term for any well-defined action, especially the derivation of a unit of data (the RESULT) from one or more given units of data (the OPERANDS), according to defined rules which specify the result for any permissible combination of values of the operands. Note: The term operands is sometimes used collectively for both operands and results since the results will often be operands in subsequent operations. Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation Notons quÕun index permet de retrouver un article du dictionnaire ˆ partir dÕun terme. Un article de ce dictionnaire contient une dŽfinition. On peut aussi trouver des notes ou des exemples illustrant le terme dŽcrit. La catŽgorie linguistique des termes nÕest pas indiquŽe. Les dŽfinitions sont donnŽes de manire prŽcise plut™t que concise. Les termes utilisŽs dans les dŽfinitions et dŽfinis par ailleurs dans le dictionnaire sont indiquŽs en italiques. Des alternatives au terme sont notŽes en soulignŽ. 1.3. Dictionnaires bilingues Les entrŽes des dictionnaires bilingues sont quasiment les mmes que celles des dictionnaires monolingues classiques. La diffŽrence provient des entrŽes composŽes (pomme de terreÉ) qui ne sont plus considŽrŽes comme des entrŽes mais comme des parties dÕun article (pommeÉ). Ces entrŽes (les lemmes) donnent accs ˆ des traductions des diffŽrents sens du lemme dans la langue cible. 2.1. Un format de codage : SGML/TEI La Text Encoding Initiative (TEI) Žtudie un standard de codage et dՎchange de documents textuels. Ce standard se prŽsente sous forme de recommandations et de structures de documents (pour la prose, les vers, les dictionnaire imprimŽs, les drames, les dictionnaires terminologiquesÉ). Cette initiative est parrainŽe par lÕAssociation for Computers and the Humanities (ACH), lÕAssociation for Computational Linguistics (ACL) et lÕAssociation for Literary and Linguistic Computing (ALLC). Le format TEI est basŽ sur SGML (Standard Generalized Markup Language). SGML est un standard international (ISO 8879) pour la reprŽsentation de textes sous une forme Žlectronique indŽpendamment de la machine et du systme1. SGML utilise des Žtiquettes pour structurer les diffŽrents ŽlŽments dÕun texte. Ces Žtiquettes sont notŽes entre chevrons (exÊ: <paragraph>) et agissent comme des parenthses, lՎtiquette fermante Žtant notŽe avec un Ò/Ó (exÊ: </paragraph>). Dans certaines conditions, lՎtiquette fermante peut tre omise. Parmi les types de documents qui nous intŽressent, la TEI a publiŽ des standards pour le codage de dictionnaires imprimŽs et de bases terminologiques ([Sperberg-McQueen & Burnard 1994], chapitres 12 et 13). La structure globale dÕun dictionnaire est analogue ˆ celle de textes usuels. On retiendra les ŽlŽments suivantsÊ: <text>Ê: contient du texte de nÕimporte quelle sorte (structurŽ ou non), <front>Ê: contient tout ce qui se trouve avant le dŽbut du dictionnaire lui mme (Enttes, page de titre, prŽface, dŽdicaceÉ), <back>Ê: contient tout ce qui se trouve aprs la fin du dictionnaire lui mme (AnnexesÉ), <body>Ê: contient lÕensemble du texte du dictionnaire, sauf les parties front et back, <div>Ê: contient une subdivision des parties front, body ou back du dictionnaire, <div0>Ê: contient une subdivision (du plus haut niveau) du dictionnaire, <div1>Ê: contient une subdivision (du niveau infŽrieur) du dictionnaire, <entry>Ê: contient une entrŽe structurŽe du dictionnaire, <entryFree>Ê: contient une entrŽe non conforme ˆ la structure dÕune entrŽe du dictionnaire, <superentry>Ê: groupe les entrŽes dÕun ensemble dÕhomographes. Voici un exemple de structure de dictionnaire conforme aux recommandations de la TEIÊ: <body> <div0 type=‘dictionary’> <!-- English-French --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> <div0> <!-- French-English --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> </body> Les ŽlŽments entry et entryFree partagent les attributs type (entrŽe standard, homographe, rŽfŽrence croisŽe, affixe, abrŽviationÉ) et clŽ (une sŽquence de caractres reflŽtant la position alphabŽtique de lÕentrŽe dans le dictionnaire). 1 Une introduction à SGML est donnée en annexe A. Le format de codage des dictionnaires permet aussi de coder de manire structurŽe les entrŽes dÕun dictionnaire. La dŽcomposition de lÕentrŽe est effectuŽe gr‰ce aux ŽlŽments suivantsÊ: <hom>Ê: regroupe les informations propres ˆ un homographe de lÕentrŽe, <sense>Ê: regroupe les informations propres ˆ un sens, <form>Ê: regroupe les informations sur la forme (orthographique et phonŽtique), <gramGrp>Ê: regroupe lÕinformation morpho-syntaxique dÕune unitŽ du dictionnaire, <def>Ê: contient une dŽfinition, <trans>Ê: contient du texte traduit et les informations associŽes, <eg>Ê: contient un texte exemple contenant au moins une occurrence de lÕentrŽe, <def>Ê: contient une dŽfinition, <usg>Ê: contient les informations sur lÕusage, <xr>Ê: contient des rŽfŽrences croisŽes, <etym>Ê: contient lÕinformation Žtymologique, <re>Ê: contient une entrŽe correspondant ˆ une unitŽ lexicale liŽe ˆ lÕentrŽe (expression, forme dŽrivŽeÉ), <note>Ê: contient des annotations. Le format de la TEI rend possible une dŽcomposition plus fine de la structure dÕune entrŽe de dictionnaire imprimŽ. Nous ne dŽtaillerons pas cette dŽcomposition ici. Le lecteur pourra se reporter ˆ [Sperberg-McQueen & al. 1994]. 2.2. Dictionnaires en ligne: le Collins On-Line La plupart des Žditeurs proposent aujourdÕhui des versions informatiques de leurs dictionnaires. Ces versions reprennent les donnŽes et les fonctionnalitŽs des dictionnaires papier. Ces outils sont utilisŽs en complŽment dÕun traitement de texte comme aide ˆ la rŽdaction ou ˆ la traduction de textes. Leurs fonctionnalitŽs sont assez rŽduites, puisquÕelles ne permettent en gŽnŽral pas dÕautre accs que lÕaccs alphabŽtique classique du dictionnaire papier. Le Collins On-line, avec ses dictionnaires franais-anglais et anglais-franais, en est un exemple reprŽsentatif. Cet outil, avec ses dictionnaires, est le reflet du Robert et Collins, prŽsentŽ plus haut. Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh La dŽcomposition en sens et les Žquivalents sont les mmes. Par contre, la forme est assez diffŽrente. Les contextes sont notŽs de manire plus succincte et les informations sont rendues sous forme de liste. En effet, les contraintes sont diffŽrentes. La prŽsentation du dictionnaire papier est motivŽe par des contraintes de place, alors que la prŽsentation du dictionnaire Žlectronique est motivŽe par des contraintes de lisibilitŽ ˆ lՎcran. Des contraintes dÕinterface ont obligŽ les concepteurs ˆ changer lŽgrement lÕentrŽe du dictionnaire. En effet, le dictionnaire papier utilise le lemme et sa catŽgorie pour crŽer une entrŽe, alors que le dictionnaire Žlectronique nÕutilise que le lemme, les diffŽrentes catŽgories Žtant regroupŽes dans le mme article. Il est possible dÕaccŽder rapidement ˆ lÕun des mots de la langue source apparaissant dans lÕarticle, en le sŽlectionnant et en appuyant sur une combinaison de touches. Par contre, il nÕest pas possible de faire la recherche rapide dÕun mot de la langue cible dans le dictionnaire inverse. 2.3. Gestionnaires de dictionnaires terminologiques : MTX Termex Le travail des traducteurs professionnels sÕeffectue maintenant en majoritŽ sur support informatique. Il est donc crucial quÕils disposent dÕoutils leur permettant dÕavoir accs aux donnŽes lexicales sur leur machine, de manire intŽgrŽe ˆ leur environnement de travail. Ces traducteurs Žtant bien souvent spŽcialisŽs dans un domaine ou employŽs par des entreprises spŽcialisŽes, ils possdent gŽnŽralement leur propre terminologie. Des outils de gestion de dictionnaires terminologiques sont nŽcessaires, en plus des outils de consultation de dictionnaires classiques. MTX Termex est un outil de ce genre. Il permet de consulter des dictionnaires du commerce, et aussi de crŽer son propre dictionnaire terminologique ou de modifier certaines entrŽes des dictionnaires du commerce. Avec cet outil, une entrŽe est simplement une cha”ne de caractres. Cette cha”ne peut comporter des blancs et des symboles de ponctuation. LÕinformation associŽe ˆ cette entrŽe est un texte simple. On peut utiliser ce texte comme une structure Òattributs-valeursÓ en notant les attributs entre accolades. Ainsi, on est libre de crŽer un dictionnaire ayant une structure quelconque. <F1>: Help Choose a command (or <esc>)===> {1} Europe {cap} Sofia {pop} 8 944 000 {lan} Bulgarian {cur} lev {gov} Republic [Bulgaria] MTX (tm) <F8>: Menu <Esc> to exit window File Name Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex Avec MTX 2, un traducteur peut trs facilement crŽer un petit dictionnaire terminologique multilingue. Il paut aussi gŽrer les variantes orthographiques dÕune entrŽe en les liant ˆ lÕentrŽe vedette. La consultation et la navigation sont elles aussi assez simples (possibilitŽ de crŽer des rŽfŽrences croisŽes, de revenir aux fiches prŽcŽdentesÉ). De plus, cet outil est intŽgrŽ aux traitements de texte usuels (appel et consultation automatique de la sŽlection). 2.4. Un environnement original : le Dicologique Le Dicologique est un produit commercialisŽ par la sociŽtŽ MEMODATA (Caen) et fonctionnant sous DOS et Windows. Cet outil utilise vŽritablement les avantages de lÕinformatique pour renouveler les moyens dÕaccs au dictionnaire. En utilisant une approche ensembliste du lexique([Dutoit 1992]), il permet un accs par thmes, analogies, idŽesÉ Le Dicologique regroupe 120Ê000 entrŽes, 25Ê000 concepts et 350Ê000 relations. Les relations se font principalement au travers deÊ: Les informations contenues dans BDLex sont morphologiques et phonologiques. LÕunitŽ lexicale de cette base est le lemme. lemme HG PHON FPH HP CL_PHON NS F CS GN CF nabab 11 /nA/bAb 11 /NA/DAD 2 N Mn 01 nabi 11 /nA/bi 11 /NA/DI 2 N Mn 01 nabot 11 /nA/bo t" 11 /NA/DE 2 N gn 01 nacelle 11 /nA/s&l e 11 /NA/SEL 2 N Fn 81 Figure 1.11Ê: Un exemple dÕentrŽes de BDLex ; (HGÊ: numŽro dÕhomographe, PHONÊ: phonŽtique, FPHÊ: terminaison phonŽtique, HPÊ: numŽro dÕhomophone, CL_PHONÊ: classe phonŽtique, NSÊ: nombre de syllabes, FÊ:ÊfrŽquence, CSÊ: classe syntaxique, GNÊ: variation en genre et nombre et CFÊ: classe flexionnelle) Ce dictionnaire est typiquement ˆ usage informatique. Les informations telles que le numŽro dÕhomographe ou dÕhomophone sont particulirement utiles pour gŽrer les problmes dÕambigu•tŽ lexicale, qui sont cruciaux lors du traitement automatique dÕune langue. De plus, les informations de ce dictionnaire sont codŽes et difficilement utilisables par un humain. On notera nŽanmoins que ce codage est relativement simple (structure en colonne, codes mnŽmotechniques), ce qui explique son succs auprs de nombreux laboratoires. 3.2. Dictionnaires du LADL Le LADL (ˆ lÕUniversitŽ Paris VII) a dŽveloppŽ le dictionnaire DELAF, un dictionnaire contenant 600Ê000 formes flŽchies du franais. Ce laboratoire a aussi dŽveloppŽ le dictionnaire DELACF, contenant 150Ê000 formes flŽchies de mots composŽs franais. Outre leur taille (qui les place parmi les plus importants dictionnaires franais), le DELAF et le DELACF prŽsentent un aspect remarquableÊ: leurs entrŽes sont reprŽsentŽes par des automates dՎtats finis. Cette structure dÕautomate est utilisŽe ˆ diffŽrents niveaux. AppliquŽe au codage des informations morphologiques et syntaxiques dÕune forme flŽchie, elle permet de reprŽsenter les diffŽrentes ambigu•tŽs des formes flŽchies. Y 3 m f P S 1 2 s s passe nom verbe Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ. Les abrŽviations utilisŽes sontÊ: m pour masculin, f pour fŽminin, s pour singulier, 1,2 et 3 pour dŽnoter la personne, P pour prŽsent, S pour subjonctif, Y pour impŽratif. Enfin, elle est utilisŽe pour reprŽsenter les diffŽrentes variantes dÕun mot composŽ. noiresŽrieladepolicierromanun policier Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier de la sŽrie noireÓ qui peut se trouver sous les formes Òun sŽrie noireÓ, Òun policier de sŽrie noireÓÉ 3.3. Ariane Le laboratoire GETA (Groupe dՃtude pour la Traduction Automatique) a dŽveloppŽ un gŽnŽrateur dÕapplications de traduction automatique nommŽ ARIANE. En dŽveloppant des applications de traduction, les chercheurs du GETA se sont vite rendu compte que le problme de la gestion des dictionnaires Žlectroniques Žtait un problme crucial. Aussi, des outils ont ŽtŽ dŽveloppŽs pour faciliter cette gestion. Chaque application de traduction automatique dŽveloppŽe sous ARIANE a son propre dictionnaire, ŽclatŽ en divers composants (pour lÕanalyse morphologique ou syntaxique, le transfert lexical ou structural, la gŽnŽration syntaxique ou morphologiqueÉ). Chacun de ces composants est exprimŽ dans un format spŽcialisŽ du langage en charge de la phase de traitement en question. LՎclatement du dictionnaire introduit des problmes de cohŽrence des informations lexicales rŽparties dans les divers composants. Aussi, un outil (Visulex) a ŽtŽ dŽveloppŽ pour rŽunir et visualiser les diffŽrentes informations lexicales dÕune application de traduction automatique. Cet outil ne permet de manipuler quÕun couple de langues ˆ la fois. Dans une telle base, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines fonctions lexico-sŽmantiques. Par exemple, les lemmes ÒconstructionÓ, ÒconstructifÓ, ÒconstruireÓ, ÒreconstruireÓ appartiennent tous ˆ une mme unitŽ lexicale notŽe Òconstruire-VÓ. Visulex gŽnre deux niveaux de fichiers pour le linguiste. Le premier niveau donne lÕensemble des commentaires associŽs ˆ une unitŽ lexicale. Le second niveau donne le dŽtail des informations linguistiques associŽes ˆ une unitŽ lexicale, sous la forme o on les trouve dans les dictionnaires dÕapplications. Commentaires et informations dŽtaillŽes sont donnŽs de manire structurŽe. Un article de Visulex contient notamment un contexte, une morphologie, des dŽtails sur les ŽlŽments du contexte et une liste dՎquivalents (avec des conditions de choix). -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' --cmt?-- --morphologie-- --cmt?-- FORME COMPLETE DE PARTICIPE PASSE FLECHISSABLE GEGANGEN- PARADIGME 09 INCLUS DANS 01(LEG) SAUF POUR -T QUI NE ... PEUT FAIRE LE PARTICIPE PASSE GEH- PARADIGME 29, DESINENCES -0, -E, -EN, -EST, -ET, -ST, -T GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' --cmt?-- 0:'GEHEN' --cmt?-- … --equivalents-- --------------- 'ALLER' 'ALLER' VERBE SANS AUCUNE RECTION DONNEE, EX: 'MARCHER' --cmt?-- --si: --cmt?-- '''AILL' BASE ACCEPTANT LES DESINENCES DE L'IMPARFAIT,DU... PRESENT SUB --si: --cmt?-- '''IR' --cmt?-- --si: --cmt?-- 'VAIS' --si: --cmt?-- 'VAS' --si: --cmt?-- 'VA' --si: --cmt?-- 'VONT' --si: --cmt?-- '''ALLER' TABLE+S --sinon: '''ALL' COUP+ER,E,EUR,ANT -------------------------------------------------------------- -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' IST:SUBV:=SEIN --morphologie-- VIDE: FCPPA:KMS-E-VB-U-ADJ,MT-E-PPA,SUBADJ-E-RSTA GEGANGEN- WSING:KMS-E-VB GEH- WFIEL:KMS-E-VB GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' VID: 0:'GEHEN' IST:SUBV:=SEIN … --equivalents-- --------------- 'ALLER' 'ALLER' VB: R3:AX:=ETR,RFRUS:=SUPPR --si: SUBJ3:MOD-E-SUB-ET-TF-E-PRE-ET-NUM-E-SIN-OU-MOD... -E-SUB-ET-TF-E-PRE-ET-P-E-3 '''AILL' VERBE:PGMV-E-VERBE --si: FUT:TF-E-FUT-OU-MOD-E-CDL '''IR' AUR:PGMV-E-FUTUR --si: SUIS:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-SIN-ET-P-E-1 'VAIS' --si: DUEPRE:P-E-2-ET-TF-E-PRE-ET-NUM-E-SIN 'VAS' --si: SAI:NUM-E-SIN-ET-TF-E-PRE-ET-MOD-E-IND-OU-MOD-E... -IMP-ET-NUM-E-SIN 'VA' --si: SONT:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-PLU-ET-P-E-3 'VONT' --si: NVBMAS:CPRD-E-VBACT-ET-CAT-E-CATN-ET-GNR-E-MAS '''ALLER' MOT:FLXN-E-MOT --sinon: '''ALL' V1AFE1:FLXV-E-AIMER,DRNV-E-FEME1 -------------------------------------------------------------- Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex Visulex rassemble des informations dispersŽes dans les nombreux dictionnaires des diffŽrents composants dÕune application linguistique. Il est ainsi possible de consulter les informations liŽes ˆ une unitŽ lexicale pour retrouver la source dՎventuelles erreurs de traduction. Par contre, la modification des dictionnaires ne peut se faire quÕau travers dÕARIANE, composant par composant. NŽanmoins, lÕoutil Visulex est un premier pas vers la crŽation dÕune base lexicale spŽcialisŽe pour la Traduction Automatique. 3.4. BDTAO BÕVITAL utilise le systme ARIANE pour construire des applications de traduction automatique industrielles. Pour cela, cette entreprise a dŽveloppŽ une base lexicale rŽutilisable (BDTAO) ˆ partir de laquelle il est possible de gŽnŽrer des composants du dictionnaire de lÕapplication, au format ARIANE. Cette base lexicale est spŽcialisŽe pour la traduction automatique, mais elle est indŽpendante dÕune application de traduction particulire. Une mme base peut tre utilisŽe pour lÕanalyse et la gŽnŽration. De plus, les entrŽes terminologiques sont rŽversibles en transfert. BDTAO contient des dictionnaires Òen fourcheÓ (1 langue source -> n langues cibles). Comme dans les bases Visulex, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines fonctions lexico-sŽmantiques. Les informations linguistiques sont codŽes dans une structure Òattribut-valeurÓ plate. Cette structure est sŽparŽe en deux sections. La premire contient lÕinformation monolingue, la seconde contient diffŽrentes traductions de lÕentrŽe dans diffŽrentes langues, avec Žventuellement des conditions guidant le choix. *ADJECTIF 001 prochain 002 COU 101 S 103 ES 105 E 107 O 504 SXA 990 - prochainement = bientôt, dans un 990 proche avenir 99D 22/03/88 99A IM $CODE $UL PROCHAIN -A $PH AM 1 29/09/88 $AM PROCHAIN ADJ1 Z000154 Figure 1.15Ê: Une entrŽe lexicale de BDTAO BDTAO est une vŽritable base lexicale spŽcialisŽe. En effet, toute modification ou crŽation dÕinformation lexicale se fera dans ce format. On peut ensuite gŽnŽrer des dictionnaires spŽcialisŽs pour chacun des composants dÕune application linguistique sous ARIANE. Un tel outil simplifie grandement la gestion des dictionnaires dÕapplication puisque la consultation et la modification se font ˆ un mme endroit et dans un format simple. Les noms des attributs ne dŽpendent pas des noms des variables utilisŽes dans les grammaires des applications lexicales envisagŽes. Cette indŽpendance de BDTAO vis-ˆ-vis dÕune application particulire permet dÕutiliser une base lexicale pour plusieurs applications diffŽrentes. LÕindexage de cette base lexicale est fait en utilisant des bordereaux dÕindexage o le lexicographe rŽpond ˆ des questions simples sur lÕentrŽe en question. De plus, BÕVITAL a construit un outil permettant de rŽcupŽrer les informations lexicales des applications de traduction dŽveloppŽes antŽrieurement ˆ BDTAO. 3.5. METAL Pour son gŽnŽrateur de systmes de Traduction Automatique (METAL 3.0), SIEMENS a dŽveloppŽ des outils pour faciliter la manipulation des dictionnaires. Il y a deux types de dictionnaires sous METAL 3.0Ê: les dictionnaires monolingues et les dictionnaires de transfert. Les structures des entrŽes de ces dictionnaires sont des structures de traits plates. Les traits des dictionnaires de transfert sont fixŽs pour chaque paire de langues. Les traits des dictionnaires monolingues sont dŽfinis pour chaque langue par un fichier de description. Une entrŽe de dictionnaire METAL est un ensemble de traits avec leurs valeurs. Les valeurs de ces traits peuvent tre de lÕun des types suivantsÊ: 1. Le Lexicaliste Le Lexicaliste est un systme de gestion de bases lexicales monolingues dŽveloppŽ et commercialisŽ par la sociŽtŽ SITE. 1.1. Vue générale du système Le Lexicaliste sÕappuie sur une description des entrŽes du lexique. Un article est un arbre dŽcorŽ dont la racine correspond ˆ lÕentrŽe du dictionnaire (lemme) et les nÏuds aux diffŽrents sens de lÕarticle. Les dŽcorations sont des structures attributs-valeurs simples portŽes par les diffŽrents sens de lÕarticle. sense 0 sense 1 sense 2 sense 2.2sense 2.1sense 1.1 sense 1.2 category: verb conjugation: V27 Morphological information … Misc. information Semantic information Syntactical information 2/2 hyphen: ap-pren-dre … definition: "S'instruire" example: "Apprendre à faire du piano" … Syntactical information 1/2 auxiliary: avoir transitivity: intransitive prop.gov.: à <infinitive> Apprendre = Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste Le linguiste dŽfinit les attributs (et les valeurs) qui sont utilisŽs dans une base lexicale particulire. Cette description est appelŽe ÒrŽfŽrentielÓ. Il peut aussi donner des propriŽtŽs (attributs monovaluŽs, multivaluŽs, relations acycliquesÉ) sur les attributs de la base. Ces propriŽtŽs sont contenues dans le ÒmŽta-rŽfŽrentielÓ. Meta-rŽfŽrentiel RŽfŽrentiel DŽcrit les propriŽtŽs des attributs dŽfinis dans le rŽfŽrentiel Base lexicale DŽcrit la structure des articles de la base lexicale Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire Les attributs sont sŽparŽs en 5 catŽgories distinctes: - attributs des lemmes (exÊ: catégorie), - attributs des sens (exÊ: transitivité, définition), - attributs des rgles flexionnelles (exÊ: nombre, genre), - relations lexicales (exÊ: abréviation, dérivation), - relations sŽmantiques (exÊ: hyperonymie, synonymie). Lorsque ce travail de dŽfinition a ŽtŽ accompli, les tables SQL et lÕinterface sont automatiquement gŽnŽrŽes par le systme. 1.2. Réseau lexical et sémantique Le systme gre deux types de relations, qui dŽfinissent deux rŽseaux diffŽrents ˆ lÕintŽrieur du dictionnaireÊ: - les relations lexicales, dŽfinies sur un ensemble de sens de mots, - les relations sŽmantiques, dŽfinies sur un ensemble de concepts. Une relation lexicale relie deux sens de mots au niveau lexical. Par exempleÊ: - ÒapptÓ est-abreviation-de ÒappartementÓ, - ÒclefÓ est-variante-orthographique-de ÒclŽÓ - ÒapprentissageÓ est-nominalisation-de ÒapprendreÓ. Les relations lexicales relient les diffŽrents sens des lemmes, et non diffŽrents lemmes. Cela permet par exemple de relier les deux sens diffŽrents de ÒblanchirÓ ˆ leur nominalisation ÒblanchissageÓ et ÒblanchimentÓ). On aura doncÊ: - ÒblanchissageÓ est-nominalisation-de Òblanchir-1Ó, - ÒblanchimentÓ est-nominalisation-de Òblanchir-2Ó. Une relation sŽmantique relie deux concepts au niveau sŽmantique (au sens de la rŽfŽrence au monde rŽel)Ê: - ÒchaiseÓ est-un ÒmeubleÓ, - ÒpoissonÓ a-connotation-avec ÒmerÓ, - ÒmalariaÓ est-synonyme-de ÒpaludismeÓ. Chaque sens de mot peut tre associŽ ˆ un concept par un attribut particulierÊ: le prŽdicat sŽmantique. RŽciproquement, chaque concept peut tre associŽ ˆ un ou plusieurs sens de mot. 1.3. Vérifications de cohérence et valeurs par défaut Pour simplifier la maintenance et lÕindexage dÕun dictionnaire, le linguiste dispose dÕun langage spŽcialisŽ avec lequel il peut dŽfinir des contraintes sur certains des attributs dÕun article. Ces contraintes sont utilisŽes de deux manires pourÊ: - VŽrifier la cohŽrence dÕun article (dŽjˆ indexŽ dans le dictionnaire), - Attribuer des valeurs par dŽfaut ˆ certains attributs dÕun article en cours de crŽation. Avec ce langage, le linguiste peut par exemple exprimer les contraintes suivantesÊ: - un verbe pronominal prend lÕauxiliaire ҐtreÓ, - un verbe impersonnel nÕa pas de forme passive, - lÕattribut transitivité prend la valeur directe pour les verbes se terminant en ÒiserÓ (cette valeur par dŽfaut sera proposŽe), - lÕattribut conjugaison dÕun verbe se terminant par ÒgerÓ prend la valeur V1 ou V2. Voici un exemple de ces contraintesÊ: DECL-MESSAGES msg-aux "l'attribut auxiliaire n'est pas défini" msg-transit "l'attribut transitif n'est pas défini" msg-transObj2 "l'attribut transObj2 doit être défini" msg-frmPassif "l'attribut frmPassif doit être défini" DECL-CONTRAINTES // Syntactic attributes for verbs SI cat = verb ALORS // the default auxilary is “avoir” (to have) aux DEFINI DEFAUT {avoir} MESSAGE msg-aux // if the verb ends with “ter”, the conjugation is // V3 or V3H or V3Q (default V3). si cle = "*ter" alors mm dans { V3, V3H, V3Q } defaut V3 FSI // An intransitive verb does not admit passive (by default) SI transit = intrans ALORS passiv DEFAUT non FSI FSI 2. EDR Le plus grand projet mondial de construction dÕune base lexicale multilingue a dŽbutŽ ˆ Tokyo le 26 avril 1986. DÕune durŽe de 9 ans, ce projet a impliquŽ 1200 hommes-annŽes pour un cožt total de 14 milliard de Yens (environ 750 MF). Au terme de son contrat, EDR a atteint ses objectifsÊ: la construction dÕune base lexicale anglais-japonais utilisable par des systmes de traduction automatique. Les dictionnaires anglais et japonais comportent 300Ê000 entrŽes chacun (200Ê000 en vocabulaire gŽnŽral et 100Ê000 en vocabulaire terminologique). EDR a aussi dŽcrit 640Ê000 concepts correspondant ˆ ces entrŽes. La base lexicale comporte enfin deux dictionnaires bilingues (1 par sens) de 300Ê000 entrŽes et deux corpus (anglais et japonais) de 250Ê000 phrases analysŽe. Ces corpus comportent aussi 20 millions de phrase Japonaises et 10 millions de phrases anglaises. EDR est avant tout un projet industriel visant la construction dÕune base lexicale de grande taille. Cet objectif nÕa pu tre atteint quÕau prix dÕune simplification des structures linguistiques prŽsentes dans les dictionnaires. NŽanmoins, ces dictionnaires sont suffisamment complets pour tre utilisŽs comme une source de donnŽes lexicales par de nombreux systmes de traduction dŽveloppŽs au Japon. 2.1. Architecture lexicale Le projet EDR a dŽlibŽrŽment adoptŽ une approche mixte o lÕon trouve un dictionnaire interlingue et des dictionnaires bilingues. Les dictionnaires de mots (anglais et japonais) sont divisŽs en deux parties. La premire contient environ 200Ê000 termes gŽnŽraux, et la seconde contient environ 100Ê000 termes techniques (dans le domaine du traitement de lÕinformation). Ces dictionnaires contiennent les informations grammaticales sur les entrŽes et les concepts auxquels elles sont associŽes. Le dictionnaire de concepts regroupe 640Ê000 concepts, parmi lesquels, 100Ê000 proviennent des entrŽes terminologiques et sont communs aux deux langues. Par ailleurs, 60Ê000 concepts sur environ 300Ê000 concepts issus de chaque dictionnaire gŽnŽral sont communs aux deux langues (Ch. Boitet, communication personnelle). Le correspondant en langue cible dÕune entrŽe en langue source est une liste dÕentrŽes du dictionnaire de langue cible, ˆ moins quÕune flexion particulire ne soit nŽcessaire lors de la traduction. Les Žquivalences entre langues nՎtant gŽnŽralement pas parfaites (nuances entre les concepts recouverts par un mot et sa traductionÉ), on donne la relation de correspondance qui existe entre lÕentrŽe et son Žquivalent. Il existe 5 relations de correspondanceÊ: ¥ ŽquivalenceÊ: les concepts recouverts par lÕentrŽe et sa traduction sont Žquivalents, ¥ sous-relationÊ: le concept de lÕentrŽe est plus large que le concept de sa traduction, ¥ super-relationÊ: le concept de lÕentrŽe est un sous-concept de celui de la traduction, ¥ synonymieÊ: la diffŽrence entre les concepts est minime, ¥ remarqueÊ: le correspondant est une transcription de lÕentrŽe. Dans ce cas, une explication est donnŽe en information supplŽmentaire. EntrŽes Relations de correspondance Correspondances Žquivalence dog left Žquivalence annihilation sous-relation sous-relation <explanation> circuitous allege super-relation super-relation (in) other words abbey synonymie ameer remarque remarque ebosikago [bamboo hand-basket]Ê? Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues LÕexplication supplŽmentaire est indiquŽe entre chevrons(<>), parenthses (()) ou crochets ([]) suivant que lÕon a affaire (respectivement) ˆ une sous-relation, une super-relation ou une remarque. 2.3. Dictionnaire de concepts Dans les trois phrases suivantesÊ: ¥ Un ŽlŽphant appara”t, ¥ Un ŽlŽphant nÕoublie jamais, ¥ LՎlŽphant est une espce en danger, le mot ŽlŽphant renvoie tour ˆ tour ˆ un individu de lÕespce des ŽlŽphants, ˆ un prototype dՎlŽphant ou ˆ lÕespce des ŽlŽphants. NŽanmoins, ce mot rŽfre ˆ quelque chose de commun ˆ chacun de ces usages. Ce quelque chose est le contenu sŽmantique du mot ŽlŽphant. La mme remarque sÕapplique au mot japonais z™., qui a le mme contenu sŽmantique que le mot ŽlŽphant. Le contenu sŽmantique dÕun mot, ainsi dŽfini, est reprŽsentŽ par un ŽlŽment du dictionnaire de concepts (un concept). Un concept (correspondant ˆ un mot) a une identificateur unique. Ainsi, le concept correspondant ˆ ŽlŽphant a lÕidentificateur <3bf246>. NŽanmoins, comme il nÕy a pas de possibilitŽs de confusion (polysŽmieÉ), ce concept est aussi appelŽ Òconcept ŽlŽphantÓ et notŽ ǎlŽphantÈ. Dans le dictionnaire de concepts, lÕidentificateur est accompagnŽ dÕune illustration (une phrase en anglais et en japonais) qui permet ˆ lÕutilisateur de conna”tre le concept quÕil manipule. Le plus important travail de recherche, dÕindexage et de maintenance a ŽtŽ effectuŽ sur le dictionnaire de concepts. Ce dictionnaire est dŽcomposŽ en deux parties. Dans la premire partie, les concepts sont dŽcrits par un ensemble de relations quÕils entretiennent entre eux. Dans la seconde partie, les concepts sont classifiŽs hiŽrarchiquement. 2.3.1. Description des concepts EDR a rejetŽ lÕapproche consistant ˆ dŽcrire un concept ˆ lÕaide de concepts de base plus simples. Aussi, chaque unitŽ sŽmantique, correspondant ˆ un mot ou une expression complexe, sÕexprime par un concept (que lÕon peut identifier et manipuler), et ce, mme si la sŽmantique de ce concept peut se traduire par une description ˆ base de concepts plus simples. La description des concepts se base sur un ensemble de relations quÕils entretiennent entre eux. EDR a retenu 24 relations et 50 attributs (relations unaires) pour cette descriptionÊ: agent sujet dÕune action volontaire. Les entitŽs conscientes ou automatisŽes peuvent tre de tels sujets. Òun animal mangeÓ ÇmangerÈ ÑÊagentÊ→ ÇanimalÈ a-object attribut dÕun objet Òles tomates sont rougesÓ ÇrougeÈ ÑÊa-objectÊ→ ÇtomateÈ object objet affectŽ par une action ou un changement Òmanger de la viandeÓ ÇmangerÈ ÑÊobjectÊ→ ÇviandeÈ cause la cause Òmort de froidÓ ÇmortÈ ÑÊcauseÊ→ ÇfroidÈ implement instrument ou moyen dans une action volontaire Òcouper avec un couteauÓ ÇcouperÈ ÑÊimplementÊ→ ÇcouteauÈ material composant matŽriel ou structurel Òfait avec du laitÓ ÇfaireÈ ÑÊmaterialÊ→ ÇlaitÈ source sujet dÕun ŽvŽnement ou position ou condition initial dÕun objet Òvenir de TokyoÓ ÇvenirÈ ÑÊsourceÊ→ ÇTokyoÈ goal sujet dÕun ŽvŽnement ou position ou condition finale dÕun objet Òaller ˆ TokyoÓ ÇallerÈ ÑÊgoalÊ→ ÇTokyoÈ place lieu o se tient un ŽvŽnement Òjouer dans la chambreÓ ÇjouerÈ ÑÊplaceÊ→ ÇchambreÈ scene contexte dans lequel un ŽvŽnement a lieu Òjouer dans un drameÓ ÇjouerÈ ÑÊsceneÊ→ ÇdrameÈ manner manire dont se passe une action ou un changement Òparler lentementÓ ÇparlerÈ ÑÊmannerÊ→ ÇlentementÈ time instant o se passe un ŽvŽnement Òse lever ˆ lÕheureÓ Çse leverÈ ÑÊtimeÊ→ Lj lÕheureÈ time-from instant o dŽbute un ŽvŽnement Òje travaille depuis le matinÓ ÇtravaillerÈ ÑÊtime-fromÊ→ ÇmatinÈ time-to instant o se termine un ŽvŽnement Òje travaille jusquÕau soirÓ ÇtravaillerÈ ÑÊtime-toÊ→ ÇsoirÈ quantity quantitŽ de chose, dÕaction ou de changement Òun kilo de pommesÓ ÇpommesÈ ÑÊquantityÊ→ ÇkiloÈ number nombre Ò3 kilosÓ ÇkiloÈ ÑÊnumberÊ→ Ç3È condition relation de condition entre ŽvŽnements ou circonstances Òaller pleurerÓ ÇallerÈ ÑÊconditionÊ→ ÇpleurerÈ cooccurrence relation simultanŽe entre ŽvŽnements ou circonstances Òpartir en pleurantÓ ÇpartirÈ ÑÊcooccurrenceÊ→ ÇpleurerÈ purpose but dÕune action Òaller voirÓ ÇallerÈ ÑÊpurposeÊ→ ÇvoirÈ sequence relation temporelle sŽquentielle entre ŽvŽnements ou circonstances Òsauter et frapperÓ ÇsauterÈ ÑÊsequenceÊ→ ÇfrapperÈ basis base de comparaison Òles roses plus belles que les lilasÓ ÇrosesÈ ←Êa-objectÊÑ ÇbeauÈ ←ÊobjectÊÑ ÇplusÈ ÑÊbasisÊ→ ÇbeauÈ ÑÊa-objectÊ→ ÇlilaÈ and relation de conjonction entre concepts Òvisiter Rome et VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇRomeÈ ÑÊandÊ→ ÇVeniseÈ) or relation de disjonction entre concepts Òvisiter Rome ou VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇÇRomeÈ ÑÊorÊ→ ÇVeniseÈ) modifier autres relations Ë ces 24 relations sÕajoutent 4 Òpseudo-relationsÓ, qui sont des relations dŽfinies en fonction des autres relations. Ainsi, la pseudo-relation possessor est dŽfinie comme suitÊ: possessor ÑÊpossessorÊ→ ≡ ←ÊobjectÊÑÊÇownÈÊÑÊagentÊ→ Les pseudo-relations sontÊ: possessor relation de possession Òle chien de TomÓ ÇchienÈ ÑÊpossessorÊ→ ÇTomÈ beneficiary bŽnŽficiaire dÕun ŽvŽnement ou dÕune circonstance Òutile aux personnesÓ ÇutileÈ ÑÊbeneficiaryÊ→ ÇpersonnesÈ from-to portŽe, chemin,ÊÉ Òun tiquet dÕOsaka ˆ TokyoÓ ÇtiquetÈ ÑÊmodifierÊ→ (ÇÇOsakaÈ ÑÊfrom-toÊ→ ÇTokyoÈ) unit lÕunitŽ Ò500 yens pour une douzaineÓ ( Ç1È ←ÊnumberÊÑ ÇdouzaineÈ ) ←ÊunitÊÑ (Ç yensÈ ÑÊnumberÊ→ Ç500È ) Les attributs sont dŽfinis comme des relations unaires sur les concepts. EDR a dŽfini 50 attributs rŽpartis comme suitÊ: Attributs qualifiant lÕobjetÊ: all Tous les objets some Un nombre non spŽcifiŽ dÕobjets specific Des objets spŽcifiŽs generic Objets avec des caractŽristiques gŽnŽrales Attributs indicateur de tempsÊ: past Le point de vue est dans le passŽ present Le point de vue est dans le prŽsent future Le point de vue est dans lÕavenir Attributs de relativitŽÊ: begin DŽbut dÕune action ou dÕun ŽvŽnement end Fin dÕune action ou dÕun ŽvŽnement progress Une action ou un ŽvŽnement est en cours continue Une action rŽpŽtitive ou un ŽvŽnement rŽpŽtitif est en cours state Une action ou un ŽvŽnement est terminŽ et un Žtat ou rŽsultat est atteint complete Toutes les actions ou tous les ŽvŽnements sont terminŽs yet NÕa pas encore eu lieu already A dŽjˆ eu lieu soon Aura lieu bient™t just Vient dÕavoir lieu come On approche du moment auquel pense le locuteur go On sՎloigne du moment auquel pense le locuteur Attributs dŽnotant lÕintention du locuteurÊ: imperative Un ordre interrogation Une question exclamation Une exclamation invite Une invitation rumor Une rumeur respect Avec respect polite Avec politesse require-agreement Demande agrŽment ou confirmation thought Une pensŽe conclude Une conclusion sure InfŽrence ˆ partir dÕune situation maybe InfŽrence dÕune ŽventualitŽ seem InfŽrence ou supposition recommend Une recommandation grant Une permission grant-not Un refus de permission underestimate Une sous-estimation duty Une obligation should Une quasi-obligation sufficiency Suffisance consent Un consentement pity DŽsappointŽ be-sorry Avec remords appearance Circonstance ou comparaison natural-result RŽsultat naturel dÕun ŽvŽnement ou dÕune circonstance advise Avis ou recommandation donnŽe par lÕauteur natural-thing Forme idŽale, ce qui devrait tre blame Un bl‰me if SpŽculation sur quelque chose dÕincertain reality La rŽalitŽ unexpected Inattendu, imprŽvisible GENELEX a choisi de coder ses dictionnaires dans un format entitŽs-attributs-relations. Ce choix permet de visualiser un unitŽ lexicale comme un graphe. Cela permet aussi de placer chaque ŽlŽment dÕinformation sur un pied dՎgalitŽ (i.e. aucun nÏud nÕest privilŽgiŽ lors des recherches, alors quÕune structure en arbre privilŽgierait la racine). GENELEX a produit un dictionnaire public dÕenviron 3000 termes. Par ailleurs, les participants au projet ont transformŽ leurs dictionnaires privŽs au format dŽfini par le consortiumÊ: Hachette 55Ê000 termes Notre temps 60Ê000 termes + 25Ê000 noms propres SEMA Group 70Ê000 unitŽs morphologiques IBM 50Ê000 unitŽs morphologiques GSI-ERLI 68Ê000 unitŽs morphologiques simples et 15Ê000 unitŽs morphologiques composŽes 3.1. Le modèle conceptuel de GENELEX Le modle conceptuel de GENELEX dŽfinit le formalisme de haut niveau dans lequel un linguiste peut exprimer sa thŽorie linguistique. Ce formalisme de haut niveau doit tre indŽpendant du stockage effectif des donnŽes. GENELEX doit reprŽsenter les diverses descriptions existantes, compte tenu de ce quÕelles dŽpendront du modle thŽorique, du degrŽ de finesse et des critres discriminants retenus par le lexicographe, et ce, quelle que soit son Žcole. Cela aura des rŽpercutionsÊ: - au niveau morphologique, - au niveau du comportement syntaxique des unitŽs lexicales, - au niveau sŽmantique, - au niveau des inter-relations entre les diffŽrentes informations codŽes. Ces diverses descriptions appara”tront soit dans plusieurs instances de dictionnaires, soit dans une seule et mme instance construite par fusion de toutes les autres. Le formalisme descriptif de Genelex est donc dŽveloppŽ pour pouvoir contenir chacune des thŽories en usage. Il fonctionne donc comme un pont entre les diffŽrentes thŽories linguistiques. Le modle conceptuel GENELEX a ŽtŽ largement exprimŽ au travers de modles entitŽs- attributs-relations (Merise). Beaucoup de contraintes dÕintŽgritŽ sont exprimŽes dans ce formalismeÊ: typage des objets, typage des relations, cardinalitŽ des relations, etc. Cependant, ce modle nÕest pas fait pour exprimer des rgles. Aussi, certaines contraintes ont dž tre exprimŽes dans le document dÕaccompagnement (restriction sur les combinaisons de valeurs). Il sÕensuit que le modle conceptuel de GENELEX combine lÕutilisation du formalisme entitŽs-attributs-relations et de commentaires en langage naturel. Comme nous lÕavons dŽjˆ mentionnŽ, le formalisme de GENELEX se veut indŽpendant du stockage effectif des donnŽes. Cela permet ˆ chaque membre du consortium GENELEX de construire ses propres outils sur la plate-forme de son choix. Un format dՎchange est donc nŽcessaire pour assurer la compatibilitŽ des diffŽrents outils. Le consortium GENELEX a choisi SGML (Standard Generalized Markup Language) comme format dՎchange. SGML est un langage de description de documents (cf. annexe A) qui permet de dŽcrire la structure et le contenu dÕun ensemble de documents. La structure dÕun document est donnŽe par une DTD (Document Type Definition). GENELEX a donc traduit son modle conceptuel en un modle physique en construisant une DTD. Certaines des contraintes alors exprimŽes en langage naturel ont pu tre exprimŽes formellement dans la DTD. Les autres contraintes apparaissent sous forme de commentaires. 3.2. Vue générale d’une unité du lexique Comme lÕensemble des informations dÕun dictionnaire Genelex, chaque unitŽ du lexique peut tre vue sous forme de graphe. Les unitŽs sont organisŽes selon trois couchesÊ: unitŽs morphologiques (UM), unitŽs syntaxiques (USyn) et unitŽs sŽmantique (USŽm). Nous donnons en figure 2.14. lÕarticulation globale dÕune unitŽ du lexique. Graphie UMG MFG Phonie UMP MFP se prononce UnitŽ Morphologique UMS, UMC, UM_AFF dŽrivation, forme brve, autonomie, composition forme graphique forme phonique syntaxe 0,n 1,1 UnitŽ syntaxique simple USynt sŽmantique 0,n 1,n UnitŽ sŽmantique USŽm, traits componentiels, relations Abstraction Concept Structure prŽdicative PrŽdicat sŽmantique Structure syntaxique self, construction, position, É correspondance d'arguments UnitŽ syntaxique composŽe composition Description de base transformation transformation Description de base struct. interne struct. transf. sŽmantique Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique Une unitŽ du lexique comprend donc une unitŽ morphologique. Cette unitŽ morphologique est reliŽs ˆ 0, 1 ou plusieurs unitŽs syntaxiques simples. LÕunitŽ syntaxique, par contre, nÕest reliŽe quՈ une et une seule unitŽ morphologique. Dans le cas dÕexpressions composŽes, lÕunitŽ morphologique est reliŽe ˆ plusieurs unitŽs syntaxiques simples (celles des composants), elles-mmes liŽes ˆ une unitŽ syntaxique complexe (dŽcrivant le comportement syntaxique global du composŽ). Une unitŽ syntaxique simple est reliŽe ˆ 0, 1 ou plusieurs unitŽs sŽmantiques. LÕunitŽ sŽmantique est liŽe de manire biunivoque ˆ un concept et ˆ une structure prŽdicative. On conna”t aussi la correspondance entre les arguments du prŽdicat et les ŽlŽments syntaxiques de lÕunitŽ. LorsquÕune unitŽ sŽmantique est associŽe ˆ plusieurs unitŽs syntaxiques, celle-ci sont simples et proviennent de la mme unitŽ morphologique. Avec ce schŽma, il est possible de crŽer des dictionnaires nÕayant que des informations morphologiques, nÕayant que des informations morphologiques et syntaxiques ou ayant des informations morphologiques, syntaxiques et sŽmantiques. 3.3. Le modèle morphologique Le modle morphologique dŽfinit une unitŽ morphologique (UM) et donne sa structure. Une unitŽ morphologique est le point dÕentrŽe de la couche morphologique et le point de passage vers les autres couches. Une unitŽ morphologique est un regroupement de mots basŽ sur des propriŽtŽs morphologiques. Elle est identifiŽe par son lemme graphique et/ou par son lemme phonŽtique. La forme lemmatisŽe est la forme singulier sÕil y a variation en nombre, masculin sÕil y a variation en genre, et infinitif pour les verbes. Dans certains cas, il est difficile de savoir si lÕon a affaire ˆ plusieurs unitŽs morphologiques ou ˆ une seule. Pour cela, GENELEX a dŽfini des critres formels dՎclatementÊ: - si deux catŽgorie grammaticales peuvent tre associŽes ˆ une forme lemmatisŽe, on considre quÕon est en prŽsence de deux lemmes distincts. Par exempleÊ: autiste (nom) et autiste (adjectif). On note cependant la difficultŽ ˆ distinguer certaines catŽgorieÊ: nom/adjectif, participe passŽ/adjectif, participe prŽsent/adjectif. - si la variation en genre dÕun nom reflte une variation sŽmantique (mise ˆ part le changement de sexe), on considre que lÕon est en prŽsence de deux unitŽs morphologiques distinctes. Par exempleÊ: un page/une page, un colonel/une colonelle (la colonelle est la femme du colonel, pas un colonel fŽminin). - si deux significations trs distinctes (sans lien Žtymologique ou rhŽtorique) peuvent tre associŽes ˆ une forme lemmatisŽe, on considre que lÕon est en prŽsence de deux lemmes distincts. Par exempleÊ: fraise, pole. LÕapplication de ce critre est laissŽe au lexicographe. On ne peut malheureusement pas toujours dŽterminer si certains de ces critres sÕappliquent ou non. GENELEX a dŽfini cinq types dÕunitŽs morphologiquesÊ: - UM simpleÊ: une UM simple est associŽe ˆ une graphie (plusieurs en cas de variantes) constituŽe dÕune suite de caractres alphabŽtiques, de sŽparateurs (tiret, apostrophe, point) et de la marque Žventuelle dÕhyphŽnation. Par exempleÊ: demain, aprs-demain, aujourdÕhui. - UM affixesÊ: une UM affixe peut tre de type prŽfixe, infixe ou suffixe, ou encore sans type dans le cas o elle ne prend son statut quÕen contexte de dŽrivation ou composition. Par exemple, -tion (suffixe), re- (prŽfixe), et gyne (sans type dÕaffixe), qui donne androgyne et gynŽcologue. - UM dŽrivŽesÊ: une UM dŽrivŽe est une unitŽ morphologique simple qui entretient des liens de dŽrivation avec dÕautres unitŽs morphologiques (simples ou affixes). Ces unitŽs grand dam, dans le but de P[mode: infinitif] -> dans ce but). De plus, on peut mentionner les processus dÕeffacementÊ: fil de fer barbelé -> fil barbelé -> barbelé. P P0 P1 P2 P3 C = PRO [lex : il] [sscat : impersonnel] V [ssCatSyn : copule] SADJ P (P0) SELFsyntagme rŽŽcritÊ: SADJÊ: ou P P P0 P1 PPrep [lex: de] P0: vide P1 SV[mode: infinitif] P0 P1 P [mode: subjonctif]CONJ [sscat: subord.] [lex: que] SELF = intŽressant (adjectif) Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif) La figure 2.17. donne un exemple de construction syntaxique pour une USyn composŽe. LÕinteraction entre composants et arguments ou modifieur y est dŽcrite (insertion dÕun argument entre les composants, par exemple). CB: P P0 SELF P1 SN SN SELF: IntervConst: V Syntagme NT S: SV P0 IO P1 V [RefLex: mettre] SP [prep: en] [RefLex: Ïuvre] cb.P1 SN mettre SN en Ïuvre Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ 3.5. Le modèle sémantique Vu le faible niveau de consensus dans la communautŽ scientifique en ce qui concerne la formalisation des connaissances sŽmantiques, GENELEX propose un mŽta-modle ˆ instancier plut™t quÕun modle ˆ implŽmenter directement sur les donnŽes lexicales. Dans cet esprit, Genelex a clairement sŽparŽ la sŽmantique en deux niveauxÊ: - un niveau de reprŽsentation sŽmantique linguistiqueÊ: cette reprŽsentation, trs proche de la langue, est construite principalement ˆ partir de lÕobservation du lexique en contexte et des relations sŽmantiques entre ŽlŽments du lexique. Ce niveau regroupe les informations sŽmantiques fines nŽcessaires ˆ la traduction automatique de qualitŽ ou ˆ la gŽnŽration, ˆ la comprŽhension automatique de texte pour gŽnŽration de rŽsumŽÉ). - un niveau de reprŽsentation sŽmantique conceptuelleÊ: cette reprŽsentation, issue des courants de lÕintelligence artificielle, est dÕune plus grande ÒabstractionÓ. elle sÕappuiera sur des primitives, associŽes ˆ un formalisme de reprŽsentation des connaissances. La profusion de thŽories que GENELEX souhaite pouvoir coder dans son modle lÕa menŽ ˆ choisir une approche plus multi-thŽorique que a-thŽorique. LÕunitŽ sŽmantique permet dÕaccŽder ˆ lÕensemble des informations sŽmantiques correspondant ˆ une certaine acception dÕune entrŽe. LÕunitŽ sŽmantique dŽcrit donc le sens dÕune unitŽ morphologique dans un contexte syntaxique donnŽ. DÕautre part, une unitŽ syntaxique, et donc implicitement lÕunitŽ morphologique dont elle est issue, peut tre associŽe ˆ plusieurs unitŽs sŽmantiques. Les relations entre les diffŽrents modles de GENELEX nous donnent donc une structure illustrŽe par lÕexemple de la figure 2.18. UnitŽ morphologique UnitŽ syntaxique UnitŽ sŽmantique UnitŽ syntaxique UnitŽ syntaxique UnitŽ syntaxique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique Figure 2.18Ê: Un exemple de relations entre les diffŽrents modles GENELEX Pour Žtablir la correspondance entre syntaxe et sŽmantique, Genelex introduit la notion de prŽdicat. Toute unitŽ sŽmantique peut-tre associŽe ˆ un prŽdicat. Il est ainsi possible de noter les liens entre les diffŽrentes positions (en syntaxe) et les arguments du prŽdicat (en sŽmantique). Ë chaque argument dÕun prŽdicat est associŽe une information sŽmantique en terme de traits ou de r™le sŽmantique. On peut aussi lui associer une valeur par dŽfaut, afin de traiter les cas o lÕargument est absent en surface. Enfin, il est possible dՎtablir des relations entre les diffŽrentes unitŽs sŽmantiques du dictionnaire. Cette possibilitŽ permet donc de coder un thesaurus, voire dÕautres liens plus fins, comme les fonctions dÕIgor MelÕcÿuk. 4. MULTILEX MULTILEX est un projet ESPRIT (DG XIII), qui a dŽbutŽ en dŽcembre 1990 et sÕest achevŽ en dŽcembre 1993. Son but Žtait de proposer des standards pour les bases lexicales multilingues. Les 3 annŽes du projet ont ŽtŽ rŽparties en deux phases. La premire phase, axŽe vers la recherche, a consistŽ en la dŽfinition des standards ˆ adopter. La seconde, axŽe vers les applications, a expŽrimentŽ, corrigŽ et dŽveloppŽ les standards ainsi proposŽs. MULTILEX a proposŽ diffŽrents types de standards, portantÊ: - sur les informations linguistiquesÊ: quelles sont les informations que lÕon met dans la base, sous quelle formeÉ)Ê? - sur lÕarchitecture linguistiqueÊ: comment les entrŽes sont-elles organisŽesÊ? - sur lÕarchitecture lexicaleÊ: comment les dictionnaires sont-ils organisŽsÊ? - sur lÕarchitecture informatiquesÊ: comment sont organisŽs les diffŽrents outilsÊ? Enfin, MULTILEX a dŽveloppŽ un prototype de dictionnaire quadrilingue (anglais, franais, allemand et italien) selon ces standards. LÕarchitecture dÕune base lexicale MULTILEX est basŽe sur des dictionnaires monolingues et bilingues. Les unitŽs lexicales sont reprŽsentŽes avec un formalisme basŽ sur les structures de traits typŽs. Un langage a ŽtŽ dŽfini pour dŽcrire la structure dÕune unitŽ lexicale. Un autre, dŽfini par nos soins, permet de coder des rgles de cohŽrence et dÕintŽgritŽ. Chaque manipulation de lÕinformation linguistique est faite dans ce formalisme. Ensuite, les entrŽes sont stockŽes dans une base de donnŽes relationnelle. MULTILEX a aussi dŽveloppŽ un standard linguistique pour la reprŽsentation dÕunitŽs lexicales de langues europŽennes. Ce standard code lÕensemble maximal dÕinformations linguistiques commun aux langues europŽennes. 4.1. Architecture lexicale Une base de donnŽes lexicales MULTILEX est un ensemble de dictionnaires monolingues et bilingues. LÕarchitecture lexicale prŽvoit un dictionnaire monolingue par langue, et deux dictionnaires bilingues unidirectionnels par couple de langues (voir figure 2.19.). Language 1 Language 2 Language 3 Monolingual dictionary Transfer dictionary Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX Les Žquivalences bilingues contiennent des informations contrastives entre la LU source et la LU cible. Ces informations contiennent notamment des indications sur les diffŽrence de sens entres les LUs, des conditions syntaxiques sur lÕapplication de la correspondance et des transformations ˆ appliquer pour effectuer le transfert. 4.2.2.3. Approche unidirectionnelle Une relation bilingue est principalement constituŽe de deux partiesÊ: une condition syntaxique dÕapplication et une transformation ˆ appliquer aux informations de la langue source pour obtenir une structure valide en langue cible. Il nÕest pas possible, dans le cas gŽnŽral, dÕinverser cette relation. En effet, sÕil est possible (dans certains cas) dÕinverser la transformation donnŽe, on ne peut dŽduire des informations prŽsentes les conditions syntaxiques ˆ appliquer ˆ lÕentrŽe en langue cible pour sŽlectionner le transfert inverse. Le modle de MULTILEX est donc fortement unidirectionnel. 4.3. Architecture logicielle Paralllement aux standards linguistiques, Multilex a dŽveloppŽ des standards informatiques pour lÕimplŽmentation de bases lexicales multilingues. Ces standards rŽgissent le format dՎchange des donnŽes, lÕarchitecture lexicale ˆ adopter et lÕensemble des outils ˆ construire pour la maintenance dÕune base lexicale multilingue. Les outils se conformant ˆ ces standards peuvent le faire selon plusieurs niveaux, le minimum requis Žtant lÕutilisation du format dՎchange des donnŽesÊ: MLEXd. Cette architecture logicielle ressemble ˆ lÕarchitecture logicielle dŽfinie plus avant dans cette thse, car, lors de ma premire annŽe de thse, jÕai collaborŽ au projet MULTILEX. LÕarchitecture logicielle que jÕai proposŽe a ŽtŽ retenue par le consortium. Celle proposŽe dans ce travail en est la version suivante. <item> <word-sens> <lu> <gr-canon> ballast <homograph-number> 0 <meaning-number> 1 <gpmu-id> <gr-canon> ballast <meaning-number> 1 <syntactic-description> … Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX LÕarchitecture logicielle MULTILEX distingue fortement les problmes de stockage, de manipulation, et de visualisation des donnŽes. Elle est basŽe sur trois niveauxÊ: - niveau base de donnŽesÊ: ce niveau est en charge du stockage effectif des donnŽes. DiffŽrents systmes relationnels de gestion de bases de donnŽes peuvent tre utilisŽs ˆ ce niveau, qui est invisible pour lÕutilisateur. - niveau interneÊ: ce niveau est en charge des diffŽrentes manipulations sur les donnŽes des entrŽes de dictionnaires. CÕest ˆ ce niveau que les diffŽrents outils dÕun systme de gestion de bases lexicales oprent. Pour ce niveau, MULTILEX conseille dÕutiliser des structures de traits typŽs. - niveau prŽsentationÊ: ce niveau est en charge de la prŽsentation des informations ˆ lÕutilisateur. Cette prŽsentation nÕest pas nŽcessairement proche de la structure interne utilisŽe. De plus, il peut tre possible de proposer diffŽrentes prŽsentation dÕune mme information pour diffŽrents utilisateurs ou diffŽrents buts. Cette architecture est illustrŽe par la figure 2.22. Multilex a aussi dŽfini un ensemble dÕoutils standard pour un systme de gestion de bases lexicales multilingues. Ces diffŽrents outils manipulent les donnŽes linguistiques au niveau interne et interagissent avec lÕutilisateur au niveau externe. Les outils ainsi dŽfinis sont les suivantsÊ: - ƒditeurÊ: lՎditeur permet dՎditer ou de modifier des entrŽes du dictionnaire. Pour cela, il doit offrir des fonction de navigation ˆ lÕintŽrieur de la base lexicale. Afin de permettre lՎdition et la modification des entrŽes, lÕensemble des informations linguistiques doit tre prŽsentŽ ˆ lÕutilisateur. - NavigateurÊ: le navigateur permet de consulter la base lexicale. Il doit permettre diffŽrentes prŽsentations suivant les motivations de lÕutilisateur. Il nÕest pas nŽcessaire que les prŽsentations refltent la totalitŽ des informations linguistiques associŽes ˆ une entrŽe. ƒventuellement, lÕoutil donnera un moyen ˆ lÕutilisateur de spŽcifier sa propre prŽsentation. - VŽrificateur de cohŽrenceÊ: cet outil permet de vŽrifier des rgles de cohŽrence dŽfinies par lÕutilisateur. Lorsque certaines de ces rgles sont violŽes, le vŽrificateur le signale ˆ lÕutilisateur. Cet outil permet la vŽrification de cohŽrence ˆ lÕintŽrieur dÕun article, la cohŽrences entre articles dÕun mme dictionnaire, et la cohŽrence entre articles de diffŽrents dictionnaires. - DŽfauteurÊ: cet outil permet de complŽter des entrŽes incompltes. Cet complŽtion peut avoir lieu a posteriori sur des entrŽes dŽjˆ prŽsentes dans le dictionnaire, ou interactivement afin dÕaccŽlŽrer le processus dՎdition. Cet outil utilise des rgles de valeurs par dŽfaut dŽfinies par un linguiste. - Import/exportÊ: cet outil gŽnre et accepte des fichiers MLEXd reflŽtant la structure linguistique des entrŽes du dictionnaire. Le format MLEXd est un format basŽ sur SGML, codant des structures de traits. L1 L2 L3 L4L5 L6 Dictionnaire monolingue Dictionnaire interlingue I Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue. La critique la plus courante de lÕapproche par transfert porte sur le nombre de dictionnaires ˆ dŽfinirÊ: le nombre de dictionnaires bilingues thŽorique est fonction du carrŽ du nombre de dictionnaires monolingues. Si nm est le nombre de dictionnaires monolingues, et nb le nombre de dictionnaires bilingues, on a: nbÊ=Ê nmÊ(nmÊ-Ê1) 2 Ce nombre est multipliŽ par deux lorsque lÕon utilise des dictionnaires bilingues unidirectionnels. Ce calcule se base sur lÕhypothse que tous les couples de langues doivent tre prŽsents et que la charge de traduction est rŽpartie de manire uniforme entre les langues. Or, mme ˆ lÕUnion EuropŽenne, qui est considŽrŽe comme lÕorganisme travaillant dans le contexte la plus multilingue (9 langues), lÕeffort de traduction nÕest pas rŽparti de manire uniforme parmi les langues, les principales Žtant lÕallemand, lÕanglais, et le franais. Aussi, lÕapproche par transfert est la plus utilisŽe ˆ lÕheure actuelle. En effet, la plupart des projets ne se situent pas dans les hypothses retenues pour effectuer le calcul prŽcŽdent. Dans la plupart des cas, ces projets nÕont quÕune ou deux langues sources. Dans dÕautres cas, il est possible de passer par un ensemble de langues intermŽdiaires qui agissent comme des pivots. Dans ce cas, le nombre de dictionnaire augmente de manire linŽaire et non plus quadratique. Pour sa part, la mŽthode interlingue permet de rŽduire le nombre de liens. En effet, il suffit de construire un lien entre chaque dictionnaire monolingue et le dictionnaire interlingue. On a ainsi une connectivitŽ beaucoup plus rŽduite que dans lÕapproche bilingue. Mais cet avantage se paie en complexitŽ puisque ces liens sont beaucoup plus difficiles ˆ gŽrer. En effet, lÕajout dÕune entrŽe dans une langue peut remettre en cause les entrŽes du dictionnaire interlingue (et donc certains liens allant vers les autres langues). Il est trs difficile dՎvaluer la complexitŽ qui se rajoute lorsque lÕon utilise cette approche. De plus, on ne sait si la complexitŽ de crŽation dÕune base interlingue nÕaugmente pas de manire quadratique avec le nombre de langue. Des expŽrimentations ont ŽtŽ conduites ˆ une echelle suffisante au CICC (environ 50Ê000 mots de base et 25Ê000 termes techniques en japonais, chinois, malais, indonŽsien et thai [Yaoliang & zhendong 1991]), mais on nÕen trouve pas les rŽsultats en termes de difficultŽs de dŽveloppement de lÕinterlingue. En partant de lÕhypothse selon laquelle le dŽveloppement dÕun dictionnaire interlingue nÕaugment pas de manire quadratique avec la nombre de langue et en se plaant dans un contexte trs fortement multilingue, on considre habituellement quÕune telle approche est justifiŽe lorsque lÕon veut construire des bases lexicales comportant plus de huit langues ([Boitet 1988a, Boitet 1990a]). Ë lÕheure actuelle, la majoritŽ des projets utilisant lÕapproche interlingue se basent sur une connaissance du monde (ontologie). Aussi, il est assez difficile de distinguer les problmes entra”nŽs par le choix dÕune approche multilingue et ceux entra”nŽs par une reprŽsentation des connaissances. LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽfini dans cette thse donne au linguiste le moyen de dŽfinir son architecture lexicale en dŽclarant explicitement lÕensemble des dictionnaires prŽsents dans sa base. La dernire partie de cette thse propose dans ce cadre une nouvelle approche interlingue ne faisant pas appel ˆ un modle par connaissances. 2. Architecture linguistique LÕarchitecture linguistique dÕune base lexicale dŽfinit la manire dont sont codŽes les entrŽes des dictionnaires quÕelle contient. Elle rŽgit donc, notamment, les structures logiques qui seront utilisŽes dans le codage des informations linguistiques. Lors de lՎtude des efforts en cours, nous avons pu constater la multitude des choix qui se posent lorsque lÕon veut reprŽsenter des informations linguistiques dans un dictionnaire. De plus, on ne souhaite pas forcŽment reprŽsenter les mmes informations. Une base lexicale voudra reprŽsenter toutes les informations morphologiques, syntaxiques et sŽmantiques alors quÕune autre se contentera de reprŽsenter la morphologie. Les difficultŽs linguistiques ne sÕarrtent pas lˆ. Ds le niveau morphologique, que lÕon considre comme le plus simple et le plus mžr, on est confrontŽ ˆ des problmes dus ˆ lÕorganisation du dictionnaire et aux difficultŽ inhŽrentes de la langue (quÕest-ce quÕune entrŽe, puis-je avoir un espace dans une entrŽe, puis-je coder des expressions compltes, vais-je utiliser des tables pour coder la morphologie, ou bien un automateÉ). Ces mmes problmes se retrouvent ˆ tous les niveaux. Ë ces difficultŽs linguistiques sÕajoutent les problmes dus ˆ lÕoutil choisi pour gŽrer la base lexicale. En effet, si lÕon souhaite rŽutiliser les outils de MULTILEX, il faut coder toutes les structures linguistiques avec la seule structure logique que propose MULTILEXÊ: les structures de traits. De la mme manire, lÕutilisation des outils de Genelex oblige lÕadoption dÕune structure entitŽs-attributs-relations. Certes, ces structures sont adaptŽes ˆ certaines thŽories linguistiques, mais un outil ne doit pas prŽjuger des thŽories qui seront retenues par les linguistes. Il existe une trs importante variŽtŽ de structures logiques utilisŽes dans certains dictionnaires. Parmi ces structures, on peut citer les ensembles dÕattributs (EDR), les automates dՎtats finis (LADL), les graphes (GENELEX), les structures de traits (MULTILEX), les arbres ŽtiquetŽs (Le Lexicaliste), les termes Prolog (ULTRA)É Stuart M. Shieber [Shieber 1986] a dŽfini trois critres dՎvaluation des formalismes grammaticaux. LÕun de ces critres est pertinent dans le contexte des bases lexicalesÊ: - FŽlicitŽ linguistiqueÊ: le degrŽ auquel les descriptions de phŽnomnes linguistiques peuvent tre exprimŽes, directement ou indirectement, de la manire o le linguiste voudrait les exprimer. Il est possible de coder une structure linguistique en utilisant nÕimporte quelle structure logique particulire. NŽanmoins, ce codage nÕest, bien souvent, ni naturel, ni pratique. De plus, il est souvent difficile de trouver une structure logique qui permette un codage naturel de la totalitŽ des phŽnomnes linguistiques que lÕon veut coder dans le dictionnaire. Aussi, il est difficile de satisfaire au critre de Shieber avec un systme ne proposant quÕun type de structure logique. LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽcrit dans cette thse propose donc au linguiste une grande variŽtŽ de structures logiques. Ainsi, il peut choisir la structure logique quÕil juge la plus adaptŽe ˆ sa thŽorie linguistique. Il peut mme coder des unitŽs lexicales en utilisant diffŽrentes structures logiques. 3. Présentation de l’information Les informations lexicales ont certaines particularitŽsÊ: - cette information (parfois trs complexe) est spŽcifiŽe, rentrŽe et utilisŽe par des linguistes non spŽcialisŽs en informatique, - elle peut tre utilisŽe ˆ des buts trs variŽs comme lÕapprentissage dÕune langue, la consultation dÕune dŽfinition, la synthse de parole, la Traduction AutomatiqueÉ - les performances des systmes automatiques sont directement reliŽes aux informations lexicales quÕils utilisent, ce qui rend cruciales les problmes de maintenance et de correction, - la taille dÕune base lexicale est telle quÕelle nŽcessite plusieurs personnes pour lÕindexage et la maintenance de cette information, Tous ces facteurs demandent donc une prŽsentation de cette information qui la rende facile dÕaccs ˆ des fins de maintenance, alors que cette information est, en gŽnŽral, structurŽe pour un usage automatique. Ce problme est crucial lorsquÕon laisse le linguiste libre dans le choix de ses structures. En effet, certaines structures, trs appropriŽes pour une utilisation informatique, sont trs difficiles ˆ prŽsenter, ˆ lire et ˆ comprendre. Ainsi, sÕil est aisŽ de manipuler une structure dÕautomate reprŽsentŽe sous forme graphique, cela est beaucoup plus complexe si on souhaite la reprŽsenter sous une forme textuelle, en donnant par exemple la liste de ses arcs ou de ses nÏuds. Cet Žtat de fait rend difficile le repŽrage dÕerreurs Žventuelles et leur correction. Il faut donc trouver un moyen de contr™ler la manire dont est prŽsentŽe lÕinformation. De plus, le mŽcanisme de prŽsentation doit tre suffisamment gŽnŽral pour permettre de masquer la structure interne de lÕinformation lexicale. Enfin, cette information peut tre accŽdŽe pour diffŽrents usages. Dans certains cas, le lexicographe veut consulter lÕensemble des informations dÕune entrŽe pour en vŽrifier la cohŽrence. Dans dÕautre cas, il veut avoir une liste des entrŽes qui satisfont ˆ un critre ou qui ont ŽtŽ classŽes par un tri. Dans ce cas, le lemme et la catŽgorie sont les seules informations qui lÕintŽressent. Il est donc important de pouvoir dŽfinir diffŽrentes prŽsentations de lÕinformation. Introduction Comme nous lÕavons constatŽ dans la partie prŽcŽdente, la diversitŽ des solutions envisageables pour structurer une base lexicale, pour structurer une entrŽe du lexique ou pour prŽsenter les informations linguistiques ˆ lÕutilisateur rend impossible le choix a priori dÕune solution linguistique satisfaisant lÕensemble des utilisateurs. Pourtant, les projets ŽtudiŽs on souvent fait des choix restrictifs pour lÕutilisation de leurs outils dans lÕimplŽmentation de bases lexicales variŽes. Le projet MULTILEX a pourtant donnŽ au linguiste un langage lui permettant de dŽfinir les traits quÕil souhaite coder dans son dictionnaire. NŽanmoins, il ne peut utiliser que des structures de traits pour coder une thŽorie linguistique. Or, nous avons vu que de nombreuses autres structures logiques sont effectivement utilisŽesÊ: graphes (GENELEX), automates (LADL), arbres (Le Lexicaliste)É Certains diront quÕil est tout ˆ fait possible de coder ces structures logiques avec des structures de traits. Cet argument est techniquement exact, mais ergonomiquement non fondŽ. En effet, ce type dÕoutil doit offrir au linguiste un niveau suffisant dÕabstraction pour quÕil nÕait pas ˆ se prŽoccuper dÕun codage supplŽmentaire de lÕinformation. De plus, les projets existants ont figŽ lÕarchitecture lexicale considŽrŽe. Il nÕest donc pas possible dÕutiliser leurs rŽsultats pour expŽrimenter de nouvelles architectures lexicales. Enfin, rares sont les projets qui se sont attachŽs au problmes de la visualisation de lÕinformation. Le langage de dŽfinition des traits linguistiques de MULTILEX, par exemple, permet de paramŽtrer le placement des ŽlŽments de la structures dans les Žcrans de saisie, mais il ne permet pas de visualiser la structure linguistique en faisant abstraction de sa reprŽsentation interne (structure de traits). On veut donc construire un outil gŽnŽrique permettant de crŽer de nombreuses instances de bases lexicales qui ne seront pas forcŽment basŽes sur une mme architecture lexicale, qui ne se fonderont pas sur la mme thŽorie linguistique, qui nÕutiliseront pas les mmes structures logiques et o les informations ne seront pas visualisŽes de la mme manire. Aussi, nous avons choisi de travailler ˆ la crŽation de SUBLIM, un outil qui permettra au linguiste de crŽer et de gŽrer une base lexicale pour laquelle il a, au prŽalable, dŽclarŽÊ: - les dictionnaires quÕelle contientÊ: ces dictionnaires peuvent tre monolingues, bilingues ou interlingues, - pour chaque dictionnaire, quelles sont les structures quÕil contientÊ: ces structures linguistiques peuvent tre exprimŽes en utilisant diffŽrentes structures logiques de base (arbres, graphes, structures de traits, automatesÉ) que lÕon peut composer. - pour chaque dictionnaire et pour chaque structure, la (ou les) manire(s) de les prŽsenter. Dans cette partie, nous prŽsentons les principes et lÕimplŽmentation de cet outil. Nous commencerons par la partie concernant la dŽfinition des architectures lexicales, pousuivrons par celle concernant la dŽfinition de lÕarchitecture linguistique, et finirons par lÕarchitecture logicielle et les outils de gestion de la base lexicale. Ainsi, la dŽfinition du dictionnaire franais-anglais se fera de la manire suivante (en admettant que le dictionnaire monolingue anglais a ŽtŽ nommŽ english)Ê: (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") Ainsi, le dictionnaire bilingue franais-anglais sera nommŽ de manire univoque par le symbole french-english dans lÕensemble de la base. LÕattribut :type dŽfinit le type du dictionnaire bilingue. Le dictionnaire bilingue peut tre unidirectionnel ou bidirectionnel. Les attributs :source et :target ne sont pertinents que dans le cas de dictionnaires bilingues unidirectionnels. Ils sont obligatoires dans ce cas. En effet, les structures linguistiques dŽfinies dans ce dictionnaire pourront utiliser ou se rŽfŽrer ˆ des structures utilisŽes dans les dictionnaires source et cible. Dans le cas dÕun dictionnaire bidirectionnel, ces attributs sont remplacŽs par lÕattribut :links qui prend pour valeur une liste de dictionnaires. Finalement, la dŽfinition de ces diffŽrents dictionnaires se fait dans le cadre de la dŽfinition dÕune base lexicale multilingue particulire. Cette base lexicale est dŽfinie gr‰ce ˆ la fonctionÊ: define-lexical-database name Keywords* o name est un symbole dŽfinissant de manire unique la base lexicale. Ainsi, notre base lexicale multilingue se dŽfinit parÊ: (define-lexical-database MULTILEX-like-database :owner "GETA" :comment "Une base lexicale fondée sur une approche bilingue" :dictionaries (french english german dutch italian french-english french-german french-italian french-dutch ... )) Notre base lexicale se nomme donc MULTILEX-like-database. Nous lui avons attribuŽ un commentaire (une cha”ne de caractres) et une liste de dictionnaires (ceux que nous avions dŽfinis auparavant). 1.1.2. Une architecture interlingue Notre deuxime exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale basŽe sur lÕapproche interlingue. Cette architecture lexicale est inspirŽe de lÕarchitecture lexicale du systme ULTRA [Farwell, Guthrie & Wilks 1993]. La base lexicale que nous souhaitons dŽfinir comprend 5 dictionnaires monolingues (anglais, chinois, japonais, espagnol et allemand). Ces 5 dictionnaires sont reliŽs par un dictionnaire interlingue (voir figure 4.2). Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le dictionnaire interlingue contient un ensemble dÕunitŽs interlingues appelŽes IR. La dŽfinition des dictionnaires monolingues se fait exactement de la mme manire que dans lÕexemple prŽcŽdentÊ: (define-monolingual-dictionary english :language "English" :owner "CRL-NMSU") La dŽfinition du dictionnaire interlingue se fait gr‰ce ˆ la fonctionÊ: define-interlingual-dictionary name Keywords* o name est un symbole dŽfinissant de manire unique le dictionnaire pour lÕensemble de la base. Ainsi, la dŽfinition du dictionnaire interlingue se fera de la manire suivanteÊ: (define-interlingual-dictionary IR :owner "CRL-NMSU" :links (english chinese japanese german spanish)) Chinese English GermanJapanese Spanish Dictionnaire monolingue Dictionnaire interlingue IR Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue Le dictionnaire interlingue sera nommŽ de manire univoque par le symbole IR dans lÕensemble de la base. LÕattribut :links dŽfinit lÕensemble des dictionnaires monolingues reliŽs par le dictionnaire interlingue IR. La structure linguistique portŽe par les unitŽs des dictionnaires interlingues peut donc utiliser ou se rŽfŽrer ˆ des structures dŽfinies dans chacun des dictionnaires monolingues. La base lexicale elle-mme se dŽfinit comme auparavantÊ: (define-lexical-database ULTRA :owner "CRL-NMSU" :comment "Une base lexicale fondée sur une approche interlingue" :dictionaries (english german spanish japanese chinese IR)) 1.1.3. Une architecture mixte Notre dernier exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale basŽe ˆ la fois sur une approche bilingue et sur une approche interlingue. Cette architecture lexicale est inspirŽe de lÕarchitecture lexicale du projet EDR [EDR 1993]. Dictionnaire monolingue Dictionnaire interlingue Dictionnaire bilingue unidirectionnel japonais anglais Concept Dictionary Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte La base lexicale que nous souhaitons dŽfinir comprend 2 dictionnaires monolingues (anglais et japonais). Ces 2 dictionnaires sont reliŽs ˆ la fois par deux dictionnaires monolingues unidirectionnels et par un dictionnaire interlingue (voir figure 4.3.). Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le dictionnaires interlingue contient un ensemble dÕunitŽs interlingues appelŽes concepts. Les dictionnaires bilingues contiennent un ensemble de liens reliant les unitŽs du dictionnaire source ˆ des unitŽs du dictionnaire cible. La dŽfinition des dictionnaires monolingues se fait exactement de la mme manire que dans les exemples prŽcŽdentsÊ: (define-monolingual-dictionary english :language "English" :owner "EDR") Le dictionnaire interlingue se dŽfinit exactement comme dans lÕexemple prŽcŽdentÊ: (define-interlingual-dictionary concept-dictionary :owner "EDR" :links (english japanese)) Les dictionnaires bilingues se dŽfinissent exactement comme les dictionnaires du premier exemple : (define-bilingual-dictionary japanese-english :type unidirectionnal :source japanese :target english :owner "EDR") Et la base elle-mme se dŽfinit comme dans les exemples prŽcŽdentsÊ: (define-lexical-database EDR :owner "EDR" :comment "Une base lexicale fondée sur une approche mixte" :dictionaries (english japanese concept-dictionary)) 1.2. Le langage de définition de l’architecture lexicale : LEXARD Le langage LEXARD permet de dŽfinir une base lexicale. La dŽfinition dÕune base lexicale passe par la crŽation de ses ŽlŽmentsÊ: les dictionnaires. LEXARD offre trois types de dictionnairesÊ: - dictionnaires monolingues, - dictionnaires bilingues, - dictionnaires interlingues. La dŽfinition des dictionnaires monolingues se fait gr‰ce ˆ la fonctionÊ: define-monolingual-dictionary name Keywords* o name est un symbole dŽfinissant de manire unique le dictionnaire pour lÕensemble de la base. Les Keywords dŽfinissent des renseignements indispensables pour la gestion du dictionnaireÊ: :owner string spŽcifie le propriŽtaire du dictionnaire. :language string spŽcifie la langue du dictionnaire. La dŽfinition des dictionnaires bilingues se fait gr‰ce ˆ la fonctionÊ: define-bilingual-dictionnary name Keywords* o name est un symbole dŽfinissant le dictionnaire de manire unique ˆ lÕintŽrieur de la base. :owner string spŽcifie le propriŽtaire du dictionnaire. :type type spŽcifie le type (soit unidirectionnel, soit bidirectionnel) du dictionnaire. :source symbol spŽcifie le dictionnaire source (seulement si unidirectionnel). Pour implŽmenter ce dictionnaire, le plus simple est dÕutiliser les structures logiques suivantesÊ: - un arbre pour coder une entrŽe et ses raffinements de sens, - des structures de traits pour coder lÕinformation linguistique associŽe ˆ chaque sens. Pour cela, le linguiste dŽfinit un ensemble de classes. Chacune de ces classes hŽrite des classes prŽdŽfinies (les structures logiques). Cette dŽfinition se fait gr‰ce ˆ la fonctionÊ: define-linguistic-class name class-definition o name est un symbole dŽfinissant de manire unique la classe dŽfinie ˆ lÕintŽrieur du dictionnaire. LÕargument class-definition contient la dŽfinition dÕune classe, notŽe de la manire suivanteÊ: (logical-structure arguments*) o logical-structure reprŽsente lÕune des structures logiques dont on veut hŽriter le comportement. Les arguments dŽpendent de la structure logique spŽcifiŽe. Dans le cas dÕun arbre, on notera les restrictions sur les classes linguistiques dŽcorant les diffŽrentes parties de lÕarbre. Dans le cas dÕune structure de traits, on donne lÕensemble des traits et leurs valeurs possibles. Pour plus de dŽtails, le lecteur se rŽfŽrera ˆ la section suivante. Pour coder ce dictionnaire, nous utiliserons les structures logiques dÕarbre et de structure de traits. La dŽfinition dÕune classe de structure logique arbre se fait comme suitÊ: (tree keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties de lÕarbre. Les mots-clŽs possibles sontÊ: :root class spŽcifie la classe acceptable pour la valeur de la dŽcoration de la racine de l'arbre. :leaves class spŽcifie la classe acceptable pour la valeur de la dŽcoration des feuilles de l'arbre. :nodes class spŽcifie la classe acceptable pour la valeur de la dŽcoration de lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elle ne sont pas dŽfinies par ailleurs). La dŽfinition d'une classe de structure logique structure de traits se fait comme suitÊ: (feature-structure features) o lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. La catŽgorie dÕune entrŽe ne peut prendre quÕune valeur parmi un ensemble fini de valeurs. Pour cela, nous utiliserons la structure logique one-of qui prend comme argument la liste des valeurs possiblesÊ: (one-of possible-values) Ainsi, lÕentrŽe du dictionnaire est dŽfinie comme un arbre dont la racine est dŽcorŽe par une structure de traits simple (contenant une catŽgorie et une forme graphique) et dont les nÏuds sont dŽcorŽes par des unitŽs sŽmantiquesÊ: (define-linguistic-class entry (tree :root (feature-structure (graphic-form string) (category cat)) :nodes sem-unit)) (define-linguistic-class cat (one-of (nc np vb adj card deict repr sub coord))) L'unitŽ sŽmantique est dŽfinie comme une simple structure de traits. Les dŽrivationsÊ sont implŽmentŽes comme une structure de traits notant le type et la valeur de la dŽrivation: (def-linguistic-class sem-unit (feature-structure ((category cat) ;; information de dérivation. (drvv (feature-structure ((deriv-kind (one-of (naction nresult nlieu nagent ninstr adject adjpass adjpotpas adjresact verbe))) (deriv-from sem-unit)))) (drvn (feature-structure ((deriv-kind (one-of (ncond nlieu ninstr ncollect nperson adjrelat adjqual verbe))) (deriv-from sem-unit)))) (drva (feature-structure ((deriv-kind (one-of (nabst nperson verbe))) (deriv-from sem-unit)))) ;; information sur les valences (val0 valency) (val1 valency) (val2 valency) (val3 valency) ;; autres informations (gnr (one-of (masc fem))) (nbr (one-of (sg pl))) (aux (one-of (être avoir))) (reciproque (one-of (arg0-arg1 arg1-arg2))) (aspect (one-of (achevé inachevé début fin duratif fréquentatif instantané) ))))) La valence admet comme valeur un ensemble de valeurs prises parmi les valeurs de valences possibles. Pour cela, on utilise la structure logique set-of qui prend comme argument la liste des valeurs possiblesÊ: (set-of possible-values keywords*) o lÕargument possible-values est la liste des classes acceptables pour les ŽlŽments de lÕensemble, et o les mots-clŽs dŽfinissent des contraintes de cardinalitŽ sur lÕensembleÊ: :min-elements number spŽcifie le nombre minimal dՎlŽments dans lÕensemble (par dŽfautÊ: 0). :max-elements number spŽcifie le nombre maximal dՎlŽments dans lÕensemble (par dŽfautÊ: pas de maximum). Ainsi, les valences se dŽcrivent comme suitÊ: (def-linguistic-class valency (set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) 2.1.2. Une structure ҈ la MULTILEXÓ La seconde architecture linguistique que nous souhaitons dŽfinir est (librement) inspirŽe de l'architecture linguistique de MULTILEX. Les dŽtails de cette architecture sont donnŽs par la figure 4.6., reprise du chapitre II. Une unitŽ lexicale de MULTILEX (LU) identifie un sens de mot. Elle est reliŽe ˆ une ou plusieurs GPMU (unitŽ graphique, phonologique et morphologique) qui identifie une forme canonique. Une LU donne accs ˆ diffŽrents types dÕinformations (sous forme dÕensembles de traits). Ainsi, une LU est reliŽe ˆ une et une seule unitŽ sŽmantique, une ou plusieurs unitŽs syntaxiques et zŽro ou plusieurs unitŽs de transfert. Syntax pragmatics terminology example Syntax pragmatics ter inology example LU pragmatics terminology GPMU Semantics/ terminology definition example Transfer Maintenance record Cross- references Syntax pragmatics terminology GPMU pragmatics terminology GPMU pragmatics pragmatics terminology example Figure 4.6Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX Nous noterons une unitŽ lexicale comme une structure de traits o certains traits ont pour valeur un ensemble de liens reliant les diffŽrentes unitŽs (GPMU, syntaxique, sŽmantiques et de transfert). Nous ne donnerons que la description d'une GPMU, et d'une unitŽ syntaxique. Comme le projet Multilex, nous reprŽsenterons les informations associŽes ˆ ces unitŽs sous forme de structures de traits. Pour dŽfinir une valeur de lien, nous utiliserons la structure logique prŽdŽfinie link qui sÕutilise comme suitÊ: (link keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrents ŽlŽments du lien. Les mots-clŽs possibles sontÊ: :label class spŽcifie la classe acceptable pour la valeur de dŽcoration du lien. :source [dict::]class spŽcifie la classe de lÕinstance de laquelle part le lien. Si le lien vient dÕune structure dÕun autre dictionnaire, on indique ce dictionnaire. :target [dict::]class spŽcifie la classe de lÕinstance vers laquelle pointe le lien.Si le lien va vers une structure dÕun autre dictionnaire, on indique ce dictionnaire. :bidirectionnel boolean Le systme doit-il gŽrer le lien inverse (qui pointera vers la structure ou est dŽfinie le lien dÕorigine)Ê? Pour dŽfinir une valeur de type ensemble, nous utiliserons la structure logique set-of dŽfinie plus haut. Une unitŽ lexicale est reliŽe ˆ une et une seule unitŽ sŽmantique, une ou plusieurs unitŽs de syntaxiques et une ou plusieurs GPMU. On la dŽfinit donc comme suitÊ: id nime_radgp contexte_var retrait ajout CombVE id datation niveau_lgue frŽquence var_geog Um_S id appelation catgram ss-catgram autonomie Umg id libellŽ vedette appellation attestation Ump id libellŽ vedette appellation attestation a-pour-umg a-pour-ump s'Žcrit/se prononce Mfg id comment exemple appellation Mfp id comment exemple appellation Radg id libellŽ nime contexte_var Radp id libellŽ nime contexte_var a-pour-mfg a-pour-mfp CombTM id mode temps personne genre nombre nombre_posseur Cffg id nime_radgp contexte_var retrait ajout Cffp a-pour-ffg a-pour-ffp s'Žcrit/se prononce 1,n 1,n 0,1 0,n 0,10,1 0,n 0,1 0,n 0,1 1,n 1,n 0,n 0,n 1,11,1 1,1 1,1 1,n 1,n 0,n 0,n 1,n 1,n 1,n 1,n 0,n 0,n Figure 4.8Ê: Structure de lÕUM simple Une UM simple hŽrite de la structure dÕune UM gŽnŽrale et rajoute des ŽlŽments particuliers. Pour dŽnoter de cet hŽritage, nous utilisons la syntaxeÊ: (parent-linguistic-class arguments*) o parent-linguistic-class est le nom de la structure linguistique dont on veut hŽriter. Les arguments dŽpendent de la structure linguistique spŽcifiŽe. Le dŽtail de ces arguments et la sŽmantique exacte de lÕhŽritage seront exposŽs dans le paragraphe suivant. Dans le cas dÕune structure de traits, on hŽrite des traits dŽjˆ dŽfinis, que lÕon rajoute aux traits spŽcifiŽs sur la sous-classe. LorsquÕun trait de la sous-classe existe dŽjˆ sur la classe dont on hŽrite, deux cas se prŽsententÊ: - hŽritage simpleÊ: dans ce cas, la valeur spŽcifiŽe dans la classe dont on hŽrite est ŽcrasŽe. Seule compte donc la valeur donnŽe dans la sous-classe. - hŽritage par unificationÊ: dans ce cas, on fait lÕunification des deux valeurs donnŽes dans la classe dont on hŽrite et dans la sous-classe que lÕon dŽfinit. Si lÕunification Žchoue, lÕhŽritage simple est adoptŽ. Si elle rŽussit, le trait litigieux prend pour valeur le rŽsultat de lÕunification. Cette opŽration dÕunification sera dŽtaillŽe dans le paragraphe suivant. Le linguiste peut spŽcifier le type dÕhŽritage dŽsirŽ en utilisant le mot-clŽ inheritance-type, que lÕon retrouve dans les arguments quelle que soit la structure de base. Ce mot-clŽ prend pour valeur simple ou unification. Le comportement par dŽfaut est lÕhŽritage simple. Ainsi, la dŽfinition de lÕUM simple de GENELEX est la suivanteÊ: (def-linguistic-class UM_S (UM ((catgram (one-of (nom adjectif adverbe verbe preposition conjonction interjection determinant pronom particule))) (ss-catgram (one-of (propre commun possessif demonstratif partitif defini indefini interrogatif cardinal ordinal relatif personnel_fort personnel_faible impersonnel exclamatif qualitatif coordination subordination completif))) (autonomie (one-of (oui non))) (usyn-l (set-of (USyn))) (a-pour-Umg (set-of (Umg) :min-elements 1)) (a-pour-Ump (set-of (Ump) :min-elements 1))) )) Cette dŽfinition utilise les notions dÕunitŽs morphologiques graphiques (Umg, qui portent les informations sur lՎcrit) et dÕunitŽs morphologique phonŽmiques (Ump, qui portent des informations sur lÕoral). (def-linguistic-class Umg (feature-structure ((vedette (one-of (oui non))) (appellation string) (attestation string) (combVe combVe) (a-pour-mfg Mfg) (a-pour-radg (set-of (Radg))) (se-prononce (set-of (Ump) :min-elements 1)))) )) (def-linguistic-class Ump (feature-structure ((vedette (one-of (oui non))) (appellation string) (attestation string) (combVe combVe) (a-pour-mfg Mfp) (a-pour-radp (set-of (Radp))) (s-écrit (set-of (Umg) :min-elements 1)))) )) Ces structures utilisent un ensemble de radicaux graphiques et phonŽmiques (Radg, Radp) donnant lÕensembles des bases sur lesquelles se fondent les rgles morphologiques. (def-linguistic-class Radg (feature-structure ((nième integer) (contexte_var string)))) (def-linguistic-class Radp (feature-structure ((nième integer) (contexte_var string)) )) Les unitŽs morphologiques sont associŽes ˆ des informations morphologiques graphiques et phonŽmiques (Mfg, Mfp). (def-linguistic-class Mfg (feature-structure ((comment string) (exemple string) (appellation string) (a-pour-ffg (set-of ((link :target Cffg :label CombTM))))))) (def-linguistic-class Mfp (feature-structure ((comment string) (exemple string) (appellation string) (a-pour-ffg (set-of ((link :target Cffp :label CombTM))))))) Ces informations de morphologiques utilisent des rgles de calcul des formes flŽchies pour les unitŽs graphiques et phonŽmiques (Cffg, Cffp). (def-linguistic-class Cffg (feature-structure ((nième-radgp integer) (contexte_var string) (retrait string) (ajout string) (se-prononce (set-of (Cffp))))) (def-linguistic-class Cffp (feature-structure ((nième-radgp integer) (contexte_var string) (retrait string) (ajout string) (se-prononce (set-of (Cffg))))) Chaque rgle de calcul est associŽe ˆ une combinaison temps/mode (combTM) identifiant la forme flŽchie obtenue. (def-linguistic-class CombTM (feature-structure ((mode (one-of (indicatif subjonctif conditionnel imperatif infinitif participe))) (temps (one-of (present imparfait passe-simple futur passe))) (personne (one-of (1 2 3))) (genre (one-of (masculin feminin neutre))) (nombre (one-of (singulier pluriel)) (nombre-posseur (one-of (singulier-posseur pluriel-posseur)))))) On a ainsi dŽfini une UM simple selon GENELEX. 2.1.4. Une structure complexeÊ: le DEC de MelÕcÿuk JusquՈ prŽsent, nous avons montrŽ comment dŽclarer en SUBLIM des bases lexicales existantes. Nous avons pu constater que mme si les personnes dŽveloppant ces bases disent quÕelles ne font appel quՈ une structure de base (graphe ou structure de traits), il est utile de disposer de plusieurs autres structures pour les implŽmenter (notion dÕensemble, etc.). LÕexemple que nous allons Žtudier maintenant nÕest pas une base lexicale ˆ usage machinal. Il sÕagit dÕun dictionnaire (essentiellement papier) dont les informations sont assez complexes. Ce dictionnaire a ŽtŽ dŽveloppŽ par Igor MelÕcÿuk et ses collgues, ˆ Moscou, puis ˆ MontrŽal. Quelques exemples dÕarticles de ce dictionnaire sont donnŽs en Annexe C3. Une unitŽ de ce dictionnaire est un sens de mot ou de locution (un sŽmantme). Cette unitŽ lexicale est associŽe ˆ une unitŽ morphologique, ˆ une dŽfinition, ˆ dՎventuelles 3 Je tiens à remercier Igor Mel’čuk qui me les a très gentiment communiquées. complexe o lÕon retrouve lÕensemble des combinaisons possibles de rŽalisations dÕarguments. On peut donc reprŽsenter cette partie de deux maniresÊ: - en restant proche de sa forme papier. On a alors un tableau et une liste des combinaisons impossibles. - en reprŽsentant cette structure de manire plus abstraite. On peut ainsi la reprŽsenter par un automate dont chaque chemin forme une combinaison valide. Si lÕon choisit la seconde solution, le rŽgime donnŽ en exemple sera donc reprŽsentŽ par lÕautomate donnŽ en figure 4.9. X Y Z N N ε N (rare) ˆ N ˆ Nˆ Vinf ε Figure 4.9Ê: RŽgime dÕenseigner 1, sous forme dÕautomate Pour exprimer cette solution, nous utiliserons la structure logique dÕautomate dŽfinie comme suitÊ: (automaton keywords*) o les mots-clŽs dŽfinissent des contraintes sur les classes acceptables en dŽcoration des diffŽrents ŽlŽments de lÕautomateÊ: :arcs class spŽcifie la classe acceptable en dŽcoration des arcs. :nodes class spŽcifie la classe acceptable en dŽcoration de lÕensemble des nÏuds. :starting-node class spŽcifie la classe acceptable en dŽcoration du nÏud dÕentrŽe. :ending-nodes class spŽcifie la classe acceptable en dŽcoration des nÏuds de sortie. Ainsi, cette structure sÕexprimera sous forme dÕune structure de traits dont lÕun comportera lÕautomate, un autre donnera lÕordre dans lequel les arguments apparaissent dans le rŽgime et un troisime donnera lÕensemble des exemplesÊ: (def-linguistic-class régime (feature-structure ((automate automate-régime) (argument-order (list-of (string))) (exemples exemples-régime)))) (def-linguistic-class automate-régime (automaton :arcs réalisation-argument)) (def-linguistic-class exemples-régime (set-of ((feature-structure ((réalisations (list-of (string))) (exemple string)))))) La partie la plus importante de ce dictionnaire rŽside dans lÕensemble des fonctions lexicales du sŽmantme. Leur meilleur dŽfinition est donnŽe, en premire partie du DEC, par lÕauteur, Igor MelÕcÿukÊ: Les fonctions lexicales (FL) présentent l’ensemble de la cooccurrence lexicale restreinte intéressant le lexème considéré. Elles constituent une innovation lexicographique qui permet de décrire d’une façon systématique un vaste ensemble de locutions plus ou moins figées qui ne sont quand même pas des expressions idiomatiques stricto sensu. Il s’agit, par exemple, des locutions comme une FERME intention, une résistance ACHARNÉE, un argument DE POIDS, un bruit INFERNAL, un désir ARDENT, une envie FOLLE, une règle STRICTE, une vérité INCONTESTABLE, où des adjectifs bien spécifiques doivent être employés avec les différents noms pour exprimer la même idée d’intensification. Comme autre exemple de locution de ce type, on peut citer les expressions DONNER une leçon, FAIRE un pas, COMMETTRE un crime, PORTER une accusation, etc., où des verbes sémantiquement vides (ou presque vides) différents doivent être choisis en fonction du nom d’action pour lier le nom d’agent en tant que sujet grammatical au nom d’action en tant que complément d’objet direct. LՎcriture gŽnŽrale dÕune FL est de la formeÊ: f(X) = Y, o f est la FL, X est son argument (un lexme ou bien une locution), et Y est la valeur de la FL f pour cet argument, cÕest ˆ dire lÕensemble des expressions linguistiques qui peuvent exprimer le sens ou le r™le syntaxique donnŽ (notŽ par f) auprs de X. Comme ce dictionnaire est imprimŽ, les expressions linguistiques sont donnŽes sous une forme linŽaireÊ: MƒPRIS, nom, masc. I. Attitude Žmotionnelle dŽfavorableÉ [le mŽpris pour ce corrupteur ] [É] Fonctions lexicales Caus 3 Func 1 : engendrer [ART s chez N] [La familiaritŽ engendre le mŽprisÊ] Caus (3) Func 1 : apprendre, inculquer [ART s ˆ N] [Jean inculque ˆ ses Žtudiants le mŽpris de l'hypocrisie ; Son attitude partiale envers ses employŽs apprend ˆ ces derniers le mŽpris de leur chefÊ] Caus (2/3) Func 1 : inspirer [ART s ˆ N] [Cet ŽvŽnement inspire aux travailleurs le mŽpris de leur patron ; L'argent inspirait ˆ ce philosophe un tel mŽpris qu'il a donnŽ son hŽritage ˆ son frreÊ; L'hypocrisie de Jean leur inspirait un profond mŽprisÊ] Mais la structure interne de ces expression linguistique est un arbre syntaxique donnant la construction de cette expressions linguistiques et de lÕargument X pour rŽaliser la fonction f. Ainsi, la structure interne de Caus 3 Func 1 (MŽpris I) est lÕarbre donnŽ en figure 4.10.Ê: Caus3Func0 (X = mŽpris) = engendrer N chez NX ART Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale Une fonction lexicale reprŽsente donc un lien entre un sŽmantme et une expression linguistique complexe comportant dÕautres sŽmantmes. Aussi, la valeur de ces FL peut tre reprŽsentŽe comme un ensemble dÕarbres dont certains nÏuds sont des variable, et dÕautres sont des sŽmantmes. Il faut aussi reprŽsenter les fonctions lexicales. En effet, sÕil y a un nombre limitŽ de fonctions lexicales de base, on trouvera des fonctions composŽes dans les diffŽrents articles de dictionnaire. Prenons un exempleÊ: les fonctions Oper 1 , Oper 2 É ont pour valeur les verbes sŽmantiquement vides qui prennent le nom du premier, deuximeÉ actant comme sujet grammatical et C0 (leur argument) comme complŽment dÕobjet principalÊ: Oper1(attention) = faire Oper2(attention) = attirer Oper1(conseil) = donner Oper2(conseil) = recevoir Oper1(aide) = prter, accorder Oper2(aide) = recevoir La fonction Caus reprŽsente la notionÊ: Òfaire en sorte que quelque chose ait lieuÓ. Elle sÕemploie le plus souvent en combinaison avec dÕautres FL. Ainsi, si Oper1(dŽsespoir) = Žprouver, ressentir, avoir, CausOper1(dŽsespoir) reprŽsente Òfaire en sorte que quelquÕun Žprouve du dŽsespoirÓ. Donc CausOper1(dŽsespoir) = pousser, rŽduire [qqn au dŽsespoir], jeter [qqn dans le dŽsespoir], frapper [qqn de dŽsespoir]. Il nÕest donc pas possible de reprŽsenter chaque fonction lexicale comme un attribut dand une structure, puisque la possibilitŽ de composition entra”ne toute une combinatoire des fonctions lexicales. Nous les reprŽsenterons donc par la structure logique de base function. Cette structure logique sÕexprime de la manire suivanteÊ: (function keywords*) o les mots-clŽs dŽfinissent des contraintes sur les classes acceptables pour les diffŽrents ŽlŽments de fonctionÊ: :label class spŽcifie la classe identifiant la fonction. :arguments class spŽcifie la liste des classes acceptable pour les arguments de la fonction. :value class spŽcifie la classe acceptable en valeur de la fonction. Ainsi, la structure correspondant aux fonctions lexicales peut sÕexprimer comme suitÊ: (def-linguistic-class lex-sem-fns (set-of (lex-sem-fn))) (def-linguistic-class lex-sem-fn (function :label nom-FL :arguments (FL-arg) :value expression-linguistique)) Pour reprŽsenter la composition de fonctions, on peut autoriser lÕutilisation dÕune fonction lexicale en argument dÕune fonction lexicale. NŽanmoins, la valeur de la FL argument (si elle existe) nÕest pas pertinente. Seule lՎtiquette des fonctions composŽes est porteuse dÕinformation. Aussi, le plus simple est dÕautoriser une valeur complexe en label de la fonction. Nous dŽfinirons donc un label de fonction comme une liste (ordonnŽe) de noms de fonctions de base. (def-linguistic-class nom-FL (list-of (nom-FL-base))) Le nom dÕune fonction de base est donnŽ par un identificateur de la fonction (une cha”ne de caractres) et par le numŽro de lÕactant sur lequel elle opreÊ: (def-linguistic-class nom-FL-base (feature-structure ((fonction string) (actant integer)))) LÕargument de la fonction est un sŽmantme. Le fait dÕindiquer cet argument est redondant puisque cette fonction est dŽfinie ˆ lÕintŽrieur dans la structure mme du sŽmantme. (def-linguistic-class FL-arg sémantème) Un ordre partiel est dŽfini sur Σ et notŽ <<. Les structures logiques de base sont incomparables selon cet ordre. (Σ, <<) dŽfinit un treillis ayant lÕaspect donnŽ en figure 4.11. Si la classe linguistique X est dŽfinie en fonction de la structure logique x, alors X se trouvera dans le sous-treillis ΣÕx. Si la classe linguistique Y est dŽfinie en fonction de X, figurant dans le sous treillis ΣÕx, alors Y figurera dans le sous-treillis ΣÕx. Deux classes linguistiques quelconques figurant dans deux sous-treillis diffŽrents sont donc incomparables par <<. LÕopŽration dÕunification (notŽe U) est dŽfinie sur ΣÕx × ΣÕx pour toute structure logique x. Elle Žchoue (retourne ⊥) sur ΣÕx × ΣÕy (x ­ y). Le symbole spŽcial T, situŽ au sommet du treillis (Σ,<<), est lՎlŽment neutre de lÕopŽration dÕunification. 2.2.2. Arbres La structure linguistique et informatique la plus classique est sans conteste lÕarbre. Il est donc normal de proposer cette structure en premier. La structure dŽfinie ici reprŽsente la classe des arbres dŽcorŽs. 2.2.2.1. DŽfinition de la structure La dŽfinition dÕune classe linguistique ayant une structure dÕarbre se fait de la manire suivanteÊ: (tree keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties de lÕarbre. Les mots-clŽs possibles sontÊ: :root class spŽcifie la classe acceptable pour les valeurs des dŽcorations de la racine de l'arbre. :leaves class spŽcifie la classe acceptable pour les valeurs des dŽcorations des feuilles de l'arbre. :nodes class spŽcifie la classe acceptable pour les valeurs des dŽcorations de lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elles ne sont pas dŽfinies par ailleurs). class est une classe linguistique quelconque. Si les mots-clŽs root et leaves ne sont pas dŽfinis, ils prennent la valeur associŽe ˆ :nodes. 2.2.2.2. HŽritage Si parent-class est une classe linguistique ayant une structure dÕarbre, on peut en hŽriter en dŽfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-clŽs redŽfinissent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties de parent-class. Les mots-clŽs sont les mmes que ceux utilisŽs dans la dŽfinition dÕun arbre. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la sŽmantique de lÕhŽritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (tree :root Y :leaves Z :nodes W)) et si XÕ est dŽfini de la manire suivanteÊ: (define-linguistic-class X’ (X :root A)) alors XÕ correspond ˆ la structureÊ: (tree :root A :leaves Z :nodes W) - si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (tree :root Y :leaves Z :nodes W)) et si XÕ est dŽfini de la manire suivanteÊ: (define linguistic-class X’ (X :root A)) alors XÕ correspond ˆ la structureÊ: (tree :root U’(Y,A) :leaves Z :nodes W) 2.2.2.3. Unification LÕunification sur ΣÕarbres × ΣÕarbres est dŽfinie de la manire suivanteÊ: UÊ: ΣÕarbres × ΣÕarbres → ΣÕarbres (T1, T2) → T Si T1est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ: en racineÊ: R1 en feuillesÊ: F1 en nÏudsÊ: N1. et si T2 est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ: en racineÊ: R2 en feuillesÊ: F2 en nÏudsÊ: N2. alors T est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ: en racineÊ: UÕ(R1,R2) en feuillesÊ: UÕ(F1,F2) en nÏudsÊ: UÕ(N1,N2). LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T. 2.2.3. Graphes La seconde structure que nous proposons est largement utilisŽe dans le domaine du Traitement Automatique des Langues Naturelles. Bien souvent, on interprte une structure en terme de graphes (les structures de traits avec rŽentrance notamment). Il est donc naturel de proposer cette structure de graphe parmi les structures logiques de base. Les graphes implŽmentŽs ici portent des dŽcorations quelconques sur les nÏuds et les arcs. 2.2.3.1. DŽfinition de la structure La dŽfinition dÕune classe linguistique ayant une structure de graphe se fait de la manire suivanteÊ: (graph keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties du graphe. Les mots-clŽs possibles sontÊ: :nodes class spŽcifie la classe acceptable pour les valeurs des dŽcorations des nÏuds du graphe. :arcs class spŽcifie la classe acceptable pour les valeurs des dŽcorations des arcs du graphe. class est une classe linguistique quelconque. 2.2.3.2. HŽritage Si parent-class est une classe linguistique ayant une structure de graphe, on peut en hŽriter en dŽfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-clŽs redŽfinissent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties de parent-class. Les mots-clŽs sont les mmes que ceux utilisŽs dans la dŽfinition dÕun graphe. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la sŽmantique de lÕhŽritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (graph :nodes Y :arcs Z)) et si XÕ est dŽfini de la manire suivanteÊ: (define-linguistic-class X’ (X :nodes A)) alors XÕ correspond ˆ la structureÊ: (graph :nodes A :arcs Z) - si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (graph :nodes Y :arcs Z)) et si XÕ est dŽfini de la manire suivanteÊ: (define linguistic-class X’ (X :nodes A)) alors XÕ correspond ˆ la structureÊ: (graph :nodes U’(X,A) :arcs Z) 2.2.3.3. Unification LÕunification sur ΣÕgraphes × ΣÕgraphes est dŽfinie de la manire suivanteÊ: UÊ: ΣÕgraphes × ΣÕgraphes → ΣÕgraphes (G1, G2) → G Si G1est le graphe dont les valeurs de dŽcoration acceptables sontÊ: en arcs: A1 en nÏudsÊ: N1. et si T2 est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ: en arcs: A2 en nÏudsÊ: N2. alors T est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ: en arcs: UÕ(A1, A2) en nÏudsÊ: UÕ(N1, N2). LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T. 2.2.4. Liens Il est souvent trs utile de pouvoir Žtablir un lien entre diffŽrentes unitŽs dÕune base lexicales. Certains travaux dŽfinissent gr‰ce ˆ de tels liens des graphes recouvrant lÕensemble des lexiques. De plus, cet ŽlŽment est quasi indispensable dans une approche par transfert. La classe de liens dŽfinie ici porte une dŽcoration quelconque. 2.2.4.1. DŽfinition de la structure La dŽfinition dÕune classe linguistique ayant une structure de lien se fait de la manire suivanteÊ: (link keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrents ŽlŽments du lien. Les mots-clŽs possibles sontÊ: mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (automaton :arcs Y :nodes Z :starting-node W)) et si XÕ est dŽfini de la manire suivanteÊ: (define linguistic-class X’ (X :arcs A :ending-nodes B)) alors XÕ correspond ˆ la structureÊ: (automaton :arcs U’(Y, A) :nodes Z :starting-node W :ending-nodes B) 2.2.5.3. Unification LÕunification sur ΣÕautomates × ΣÕautomates est dŽfinie de la manire suivanteÊ: UÊ: ΣÕautomates× ΣÕautomates → ΣÕautomates (A1, A2) → A Si A1est le graphe dont les valeurs de dŽcoration acceptables sontÊ: en arcs: Ar1 en nÏudsÊ: N1 en nÏud initialÊ: NI1 en nÏuds finalsÊ: NF1. et si A2 est le graphe dont les valeurs de dŽcoration acceptables sontÊ: en arcs: Ar2 en nÏudsÊ: N2. en nÏud initialÊ: NI2 en nÏuds finalsÊ: NF2. alors A est le graphe dont les valeurs de dŽcoration acceptables sontÊ: en arcs: UÕ(Ar1, Ar2) en nÏudsÊ: UÕ(N1, N2) en nÏud initialÊ: UÕ(NI1, NI2) en nÏuds finalsÊ: UÕ(NF1, NF2). LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T. 2.2.6. fonctions Les fonctions lexicales, comme celle introduites par Igor MelÕcÿuk, vont jouer un grand r™le dans les dictionnaires. Il est possible de simuler une telle structure avec un lien portant une certaine dŽcoration. NŽanmoins, nous avons choisi de lÕinclure parmi les structures de base. 2.2.6.1. DŽfinition de la structure La dŽfinition dÕune classe fonction se fait de la manire suivanteÊ: (function keywords*) o les mots-clŽs dŽfinissent des contraintes sur les classes acceptables pour les diffŽrents ŽlŽments de la fonctionÊ: :label class spŽcifie la classe identifiant la fonction. :arguments class spŽcifie la liste des classes acceptable pour les arguments de la fonction. :value class spŽcifie la classe acceptable en valeur de la fonction. 2.2.6.2. HŽritage Si parent-class est une classe fonction, on peut en hŽriter en dŽfinissant une nouvelle classe linguistique parÊ: (parent-class keywords*) o les mots-clŽs redŽfinissent les classes qui peuvent tre valeurs de dŽcoration des diffŽrentes parties de parent-class. Les mots-clŽs sont les mme que ceux utilisŽs dans la dŽfinition dÕune fonction. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la sŽmantique de lÕhŽritageÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (function :label Y :arguments Z :value W)) et si XÕ est dŽfini de la manire suivanteÊ: (define-linguistic-class X’ (X :label A)) alors XÕ correspond ˆ la structureÊ: (function :label A :arguments Z :value W) - si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spŽcifiŽes pour le mme mot-clŽ. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (function :label Y :arguments Z :value W)) et si XÕ est dŽfini de la manire suivanteÊ: (define linguistic-class X’ (X :label A)) alors XÕ correspond ˆ la structureÊ: (automaton :label U’(Y, A) :arguments Z :value W)) 2.2.6.3. Unification LÕunification sur ΣÕfonctions × ΣÕfonctions est dŽfinie de la manire suivanteÊ: UÊ: ΣÕfonctions × ΣÕfonctions → ΣÕfonctions (F1, F2) → F Si F1est une classe fonction dont les valeurs acceptables sontÊ: en Žtiquette: L1 en argumentsÊ: A1 en valeursÊ: V1 et si A2 est une classe fonction dont les valeurs acceptables sontÊ: en Žtiquette: L2 en argumentsÊ: A2 en valeursÊ: V2 alors A est une classe fonction dont les valeurs acceptables sontÊ: en Žtiquette: UÕ(L1, L2) en argumentsÊ: UÕ(A1, A2) en valeursÊ: UÕ(V1, V2) LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T. 2.2.7. Structures de traits Les structures de traits sont trs utilisŽes par diffŽrents formalismes ÒfondŽs sur lÕunificationÓ. Nous les incluons donc dans lÕensemble des structures logiques de base de SUBLIM. La classe dŽfinie ici est une gŽnŽralisation des structures de traits, puisque nÕimporte quelle structure linguistique peut tre valeur dÕun trait. 2.2.7.1. DŽfinition de la structure La dŽfinition dÕune classe linguistique de type structure de traits se fait de la manire suivanteÊ: (feature-structure features) o lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. Contrairement ˆ certains langages dÕunification [A•t-Kaci 1986, Emele & Zajac 1990b], apparentŽs aux langages ˆ prototypes, nous Žtablissons une diffŽrence entre les classes (ce que nous dŽfinissons ici) et leurs instances, qui serviront de briques de base aux articles de dictionnaires. Aussi, lorsque nous dŽfinissons une classe linguistique de la manire suivanteÊ: (feature-structure ((trait1 class1) (trait2 class2) (trait3 class3))) les instances de cette classe linguistique ne peuvent pas contenir de traits non dŽfinis ici. Seuls trait1, trait2 et trait3 seront des traits valides pour ces instances. Par contre, il est possible dÕhŽriter dÕune classe linguistique de type structure de traits en rajoutant de nouveaux traits. 2.2.7.2. HŽritage Si parent-class est une classe linguistique de type structure de traits, on peut en hŽriter en dŽfinissant une nouvelle classe linguistique parÊ: (parent-class features keywords*) o lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs (re)dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. Les mots- clŽs permettent de spŽcifier le comportement de lÕhŽritage. LorsquÕun attribut de la classe rŽsultante est Žgale ˆ lÕunion des attributs de la classe mre et des attributs de lÕargument features, la valeur des attributs situŽs dans lÕintersection des attributs de la classe mre et des attributs de lÕargument features, dŽpend du mot-clŽ inheritance-typeÊ: - si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique remplacent la valeur de la classe mre, spŽcifiŽes pour le mme attribut. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (feature-structure ((trait1 X) (trait2 Y))) et si XÕ est dŽfini de la manire suivanteÊ: (define-linguistic-class X’ (X ((trait1 A) (trait3 Z))) alors XÕ correspond ˆ la structureÊ: (feature-structure ((trait1 A) (trait2 Y) (trait3 Z))) - si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe mre, spŽcifiŽes pour le mme attribut. Par exemple, si X est dŽfini de la manire suivanteÊ: (define-linguistic-class X (feature-structure ((trait1 X) (trait2 Y))) et si XÕ est dŽfini de la manire suivanteÊ: (define-linguistic-class X’ (X ((trait1 A) (trait3 Z))) alors XÕ correspond ˆ la structureÊ: (feature-structure ((trait1 U’(A, X)) (trait2 Y) (trait3 Z))) 2.3. Implémentation LÕimplŽmentation du noyau de SUBLIM repose sur le langage DŽcor, dŽfini et implŽmentŽ par Mathieu Lafourcade [Lafourcade 1994b]. DŽcor est un langage de dŽcoration implŽmentŽ en CLOS. Ce langage permet de dŽfinir des types (analogues aux classes en CLOS). Il est possible de contraindre les type de valeurs possibles pour les attributs (analogues aux slots en CLOS). Enfin, on peut dŽfinir son propre mŽcanisme dÕhŽritage et associer, aux attributs dÕun type, des contraintes qui devront tre vŽrifiŽs ˆ tout moment. 2.3.1. Les structures de base Les structures de base de SUBLIM sont implŽmentŽes comme des types en DƒCOR. Les ŽlŽments du dictionnaire seront des instances de ces types. Ë titre dÕillustration, nous allons donner lÕimplŽmentation des types structures de traits, arbres, et ensembles. LÕimplŽmentation des structures de traits est immŽdiate dans un langage de dŽcoration tel que DŽcor, ces structures Žtant dŽjˆ dŽfinies sous le nom :aggregatedÊ: (define! feature-structure :type (:is-a :aggregated)) Le type arbre nÕest pas dŽfini dans DƒCOR. Nous allons donc le dŽfinir comme un type agrŽgat. Chaque arbre contient un trait donnant son pre, la liste de ses fils et sa dŽcorationÊ: (define! daughters :type (:is-a :list) (:allowed-types '(tree))) (define! tree :type (:is-a :aggregated) (father (:type 'tree) (:obl t)) (daughters (:type 'daughters) (:obl t)) (decoration (:type :top))) Enfin, le type liste Žtant dŽfini dans DŽcor, nous l'utiliserons pour l'implŽmentation des ensemblesÊ: (define! set-of :type (:is-a :list)) 2.3.2. Les classes linguistiques La dŽfinition des classes linguistiques est faite par rapport aux structures de base ou ˆ des classes linguistiques dŽjˆ dŽfinies. Cette dŽfinition se traduit par la crŽation dÕun nouveau type DƒCOR hŽritant du type correspondant ˆ la structure de base. Les expressions de dŽclaration de classes linguistiques sont des macros LISP qui se rŽŽcrivent sous forme de dŽfinitions de types. Nous donnons un exemple dÕune telle dŽclaration pour des structures de traits, des arbres et des ensembles. Le premier exemple est une dŽclaration de structure de traits. (define-linguistic-class morph (feature-structure (graphic-form string) (category cat)) Cette dŽclaration se rŽŽcrit enÊ: (define! morph :type (:is-a 'feature-structure) (graphic-form (:type :lexical)) (category (:type 'cat))) Le second exemple porte sur la dŽclaration dÕune classe linguistique basŽe sur une structure dÕarbreÊ: (define-linguistic-class entry (tree :root morph :leaves sem-unit)) Cette dŽclaration se rŽŽcrit enÊ: (define! entry :type (:is-a 'tree) (:root-decoration '(morph)) (:leaves-decoration '(sem-unit))) o les contraintes root-decoration et leaves-decoration ont ŽtŽ dŽfinies comme suitÊ: (define! root-decoration :constraint (:arguments (decoration-classes :list)) (:object-category :decor) (:daemons :if-added) (:check-constraint-method (object object-category constraint-name args) (if (and (first args) (= (get-value object.father) nil)) (or-list (mapcar #'(lambda (x) (is-a-p (get-value object.decoration) x)) (first args)) )))) (define! leaves-decoration :constraint (:arguments (decoration-classes :list)) (:object-category :decor) (:daemons :if-added) (:check-constraint-method (object object-category constraint-name args) (if (and (first args) (= (get-value object.daughters) nil)) (or-list (mapcar #'(lambda (x) (is-a-p (get-value object.decoration) x)) (first args)) )))) Le troisime exemple porte sur la dŽfinition dÕune classe linguistique basŽe sur une structure dÕensembleÊ: (def-linguistic-class valency (set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) Cette dŽfinition se rŽŽcrit enÊ: (define! valency :type (:is-a 'set-of) (:allowed-types '(nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière zéro))) LÕhŽritage dÕune structure linguistique dŽfinie auparavant se traduit exactement de la mme manire quÕune dŽfinition, ˆ partir dÕune des structures de base prŽdŽfinies. Si par exemple la classe linguistique UM est dŽfinie de la manire suivanteÊ: (def-linguistic-class UM (feature-structure ((formes-brèves (set-of ((link :target UM :label type-forme-brève)))) (étymologie (set-of ((link :target étymon)))) (combVE (link :target combVE)) (appellation string) ))) Cela correspond en DƒCOR ˆÊ: (define! UM :type (:is-a 'feature-structure) (formes-brèves (define! nil :type (:is-a 'set-of) (:allowed-types '((define nil :type (:is-a 'link) (target (:type 'UM)) (label (:type 'type-forme-brève))))))) (étymologie (define! nil :type (:is-a 'set-of) (:allowed-types '((define nil :type (:is-a 'link) (target (:type 'étymon))))))) (combVE (define nil :type (:is-a 'link) (target (:type 'combVE)))) (appellation :lexical)) Il sera possible dÕhŽriter de cette structure, comme dans la dŽfinition suivanteÊ: (def-linguistic-class UM_S (UM ((usyn-l (set-of (USyn))) (a-pour-Umg (set-of (Umg) :min-elements 1)) (a-pour-Ump (set-of (Ump) :min-elements 1))) )) Ce qui correspond, de manire analogue, ˆÊ: (define! UM_S :type (:is-a 'UM) (usyn-l (define! nil :type (:is-a 'set-of) (:allowed-types '(USyn)))) (a-pour-Umg (define! nil :type (:is-a 'set-of) (:allowed-types '(Umg)) (:range 1))) ;; seule la borne inférieure est notée ;; lorsqu'il n'y a pas de borne sup. (a-pour-Ump (define! nil :type (:is-a 'set-of) (:allowed-types '(Ump)) (:range 1))) Lorsque lÕinterprŽtation de lÕhŽritage est diffŽrente du mŽcanisme dÕhŽritage standard, DƒCOR permet, gr‰ce ˆ des formules, de modifier cet hŽritage. Ainsi, on dŽfinit lÕhŽritage dÕune structure dÕensemble de la manire suivanteÊ: (def-linguistic-class T2 (T1 (x1 x2 x3) :min-elements 1)) se rŽŽcrit enÊ: (define! T2 :type (is-a 'T1) (:allowed-types (:value '(set-inheritance super-type '(x1 x2 x3))) (:interpretation :formula)) (:range (:value '(min (get-value T1.range 1))) (:interpretation :formula))) o set-inheritance est une fonction LISP calculant lÕhŽritage sur lÕensemble des classes possibles pour les ŽlŽments de lÕensemble. Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Syntaxe entrée Figure 5.1Ê: Architecture logicielle du systme SUBLIM Cette architecture permet au systme SUBLIM dՐtre neutre par rapport au type de base de donnŽes que lÕon souhaite utiliser. Elle permet aussi de bien sŽparer structure interne et prŽsentation, ce qui permet de bŽnŽficier des avantages exposŽs dans la partie suivante. 2. Niveau Interne : manipulation des informations linguistiques LÕutilisation dÕune base quelle quÕelle soit passe par la possibilitŽ dÕextraire des informations de cette base. Dans lÕoutil SUBLIM, les informations linguistiques ont deux caractŽristiques essentiellesÊ: - une structuration trs forte, - un mŽlange de structures logiques de base. Il nous faut donc dŽvelopper un moyen qui permette dÕextraire de la base lexicale une structure, selon les critres que le linguiste souhaite dŽfinir. Pour extraire une structure de la base lexicale, le linguiste doit donner lÕensemble des conditions minimales que doivent vŽrifier les structures ˆ extraire. Pour cela, il spŽcifie une structure ÒpatronÓ. Le rŽsultat de cette requte dÕextraction est la liste des ŽlŽments de dictionnaire qui sÕapparient avec la structure ÒpatronÓ. Cette extraction peut tre utilisŽe pour diffŽrents types dÕutilisation (navigation, manipulation). Dans le cas o le linguiste souhaite faire des calculs sur les structures ainsi extraites, il est intŽressant dÕaffecter ˆ des variables des ŽlŽments de cette structure. Pour dŽfinir une structure ÒpatronÓ, il faut pouvoir dŽnoter des instances particulires des diffŽrentes classes linguistiques. Notre langage le permet. De plus, lorsqu'on sait dŽnoter une structure linguistique, il faut pouvoir lire et manipuler les diffŽrentes valeurs associŽes aux ŽlŽments de cette structure. Dans cette partie, nous donnons un moyen de dŽnoter un ensemble de structures linguistiques et un moyen de manipuler ses diffŽrentes parties. 2.1. Dénoter un ensemble de structures Pour dŽnoter un ensemble de structures, on dŽfinit un ÒpatronÓ. Ce patron est une structure partiellement dŽfinie et comportant des variables. Il dŽsigne toutes les structures de la base auxquelles il sÕapparie. Les particularitŽs du systme Sublim font quÕun tel patron peut tre complexe. Par exemple, on doit pouvoir dŽsigner une structure dÕarbre, dont la racine est un automate o lՎtat dÕentrŽe est une structure de traits contenant au moins un trait nommŽ cat ayant la valeur X, et dont les feuilles sont des structures de traits ayant un trait nommŽ cat avec la mme valeur X. On le voit, le linguiste doit pouvoir spŽcifier un patron trs complexe. Dans ce cas, le plus simple pour le linguiste est de manipuler une vue graphique. Il pourra ainsi visualiser sa structure linguistique de manire simple alors que la traduction de cette vue graphique en sa vue interne sera trop complexe pour tre lisible. Nous ne donnerons pas la syntaxe interne dans son ensemble, mais en montrerons des extraits dans les exemples de contraintes et de rgles de valeurs par dŽfaut que nous donnons plus loin. 2.2. Manipuler une structure linguistique Pour manipuler une structure linguistique, il faut disposer de moyens d'accŽder aux diffŽrentes composantes de cette structure. Dans cette section, nous donnons les diffŽrentes fonctions d'accs aux informations linguistiques. 2.2.1. valeurs de base Les valeurs de base (boolean, string, integer, real) sont notŽes sous leur forme habituelle. Par exempleÊ: - booleanÊ: true, false; - stringÊ: "ceci est une chaîne", "cela aussi"É - integerÊ: 1, 2, 3É - realÊ: 1.32, 2É 2.2.2. Arbres La manipulation d'une structure d'arbre passe par les primitives suivantesÊ: - rootÊ: retourne la racine de l'arbreÊ; - daughters: retourne les sous-arbres de l'arbreÊ; - leavesÊ: retourne la liste des feuilles de l'arbreÊ; - leave?Ê: retourne vrai si l'arbre est une feuilleÊ; - nodesÊ: retourne la liste des nÏuds de l'arbre (cette fonction prend un argument supplŽmentaire indiquant si le parcours se fait en profondeur d'abord ou en largeur d'abord). 2.2.3. Graphes La manipulation d'une structure de graphe passe par les primitives suivantesÊ: - nodesÊ: retourne la liste des nÏuds du graphe, sans duplication, sans ordre particulierÊ; - arcsÊ: retourne la liste des arcs du graphe, sans duplication, sans ordre particulier. Sur un nÏud d'un graphe, on peut utiliser les primitivesÊ: - entering-arcsÊ: retourne la liste des arcs menant ˆ ce nÏudÊ; - leaving-arcsÊ: retourne la liste des arcs partant de ce nÏudÊ; Sur un arc d'un graphe, on peut utiliser les primitivesÊ: - sourceÊ: le nÏud d'o vient l'arcÊ; - targetÊ: le nÏud vers lequel pointe l'arc. Et, indiffŽremment sur un nÏud ou sur un arcÊ: - decorationÊ: retourne la structure de dŽcoration associŽe au nÏud (ou ˆ l'arc). 2.2.4. Liens La manipulation d'un lien est identique ˆ la manipulation d'un arc de grapheÊ: - sourceÊ: le nÏud d'o vient l'arcÊ; - targetÊ: le nÏud vers lequel pointe l'arcÊ; - decorationÊ: retourne la structure de dŽcoration associŽe ˆ l'arc. 2.2.5. Automates La manipulation d'une structure d'automate passe par les primitives suivantesÊ: - starting-nodeÊ: retourne l'Žtat initial de l'automateÊ; - ending-nodesÊ: retourne la liste des Žtats finals de l'automateÊ; - nodesÊ: retourne la liste des nÏuds de l'automateÊ; - transitionsÊ: retourne la liste des transitions de l'automate. Sur l'Žtat d'un automate, on peut utiliser les primitivesÊ: - entering-transitionsÊ: retourne la liste des transitions menant ˆ cet ŽtatÊ; - leaving-transitionsÊ: retourne la liste des transitions partant de cet Žtat. Sur une transition, on peut utiliser les primitivesÊ: - sourceÊ: l'Žtat d'o vient la transitionÊ; - targetÊ: l'Žtat vers lequel pointe la transition. Et, indiffŽremment sur un Žtat ou sur une transitionÊ: - decorationÊ: retourne la structure de dŽcoration associŽe au nÏud (ou ˆ l'arc). 2.2.6. fonctions La manipulation d'une structure fonction passe par les primitives suivantesÊ: - labelÊ: retourne le label de la fonction (qui peut tre une structure complexe)Ê; - argumentsÊ: retourne les arguments associŽes ˆ une instance de fonction (lorsque cette instance est associŽe ˆ une structure particulire)Ê; - valueÊ: retourne la valeur associŽe ˆ une instance de fonction (lorsque cette instance est associŽe ˆ une structure particulire)Ê; - applyÊ: retourne la valeur rŽsultat de l'application de la fonction aux arguments passŽs en paramtres. Figure 5.3Ê: Le mme article vu sous la forme habituelle Une telle mŽthode permet de sÕaffranchir des problmes typographiques lors de lՎdition dÕun document. 3.2. Le dictionnaire, un document structuré De la mme manire quÕun document a une structure interne, un dictionnaire est un ensemble dÕarticles ayant une structure particulire. Dans le chapitre prŽcŽdent, nous avons exposŽ les moyens dont dispose le linguiste pour dŽfinir la structure dÕune base lexicale et des dictionnaires quÕelle contient. LorsquÕon veut crŽer, remplir, gŽrer ou consulter un dictionnaire, on utilise une forme particulire reflŽtant cette structure interne. La problŽmatique Žtant analogue ˆ celle des documents structurŽs, nous proposons de rŽutiliser les outils produits dans ce domaine pour gŽrer lÕinterface entre un utilisateur et un dictionnaire. Un dictionnaire est tout de mme un document structurŽ particulier, par sa taille, par la complexitŽ des structures quÕil peut contenir, et par le nombre ŽlevŽ dÕusages diffŽrents que lÕon veut en faire. Ces particularitŽs rendent cruciale la possibilitŽ de proposer diffŽrentes vues dÕun mme dictionnaire. En effet, les utilisateurs dÕun dictionnaire souhaitent avoir une forme particulire ˆ leur usage, soit parce quÕelle est mieux adaptŽe ˆ leurs motivations, soit parce quÕils ne souhaitent voir que les informations pertinentes ˆ un usage particulier. Pour illustrer cette possibilitŽ, prenons lÕexemple dÕun dictionnaire bilingue que nous allons coder en GRIF. Ce dictionnaire a un titre, des commentaires, et une liste dÕentrŽes regroupŽes en lettres. Les entrŽes du dictionnaire se composent dÕun lemme, dÕune catŽgorie et dÕune liste de sens. Un sens comprend un contexte ou synonyme (lÕidentifiant parmi les diffŽrents sens possibles) ainsi quÕune liste de constructions syntaxiques (un ensemble dÕarbres), une liste de traductions (repŽrŽes par un contexte), et une liste dÕexemples avec leurs traductions. En GRIF, cette structure sՎcrit de la manire suivante, dans le langage S4Ê: {Nom de la structure} STRUCTURE bilingue; {Nom de sa présentation principale} DEFPRES bilingueP; STRUCT {Un dictionnaire bilingue a deux attributs (la langue cible et la langue source} {Il a un nom, des commentaires et un ensemble d’entrées } bilingue (ATTR !Langue_source = TEXT; !Langue_cible = TEXT) = BEGIN Nom_Dico = Text; ?Commentaire = Paragraphe_sequence; Entr\351e_sequence = LIST OF (Lettres_Entr\351e); END; Paragraphe_sequence = LIST OF (Paragraphe); { Les entrées sont regroupées par lettres } Lettres_Entr\351e (ATTR !Lettre = TEXT) = LIST OF (Entr\351e); { Une entrée comprend un lemme, une catégorie et une liste de sens } Entr\351e = BEGIN Lemme = TEXT; cat\351gorie = TEXT; Liste_sens = LIST OF (sens); END; { Le sens est indiqué par un contexte, suivi d’un ensemble d’arbres syntaxiques, de traductions et d’exemples } sens = BEGIN Contexte_Global = TEXT; ?Syntaxes = LIST OF (Arbre); ?Traductions = LIST OF (Trad); ?Exemples = LIST OF (Exemple); END; 4 L’annexe B donne une introduction à GRIF et présente brièvement ses différents langages. Trad = BEGIN Contexte_Source = TEXT; Traduction = TEXT; END; Exemple = BEGIN Exemple_Source = TEXT; Traduction_exemple = TEXT; END; END LorsquÕon indexe ce dictionnaire, on veut avoir une vue o les informations sont compltes et clairement sŽparŽes. Ainsi, lÕentrŽe composer du dictionnaire peut tre crŽŽe sous la forme donnŽe par les figures 5.4 et 5.5. Figure 5.4Ê: Vue intŽgrale de lÕentrŽe composer (transitif) Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. LÕutilisation dÕun systme de production de documents structurŽs nous permet donc, pour un cožt rŽduit, dÕoffrir de nombreuses vues dÕun mme dictionnaire. Par la crŽation de vues ҎditorialesÓ, on intgre lÕensemble de la cha”ne de production dÕun dictionnaire (conception, crŽation, gestion, ŽditionÉ) dans un seul outil. LÕutilisation du systme GRIF, pour la prŽsentation des donnŽes, est facilitŽe par son architecture. En effet, il ne se prŽsente pas uniquement comme une application autonome et fermŽe, mais comme une bo”te ˆ outils. Cet aspect permet de lÕutiliser, non pas comme un Žditeur indŽpendant du systme SUBLIM, mais comme un composant intŽgrŽ au systme. NŽanmoins, GRIF prŽsente actuellement deux limitations qui sont importantes dans le contexte des dictionnaires. En premier lieu, GRIF est un outil mono-script. Cela signifie quÕil nÕest capable de gŽrer que les langues dont lՎcriture est basŽe sur lÕalphabet romain. Ainsi, il est impossible de manipuler des dictionnaires russes, arabes, chinois ou japonais5. LՎditeur GRIF permet dՎditer et de manipuler du texte. Or, certaines structures de dictionnaire ont des attributs qui ont un nombre fini de valeurs atomiques possibles. Dans ce cas, on souhaiterait que lՎditeur ne permette pas la saisie dÕune valeur non prŽvue. Cela peut se faire en associant lÕattribut en question ˆ un menu dŽroulant contenant lÕensemble des valeurs possibles. Mais, deuxime limitation, lÕutilisation dÕun tel menu nÕest pas possible ˆ lÕintŽrieur dÕun document GRIF. Bien que GRIF soit utilisable pour construire une maquette de systme, voire un prototype limitŽ dans les langues quÕil accepte, il ne peut pas tre utilisŽ dans son Žtat actuel pour la crŽation dÕun systme de gestion de dictionnaires multilingues. Son utilisation dans une maquette a deux avantages importantsÊ: - illustrer les avantages dÕune approche du dictionnaire en tant que document structurŽ, - inciter les constructeurs de systme de production de documents structurŽs ˆ gŽnŽraliser leurs produits et ˆ les Žtendre ˆ de nouveaux scripts. 4. Vérificateur de cohérence Le but du vŽrificateur de cohŽrence est de vŽrifier que les entrŽes dÕun dictionnaire sont conformes ˆ des contraintes spŽcifiŽes a priori. Ces contraintes sont dŽfinies en rŽfŽrence ˆ la structure linguistique du dictionnaire. Pour chaque dictionnaire, le linguiste peut dŽfinir un ensemble de contraintes et les vŽrifier sur lÕensemble du dictionnaire lorsquÕil le souhaite (contraintes statiques). Il peut aussi dŽfinir des contraintes qui seront vŽrifiŽes ˆ chaque fois quÕune entrŽe sera crŽŽe ou modifiŽe (contraintes dynamiques). Notons que certaines parties de la dŽfinition de lÕarchitecture linguistique sont analogues ˆ des contraintes (la cardinalitŽ dÕune liste par exemple). Ces contraintes, dites ÒstructurellesÓ sont vŽrifiŽes dynamiquement ˆ la modification des attributs sur lesquels elles portent. Aprs avoir prŽcisŽ les notions utilisŽes par le vŽrificateur de cohŽrence, nous donnerons quelques exemples de contraintes. 4.1. Notions Une contrainte est une rgle dŽfinie par un linguiste. Ces contraintes sont vŽrifiŽes lorsque le linguiste le souhaite, o ˆ chaque fois quÕune entrŽe est crŽŽe ou modifiŽe. Un filtre est un ensemble de contraintes. On dŽfinit trois niveaux de contraintesÊ: - AlerteÊ: lorsquÕune contrainte de ce niveau est invalide pour une entrŽe, un message est envoyŽ au linguiste. Tous les traitements restent autorisŽs sur cette entrŽe. LÕalerte 5 En effet, le travail de multilinguisation de GRIF effectué par Huy Khánh Phan [Phan 1991, Phan & Boitet 1992] a été réalisé sur une version de laboratoire figée et n’a pas (encore) été repris dans la version commerciale, ni dans les versions de recherche plus récentes du projet OPERA. dispara”t ds que le lexicographe valide lÕentrŽe. Ce type de contrainte est utilisŽ pour dŽtecter des erreurs potentielles. - DŽlaiÊ: lorsquÕune contrainte de ce niveau est invalide pour une entrŽe, un message est envoyŽ au linguiste. LÕentrŽe en question ne pourra pas tre exportŽe. Les traitements interactifs (Ždition, navigation) ne sont pas changŽs. Ces contraintes sont utilisŽes pour la gestion dÕentrŽes temporairement incompltes. - CritiqueÊ: ce niveau de contrainte nÕest pertinent que pour une contrainte dynamique. LorsquÕune contrainte de ce niveau est violŽe par une transaction sur une entrŽe, cette transaction est annulŽe. Un message est envoyŽ au linguiste avec les renseignements nŽcessaires ˆ la rectification de lÕerreur. On dŽfinit trois types de contraintesÊ: - IntŽgritŽÊ: une contrainte dÕintŽgritŽ sÕapplique ˆ un article dÕun dictionnaire de la base lexicale. Elle assure quÕaucun article de la base lexicale ne prŽsente une configuration illicite. - CohŽrence localeÊ: un contrainte de cohŽrence locale sÕapplique ˆ diffŽrents articles dÕun mme dictionnaire. Ces contraintes permettent de vŽrifier la cohŽrence dÕun dictionnaire. - CohŽrence globaleÊ: une contrainte de cohŽrence globale sÕapplique ˆ diffŽrents articles de diffŽrents dictionnaires dans une mme base lexicale. Ces contraintes permettent de vŽrifier la cohŽrence globale de lÕensemble des dictionnaires dans une base lexicale. Une contrainte contient trois parties principalesÊ: - un patron qui spŽcifie lÕensemble des objets de la base de donnŽes qui sont concernŽs par cette contrainte, - une expression boolŽenne qui doit tre vŽrifiŽe par lÕensemble des objets concernŽs, - une partie dŽclaration qui donne des informations supplŽmentaires sur la contrainte (message dÕerreur, commentaire, niveauÉ). Les contraintes dÕintŽgritŽ et de cohŽrence locale sont associŽes ˆ un dictionnaire. Les contraintes de cohŽrence globale sont associŽes ˆ une base lexicale. La dŽfinition dÕune contrainte ne peut se faire que si lÕon a auparavant dŽfini lÕarchitecture linguistique des diffŽrents dictionnaires. En effet, les expression dÕextraction et les expressions boolŽennes portent sur des ŽlŽments des diffŽrentes structures linguistiques. Avant de donner des exemples de contraintes, nous dŽfinissons donc lÕarchitecture linguistique de la base lexicale auxquelles elles sont associŽes. 4.2. Structure de la base lexicale La base lexicale sur laquelle portent nos exemples est basŽe sur une approche par transfert. Elle est composŽe de 3 dictionnaires monolingues (franais, anglais, allemand) et des six dictionnaires bilingues correspondantsÊ: (define-monolingual-dictionary french :language "Français" :owner "GETA") (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") (define-lexical-database example-database :owner "GETA" La seconde contrainte que lÕon souhaite tester est liŽe aux attributs de dŽrivation de chaque unitŽ sŽmantique. Ces attributs (drvv, drvn, drva) sont incompatibles (un seul dÕentre eux peut tre instanciŽ ˆ la fois). Cette contrainte porte sur toutes les unitŽs sŽmantiques. LÕexpression boolŽenne doit vŽrifier quÕun seul parmi ces attributs est instanciŽ. LorsquÕun attribut nÕest pas instanciŽ, sa valeur est :undef. Cette contrainte sÕexprime de la manire suivanteÊ: (define-coherence-rule only-one-drv :applies-on (@Usem french-sem-unit) :verifies (let ((drvv (get-value Usem.drvv)) (drvn (get-value Usem.drvn)) (drva (get-value Usem.drva))) (cond ((not (= drvv :undef)) (and (= drvn :undef) (= drva :undef))) ((not (= drvn :undef)) (and (= drvv :undef) (= drva :undef))) ((not (= drva :undef)) (and (= drvv :undef) (= drvn :undef))) (T T))) :error-message "Deux dérivations pour une unité sémantique" :level :critical) La dernire contrainte dÕintŽgritŽ que nous utiliserons porte aussi sur les dŽrivations. Le type de dŽrivation dŽfini dŽpend de la catŽgorie de lÕunitŽ sŽmantique. Par exemple, un adjectif ne peut porter une information indiquant quÕil est produit par une dŽrivation de verbe vers nom. Nous fractionnons cette contrainte en plusieurs contraintes simples selon la catŽgorie de lÕunitŽ sŽmantique de laquelle on dŽrive et de la catŽgorie de lÕunitŽ sŽmantique vers laquelle on dŽrive. Ainsi, le patron dŽcrit les unitŽs sŽmantiques ayant une mme catŽgorie et dŽrivant dÕune mme catŽgorie dÕunitŽ sŽmantique. Nous donnons en exemple les adjectifs dŽrivant dÕun verbe. Il nous faut de plus manipuler le type de dŽrivation. Le patron spŽcifie donc une variable en valeur de lÕattribut deriv-kind. Comme on nÕimpose pas de restriction sur la valeur de ce trait, seule la variable appara”t dans le patron (on ne dŽnote pas sa valeur). LÕexpression boolŽenne vŽrifie que le type de dŽrivation est admis dans ce contexteÊ: (define-coherence-rule adj-drvv-coherence :applies-on (french-sem-unit [category : adj, drvv : [deriv-kind : @kind]]) :verifies (or (= kind 'adject) (= kind 'adjpass) (= kind 'adjpotpas) (= kind 'adjresact)) :error-message "L’adjectif a une dérivation incompatible" :level :critical) 4.3.2. Contraintes de cohŽrence locale Les contraintes de cohŽrence locale permettent de vŽrifier la bonne formation de lÕensemble dÕun dictionnaire. Ces contraintes portent donc sur plusieurs unitŽs du dictionnaire. Ce type de contrainte est dŽfini de manire identique aux contraintes prŽcŽdentes. La contrainte que nous souhaitons dŽfinir vŽrifie que la catŽgorie de lÕunitŽ sŽmantique indiquŽe comme source dÕune dŽrivation est compatible avec cette dŽrivation. En effet, si une unitŽ sŽmantique est le rŽsultat dÕune dŽrivation en provenance dÕun verbe (resp. dÕun nom, dÕun adjectif), alors lÕattribut drvv (resp. drvn, drva) sera spŽcifiŽ et lÕunitŽ sŽmantique indiquŽe en valeur du trait deriv-from devra tre un verbe (resp. dÕun nom, dÕun adjectif). Nous dŽfinirons la contrainte vŽrifiant la cohŽrence pour lÕattribut drvv. Cette contrainte porte sur toutes les entrŽes qui ont une valeur pour lÕattribut drvv. LÕexpression boolŽenne suivant :verifies vŽrifie que lÕunitŽ sŽmantique indiquŽe en valeur de lÕattribut deriv-from est un verbeÊ: (define-coherence-rule drvv-deriv-from-coherence :applies-on (french-sem-unit [drvv : [deriv-from : @source]]) :verifies (= (get-value source.category) 'vb) :error-message "Une dérivation verbale doit provenir d’un verbe." :level :critical) 4.3.3. Contraintes de cohŽrence globale Les contraintes de cohŽrence globale vŽrifient la bonne formation de lÕensemble de la base lexicale. Elles portent donc sur des unitŽs de diffŽrents dictionnaires. Ce type de contrainte est dŽfini de manire analogue aux contraintes prŽcŽdentes , mais porte sur diffŽrents dictionnaires. Le patron doit indiquer sur quel dictionnaire il sÕapplique. Pour cela, chaque classe linguistique indiquŽe sera notŽe, prŽcŽdŽe du nom du dictionnaire et de Ò::Ó. Ce type de contrainte est dŽfini au niveau de la base lexicale. La contrainte de cohŽrence globale que nous souhaitons indiquer vŽrifie que lÕunitŽ sŽmantique, indiquŽe comme source sur un lien du dictionnaire french-english, existe bien dans le dictionnaire french. Cette contrainte porte sur tous les liens de transfert du dictionnaire bilingue french-english. LÕexpression boolŽenne vŽrifie lÕexistence de lÕunitŽ sŽmantique source dans le dictionnaire monolingue frenchÊ: (define-coherence-rule drvv-deriv-from-coherence :applies-on (french-english::french-english-transfer-link :source @french-sem-unit) :verifies (exist? french::@french-sem-unit) :error-message "L’unité sémantique source du lien n’existe pas." :level :critical) 5. Défauteur Le but du dŽfauteur est de donner des valeurs par dŽfaut aux ŽlŽments des structures qui nÕont pas ŽtŽ renseignŽs par le lexicographe. Pour calculer les valeurs par dŽfaut des diffŽrents ŽlŽments, le dŽfauteur dispose de rgles de calcul dŽfinies en faisant rŽfŽrence ˆ la structure linguistique du dictionnaire. Pour chaque dictionnaire, le linguiste peut dŽfinir un ensemble de rgles de calcul produisant des valeurs probables pour diffŽrents ŽlŽments des structures linguistiques. Ces contraintes pourront tre utilisŽes interactivement lors de lՎdition dÕune entrŽe (afin de faciliter le travail du lexicographe) ou bien tre utilisŽes pour complŽter des entrŽes importŽes ou partiellement indexŽes. Aprs avoir prŽcisŽ les notions utilisŽes par le dŽfauteur, nous donnerons quelques exemples de rgles de dŽfaut. 5.1. Notions Une rgle de valeur par dŽfaut contient trois parties principalesÊ: - un patron qui spŽcifie lÕensemble des objets de la base de donnŽes qui sont concernŽs par cette rgle, - un test qui doit tre vŽrifiŽ pour que la rgle sÕapplique, - une expression qui associe une valeur ˆ un des ŽlŽments de la structure linguistique. Cet ŽlŽment ne prendra sa nouvelle valeur que sÕil Žtait indŽfini auparavant (le linguiste a cependant un moyen de forcer lÕaffectation sÕil le dŽsire). On dŽfinit une rgle de valeur par dŽfaut par lÕexpression define-default-ruleÊ: define-default-rule name :applies-on pattern :test boolean-expression :do modifications :redefine? boolean Le patron (pattern) a ŽtŽ dŽfini dans la section prŽcŽdente. Le test est une expression boolŽenne. La rgle ne sÕappliquera que si cette expression est vŽrifiŽe. La modification porte sur un et un seul ŽlŽment de la structure linguistique. Le mot-clŽ :redefine? indique si on force lÕaffectation lorsque la valeur est prŽalablement dŽfinie (par dŽfaut, sa valeur est false). 5.2. Exemples de règles de valeurs par défaut Les exemples suivants sÕappliquent sur la structure utilisŽe dans la section prŽcŽdente. Notre premier exemple concerne le trait category de lÕentrŽe french-entry. Pour calculer sa valeur par dŽfaut, on utilise une rgle heuristique, qui spŽcifie que les lemmes se terminant en ÒenceÓ sont probablement des noms. Cette rgle de dŽfaut sÕapplique sur toutes les entrŽes du dictionnaire. Le test porte sur la terminaison du lemme. La modification porte sur le trait category de lÕentrŽe. (define-default-rule nominal-ending-ence :applies-on (@entry french-entry) :test (let ((decor (root entry))) (suffix? (get-value decor.graphic-form) "ence")) :do (assign decor.category 'nc)) Notre second exemple de rgle de valeur par dŽfaut permet de donner une valeur au trait deriv-kind d'une unitŽ sŽmantique en s'appuyant sur le suffixe du lemme et sur sa catŽgorie. Ainsi, un nom dont le lemme se termine par ÒementÓ est probablement un nom dŽrivŽ dÕun verbe en tant que nom dÕaction. Cette rgle est complexe ˆ Žcrire car elle manipule une entrŽe (afin de tester le lemme) et une des unitŽs sŽmantiques qui lui sont associŽes. Les unitŽs sŽmantiques sont les feuilles de lÕarbre dont la racine est dŽcorŽe par le lemme et la catŽgorie. Ces feuilles apparaissent ˆ une profondeur variable dans les diffŽrentes entrŽes. Aussi, le patron doit sŽlectionner une feuille de lÕarbre qui se trouve ˆ une profondeur quelconque. Pour cela, nous dŽfinissons un patron sur les arbres french-entry. Ce patron impose une contrainte sur la dŽcoration de la racine (une dŽcoration est indiquŽe entre accoladesÊ: Ò{patron-sur-décoration}Ó). Il sŽlectionne aussi une des racines de lÕarbre french-entry. Pour cela, nous utilisons les notations suivantesÊ: - @idÊ: dŽnote un arbre, Pour la seconde Žtape, le point de dŽpart est lÕune des unitŽs du lexique dÕexport. Cette Žtape a pour but le remplissage de chacune des unitŽs du lexique dÕexport. <entry> <lemma> composition </lemma> <category> nc </category> <USem> <derivation kind = nresult> composer </derivation> ... </USem> </entry> Base Lexicale SUBLIM ƒtape 2Ê: remplissage des unitŽs du lexique d'export R UnitŽ du lexique d'export <entry> <lemma> composition </lemma> <category> nc </category> <USem> </USem> </entry> R UnitŽ remplie du lexique d'export Figure 5.9Ê: Seconde Žtape du processus dÕexport Ainsi, lorsquÕon dŽfinit ces rgles de remplissage, on se situe dans le contexte dÕune seule unitŽ du lexique dÕexport. De plus, on se place dans le contexte dÕun ŽlŽment bien particulier dans la structure de cette unitŽ. Ces rgles sont associŽes ˆ chaque ŽlŽment de la structure dÕexport. Il est possible de disposer dÕune interface graphique pour dŽfinir les rgles dÕexport. Cette interface permettra de visualiser la structure cible. Ainsi, on peut associer ˆ chaque ŽlŽment de la structure cible une mŽthode rŽgissant la crŽation et la forme de la valeur associŽe. 6.2. Exemple d’export La structure de dŽpart est la structure dŽfinie dans la section 4 de ce chapitre. La structure cible est dŽfinie par la DTD SGML suivanteÊ: <!-- GETA-IMAG, 1994, export.dtd v.1.0 23/08/94 --> <!-- DTD d'une structure d'export --> <!--Un dictionnaire est une liste d'entrées. On lui associe aussi une langue--> <!ELEMENT Dict - - entry* > <!ATTLIST Dict language CDATA #REQUIRED > <!-- Une entrée est composée d'un lemme et d'une catégorie. --> <!-- Elle est associée à une liste de sens --> <!ELEMENT entry - - Usem* > <!ATTLIST entry lemma CDATA #REQUIRED category %cat #REQUIRED > <!ENTITY % cat "nc|np|vt|vi|adj|card|deict|repr|sub|coord"> <!-- Usem code une unité sémantique. --> <!ELEMENT Usem - - (derivation & aux & reciproque) > <!-- La dérivation donne le lemme source. 2 attributs sont définis --> <!-- pour coder la catégorie du lemme source et le type de dérivation. --> <!ELEMENT derivation - - CDATA > <!ATTLIST derivation source_cat %cat #REQUIRED kind %deriv_kind #REQUIRED > <!ENTITY % deriv_kind "naction|nresult|nlieu|nagent|ninstr|ncond|ncollect| nperson|nabst|adject|adjpass|adjpotpas|adjresact| adjrelat|adjqual|verbe"> <!ELEMENT aux - - EMPTY > <!ATTLIST aux value %auxiliary #REQUIRED > <!ENTITY % auxiliary "être|avoir" > <!ELEMENT reciproque - - EMPTY > <!ATTLIST reciproque value %recipr #REQUIRED > <!ENTITY % auxiliary "arg0_arg1|arg1_arg2" > Le but de la procŽdure que nous illustrons ici est dÕexporter lÕensemble des noms et verbes dÕun dictionnaire franais dans la structure SGML dŽfinie ci-dessus. La premire Žtape de cette procŽdure consiste ˆ crŽer les unitŽs du lexique dÕexport. Ces unitŽs sont dŽsignŽes par leur lemme et leur catŽgorie. Ces deux attributs constituent lÕensemble minimal permettant de dŽsigner une entrŽe de manire non ambigu‘. La crŽation des unitŽs du lexique source est faite selon les rgles dŽfinies parÊ: create-export-unit name :when pattern :if boolean-expression :create creation :context variable-list o name identifie la rgle de crŽation. Le mot-clŽ when prend pour valeur un patron. Cette rgle ne sera appelŽe que si une unitŽ du lexique sÕapparie avec lui. Le mot-clŽ if prend pour valeur une condition portant sur les variables dŽfinies dans le patron. La crŽation nÕaura lieu que si cette condition est vŽrifiŽe. Le mot-clŽ creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette expression, on donne les ŽlŽment SGML qui sont ˆ crŽer. Les attributs SGML sont notŽs entre accolades ˆ la suite de lՎlŽment qui les porte et les valeurs sont notŽes sous forme de symboles ou de cha”nes de caractres aprs les ŽlŽments et leurs Žventuels attributs. Les sous- ŽlŽments sont notŽs entre parenthses. Le mot-clŽ context indique le contexte qui sera conservŽ pour lՎtape suivante (remplissage). LÕattribut creation spŽcifie les valeurs qui identifient de manire unique une unitŽ du lexique dÕexport. Si cette unitŽ existe dŽjˆ, la crŽation nÕa pas lieu, mais le contexte de la rgle sÕajoute au contexte de lÕunitŽ dŽjˆ existante. La crŽation des unitŽs nominales se fait sans problme, puisquÕil y a correspondance directe entre les unitŽs nominales des deux lexiques. La rgle de crŽation spŽcifie donc que, pour chaque unitŽ nominale du lexique source, on crŽe une unitŽ dans le lexique dÕexportÊ: (create-export-unit noun-creation :when (@entry french-entry:(@- {[category : @cat (?or nc np), graphic-form : @lemma]} @*-)) :create (entry {lemma = @lemma, category = @cat}) :context (@entry)) La crŽation des unitŽs verbales est plus complexe. En effet, on ne crŽera un verbe transitif que si lÕune des unitŽs sŽmantiques dÕun verbe a une valence val1 nÕayant que la valeur nom. Un verbe intransitif sera crŽŽ si lÕune des unitŽs sŽmantiques du verbe source considŽrŽ a une valence val1 ayant une autre valeur que nom. Ces entrŽes ne sont crŽŽes que si elles nÕexistent pas encore. (create-export-unit vt-creation :when (@entry french-entry:(@- {[category : @cat vb, graphic-form : @lemma]} @?-.@!Usem)) :if (equal (get-value Usem.val1) '(nom)) :create (entry {lemma = @lemma, category = vt}) :context (@entry @Usem)) (create-export-unit vi-creation :when (french-entry:(@- {[category : @cat vb, graphic-form : @lemma]} @?-.@!Usem)) :if (not (equal (get-value Usem.val1) '(nom))) :create (entry {lemma = @lemma, category = vi}) :context (@entry @Usem)) Une fois que ces unitŽs sont crŽŽes, il faut les complŽter, ˆ partir des informations prŽsentes dans la base. Pour cela, on associe ˆ chaque ŽlŽment de la structure dÕexport, un ensemble de rgles qui calculeront sa valeur, en se rŽfŽrant au contenu de la base lexicale. Certains ŽlŽments doivent tre crŽŽs avant dՐtre remplis. On aura donc, localement ˆ une unitŽ du lexique export, un ensemble de rgles de crŽation dՎlŽments. Ces rgles sont dŽfinies gr‰ce ˆÊ: create-export-element name :on pattern :when pattern :if boolean-expression :create creation :context variable-list o name est le nom de la rgle. Le mot-clŽ on prend pour valeur un patron qui sÕappliquera sur lÕunitŽ dÕexport en cours de traitement. Ce patron sert ˆ restreindre les unitŽs sur laquelle porte la rgle, aussi bien quՈ nommer des variables utilisŽes par la suite. Le mot-clŽ when prend pour valeur un patron qui sÕappliquera sur le contexte de lÕunitŽ du lexique dÕexport en cours de traitement. Cette rgle ne sera appelŽe que si une unitŽ du contexte sÕapparie avec le patron. Le mot-clŽ if prend pour valeur une condition portant sur les variables dŽfinies dans le patron. La crŽation nÕaura lieu que si cette condition est vŽrifiŽe. Le mot-clŽ creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette expression, on donne les ŽlŽment SGML qui sont ˆ crŽer. Les attributs SGML sont notŽs entre accolades ˆ la suite de lՎlŽment qui les porte et les valeurs sont notŽes sous forme de symboles ou de cha”nes de caractres aprs les ŽlŽments et leurs Žventuels attributs. Les sous- ŽlŽments sont notŽs entre parenthses. Le mot-clŽ context indique le contexte qui sera conservŽ pour le remplissage des sous- ŽlŽments de la structure cible. Le premier ŽlŽment ˆ remplir est lՎlŽment Usem. On associe donc ˆ lՎlŽment Usem certaines rgles de crŽation dՎlŽments. (create-export-element Usem-filling :on (entry {lemma = @lemma, category = nc}) :when (@entry french-entry:(@- {[category : @cat nc, graphic-form : @lemma]} Spécialisation à l’interlingue par acceptions Introduction Le systme SUBLIM prŽcŽdemment dŽcrit est gŽnŽrique. Il nÕa donc pas dÕa priori, ni sur lÕarchitecture lexicale dÕune base, ni sur lÕarchitecture linguistique de ses dictionnaires. On peut donc lÕutiliser pour crŽer des instances de bases lexicales ayant des fondements thŽoriques diffŽrents. En contrepartie, il ne peut fournir quÕune aide gŽnŽrale pour la gestion de bases lexicales, quÕelles soient monolingues, multilingues par transfert, ou interlingues. Cependant, son implŽmentation par objets le rend susceptible dՐtre spŽcialisŽ pour la gestion de bases ayant une architecture lexicale particulire. Les recherches sur la traduction automatique fondŽe sur le dialogue [Blanchon 1992, Blanchon 1994, Boitet 1990b, Boitet & Blanchon 1993] se dŽveloppent depuis quelques annŽes. Dans cette approche, on demande ˆ lÕauteur dÕinteragir pour aider lÕordinateur ˆ lever les ambigu•tŽs de son texte. Cette interaction nÕa lieu quÕune fois pour le texte source, quel que soit le nombre de langues vers lesquelles on veut traduire. LÕidŽe de base est que lÕauteur acceptera de passer du temps ˆ cette interaction sÕil obtient des traductions dans plusieurs langues cibles et si le dialogue est assez ergonomique et comprŽhensible. Dans le cadre de lÕUnion EuropŽenne, qui reconna”t 9 langues officielles, les besoins en bases lexicales multilingues regroupant (au moins) ces 9 langues sont cruciaux. Il est donc important de dŽvelopper des bases lexicales multilingues regroupant de nombreuses langues. Dans ce contexte, une approche interlingue prend tout son sens. Comme nous lÕavons signalŽ dans la premire partie, les approches interlingues sont souvent confondues avec les approches ÒontologiquesÓ (fondŽes sur la connaissance du ou des domaines de discours). Or, une approche fondŽe sur la connaissance rend difficile la gestion dÕune base lexicale. En effet, aux difficultŽs inhŽrentes aux diffŽrentes langues de la base sÕajoutent les difficultŽs propres ˆ la reprŽsentation des connaissances (description du sens, classification des conceptsÉ). Nous prŽfŽrons une approche plus linguistique, dŽfendue aussi bien par des linguistes ÒpursÓ (comme Igor MelÕcÿuk [MelÕcÿuk 1984, MelÕcÿuk 1988, MelÕcÿuk 1992]) que par des spŽcialistes 122 SpŽcialisation ˆ l interlingue par acceptions Langue L1 Langue L2 Langue L3 Langue L4 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idŽales 1.1.2. Relations entre acceptions HŽlas, ces conditions ne sont jamais rŽalisŽes, et les problmes de raffinement de concepts entre diffŽrentes langues ne peut tre ignorŽs. Les exemples sont nombreux. Par exemple, entre le franais et lÕanglais, on peut noter la diffŽrence de raffinement entre les acceptions de rivire et fleuve, dÕune part et celle de river, dÕautre part. En franais, on fait une diffŽrence entre les cours dÕeau se jetant dans la mer et les autres (fleuve/rivire), alors quÕen anglais, on ne la fait pas (river). Les acceptions correspondantes nՎtant pas sŽmantiquement identiques, nous obtiendrons une organisation illustrŽe en figure 6.2. franais anglais rivire fleuve river Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river Pour que le lien entre acceptions soit conservŽ (afin de pouvoir traduire ces termes), nous utiliserons un lien entre acceptions interlingues nommŽ lien de raffinement. Ainsi, lÕorganisation obtenue est illustrŽe en figure 6.3. franais anglais rivire fleuve river Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement Dans cet exemple, le lien de raffinement correspond ˆ un raffinement sŽmantique. En effet, la sŽmantique de lÕacception river correspond ˆ lÕunion des sŽmantiques des acceptions rivire L approche par acceptions 123 et fleuve. Ce nÕest pas toujours le cas. En effet, des problmes contrastifs dÕorigine non sŽmantique peuvent se prŽsenter. Prenons lÕexemple en chinois de (goøngzu˜). Certains dictionnaires (comme le Òdictionnaire franais de la langue chinoiseÓ [Ricci 1986]) associent deux acceptions ˆ cette entrŽeÊ: - travailler (de ses mains), travail manuel; - travailler (en gŽnŽral), travail, occupation, besogne. Comme nous le voyons, ces acceptions ont toutes deux ˆ la fois un aspect nominal et un aspect verbal. Si on veut les relier aux acceptions franaises correspondantes, on doit choisir entre lÕacception correspondante de travail (nominal) ou lÕacception correspondante de travailler (verbal). On a donc bien un problme contrastif ˆ rŽsoudre. Les solutions ˆ ce problme sont les suivantesÊ: - On modifie le dictionnaire chinoisÊ: cette solution ne doit tre envisagŽe que si lÕon considre que lÕentrŽe, telle quÕelle appara”t dans le dictionnaire monolingue, est erronŽe. - On lie lÕacception chinoise arbitrairement ˆ lÕune des acceptions du franais (supposons lÕacception verbale)Ê: on ne pourra donc traduire quՈ condition de disposer de relations de dŽrivation permettant de nominaliser lÕacception franaise lorsque cela est nŽcessaire. Chaque dictionnaire monolingue est indŽpendant des autres langues prŽsentes dans la base. On ne peut donc envisager la premire solution que dans le cas o lÕon a dŽtectŽ une erreur, ce qui nÕest pas le cas gŽnŽral. LÕapproche par acceptions ne peut faire des hypothses a priori sur les informations que lÕon trouve dans les dictionnaires monolingues. On ne peut donc pas prŽsupposer lÕexistence dÕun lien de dŽrivation dans ces dictionnaires. Aussi, la solution de ce problme passe, dans le cas gŽnŽral, par le lien de raffinement. On obtiendra donc la configuration indiquŽe dans la figure 6.4. franais chinois travailler travail Figure 6.4Ê: Un exemple de lien de raffinement motivŽ par un phŽnomne contrastif non sŽmantique Dans cette configuration, le lien de raffinement a une interprŽtation linguistique et non sŽmantique. 1.2. Concepts Nous lÕavons vu, les unitŽs du lexique interlingue sont des acceptions, et non des ÒconceptsÓ, tels quÕon les rencontre en gŽnŽral dans les bases lexicales fondŽes sur la connaissance. Mais la diffŽrence entre les deux approches ne rŽside pas uniquement dans leur vocabulaire. LÕapproche par connaissances se base sur lÕhypothse quÕil existe un niveau sŽmantique universel, indŽpendant des langues, et que les langues sont des reflets de ce niveau. 124 SpŽcialisation ˆ l interlingue par acceptions Ainsi, une base lexicale interlingue fondŽe sur la connaissance part dÕun ensemble de dictionnaires de languesÊ: Langue 1 Langue 2 Langue 3 Figure 6.5Ê: Un ensemble de dictionnaires monolingues Ë cet ensemble de dictionnaire, on ajoute un nouveau dictionnaire reprŽsentant un reflet du niveau sŽmantique universel (la connaissance)Ê: Figure 6.6Ê: Une base de connaissances Le but est donc de relier les unitŽs des diffŽrentes langues aux unitŽs de la base de connaissancesÊ: Langue 1 Langue 2 Langue 3 Figure 6.7Ê: Une base lexicale fondŽe sur la connaissance Dans cette approche, la base interlingue est une modŽlisation du monde, suffisante pour permettre des calculs sur la sŽmantique des concepts manipulŽs dans le domaine. Selon lÕapproche par connaissances, le dictionnaire interlingue est indŽpendant de lÕensemble des langues de la base. En thŽorie, lÕajout dÕune langue ne devrait pas modifier son contenu. LÕexemple le plus reprŽsentatif de ce type dÕapproche a ŽtŽ donnŽ par le projet KBMT [Goodman & Nirenburg 1991] dŽveloppŽ au Center for Machine Translation de Carnegie Mellon University. Ce projet utilisait une reprŽsentation du monde des ordinateurs personnels (appelŽe ontologie), et un outil dÕacquisition et de maintenance des connaissances nommŽ ONTOS. Le dictionnaire de concepts de KBMT est une reprŽsentation conceptuelle, indŽpendante des langues, des interactions entre un ordinateur personnel et son utilisateur. Cette ontologie est reprŽsentŽe comme un rŽseau interconnectŽ et hierarchisŽ de frames, chacune reprŽsentant un concept en ONTOS. L approche par acceptions 127 1.3.3. MŽthodologie de crŽation Le dictionnaire dÕacceptions interlingues est un moyen de lier les diffŽrentes unitŽs des dictionnaires monolingues. La crŽation de ce dictionnaire ne se base pas sur une reprŽsentation du monde. Il nous faut donc crŽer une mŽthodologie de crŽation et de gestion des unitŽs de ce dictionnaire. La mŽthodologie que nous proposons se base sur la dŽfinition de liens bilingues. La construction dÕune base lexicale multilingue se passe en deux temps. Dans un premier temps, le lexicographe dŽfinit les informations monolingues pour un certain nombre dÕentrŽes du dictionnaire. Ensuite, il donne diffŽrentes traductions pour ces entrŽes. La premire Žtape dans la construction du dictionnaire dÕacceptions est la crŽation des acceptions interlingues correspondant aux acceptions monolingues dÕun dictionnaire particulier (voir figure 6.9.). Ce dictionnaire particulier sera appelŽ dictionnaire de rŽfŽrence. franais anglais allemand acceptions copie des acceptions du dictionnaire de rŽfŽrence dans le dictionnaire d'acceptions. Figure 6.9Ê: CrŽation du dictionnaire dÕacceptions, premire Žtape. On relie ensuite les acceptions monolingues des autres dictionnaires aux acceptions interlingues ainsi crŽŽes. Pour cela, un lexicographe fournit des informations bilingues reliant les unitŽs de deux dictionnaires monolingues. LÕune au moins des unitŽs liŽes doit tre auparavant associŽe ˆ une acception interlingue. Prenons lÕexemple dÕune base lexicale franais-anglais-allemand, et choisissons le dictionnaire anglais comme dictionnaire de rŽfŽrence. LÕensemble des acceptions du dictionnaire anglais correspond donc ˆ des acceptions interlingues (voir figure 6.9.). Le lexicographe donne une traduction de lÕacception courante du mot franais rivire en anglais. Il donne donc le mot anglais river comme traduction de rivire. Le systme lui demande de choisir parmi les acceptions de river celle qui correspond au sens de rivire. Le systme Žtablit donc un lien entre lÕacception franaise de rivire et lÕacception interlingue correspondant ˆ lÕacception anglaise de river. Ainsi, lÕinformation bilingue donnŽe par le linguiste a permis dՎtablir un lien interlingue. Aprs cette Žtape, la base de donnŽes prŽsente la structure illustrŽe par la figure 6.10. 128 SpŽcialisation ˆ l interlingue par acceptions franais anglais acceptions rivire river #river Figure 6.10Ê: ƒtat de la base lexicale aprs avoir liŽ rivire, avant dÕavoir liŽ fleuve Cette structure, bien quÕerronŽe (puisque les acceptions de rivire et river ne recouvrent pas la mme sŽmantique), est cohŽrente avec le contenu de la base. En effet, tant que le mot fleuve nÕa pas ŽtŽ introduit dans le dictionnaire ou liŽ ˆ lÕinterlingue, il nÕy a aucune raison de scinder lÕacception associŽe ˆ rivire et river, puisque ces mots sont toujours traduction lÕun de lÕautre. Ce problme contrastif appara”tra ˆ lÕintroduction du mot franais fleuve. Lorsque le lexicographe indique que fleuve se traduit par river, le systme devra dŽtecter que deux acceptions franaises sont associŽes ˆ la mme acception interlingue. Cela nÕest possible que si ces deux acceptions sont parfaitement synonymes. franais anglais acceptions rivire river #river fleuve Figure 6.11Ê: Configuration illicite dŽtectŽe par le systme Or, les acceptions de rivire et de fleuve ne recouvrent pas le mme sens (en fait, les cas de synonymie parfaite son rares). Le systme doit dŽtecter ce genre de configuration et demander au lexicographe de rŽsoudre le problme. Dans cet exemple, il y a quatre solutions possiblesÊ: franais anglais acceptions rivire river #river fleuve #rivire franais anglais acceptions rivire river #river fleuve #rivire #fleuve franais anglais acceptions rivire river #river fleuve franais anglais acceptions rivire river #river fleuve 1) 2) 4)3) #fleuve Figure 6.12Ê: Les diffŽrentes solutions aux problmes contrastifs. L approche par acceptions 129 Dans lÕexemple considŽrŽ, les sens de river, rivire et fleuve sont distincts deux ˆ deux. Le systme crŽera donc deux nouvelles acceptions interlingues correspondant ˆ rivire et fleuve, et reliŽes par un lien de raffinement ˆ lÕacception de river (solution n¡ 4). 2. Acceptions et fonctions lexicales Notre approche est trs bien adaptŽe ˆ lÕutilisation de fonctions lexico-sŽmantiques dans les dictionnaires monolingues, aussi bien que dans les dictionnaires bilingues. Le principe des fonctions lexicales dŽveloppŽes par Igor MelÕcÿuk ˆ Moscou puis ˆ MontrŽal repose sur la constatation que certains mots dans un texte nÕont pas une valeur dŽnominative, mais ne sont prŽsents que pour modifier dÕautres mots proches. Ainsi, lorsque lÕon parle dÕune Òforte fivreÓ, le mot forte appara”t comme intensifieur de fivre. Pour pouvoir traduire un texte, il faut tre capable dÕidentifier la fonction de ces mots. En effet, Òforte fivreÓ ne peut tre traduit par Òstrong feverÓ, mais par Òhigh feverÓ. On traduit donc la fonction du terme, plut™t que le terme lui-mme. Le Dictionnaire Explicatif et Combinatoire (DEC) indique que lÕintensifieur de fivre est forte. Cette indication est donnŽe sous forme dÕune fonction (Magn), appliquŽe ˆ fivre et dont le rŽsultat est forte. Igor MelÕcÿuk et ses collgues ont recensŽ 52 fonctions lexicales. Certaines de ces fonctions peuvent mme tre modifiŽes par lÕajout dÕindices ou dÕexposants (pris parmi un ensemble fini). Ces fonctions lexicales ont ŽtŽ ŽtudiŽes sur de nombreuses langues (russe, polonais, franais, anglais, espagnol, allemand, et moins systŽmatiquement sur le japonais, tatare, hongrois, chinois) et elles apparaissent actuellement comme universelles. LÕapproche par acceptions utilise les sens de mots. Elle manipule donc les mmes unitŽs que les dictionnaires utilisant les fonctions lexico-sŽmantiques. De plus, les fonctions lexicales sont des liens formant un rŽseau reliant les unitŽs dÕun dictionnaire. LÕapproche par acceptions passe par lÕutilisation dÕau moins un lien entre unitŽs du dictionnaireÊ: le lien de raffinement. Cette approche ne restreint pas les informations linguistiques des dictionnaires monolingues. NŽanmoins, elle est propice ˆ lÕutilisation de fonctions lexicales. Les fonctions lexicales dŽfinies par Igor MelÕcÿuk et ses collgues sont instanciŽes au niveau des dictionnaires monolingues. Par lÕutilisation dÕun systme de bases lexicales fondŽes sur une approche par acceptions, il est possible dՎtudier les moyens permettant de reporter et/ou de reflŽter certaines de ces fonctions lexico-sŽmantiques au niveau du lexique interlingue. 3. PARAX, une expérimentation Afin dÕexpŽrimenter lÕapproche par acceptions, ƒtienne Blanc a construit une maquette de base lexicale interlingue par acceptions. Cette maquette a ŽtŽ implŽmentŽe avec HyperCardª sur Macintoshª, et une version a ŽtŽ portŽe sur le gestionnaire de bases de donnŽes 4Dª. Dans ce paragraphe, nous prŽsentons la version HyperCard de cette maquette. 132 SpŽcialisation ˆ l interlingue par acceptions On procde de la mme manire pour obtenir les correspondants des sous-acceptions. Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois Enfin, en cliquant sur MONOPIVOT pour lÕacception cible considŽrŽe, on arrive au dictionnaire monolingue de la langue cible. Figure 6.17Ê: Une entrŽe chinoise correspondant ˆ lÕacception Ò#acheter_commerceÓ L approche par acceptions 133 3.3. PARAX et les fonctions lexicales Chaque acception monolingue est associŽe ˆ un ensemble dÕexemples et de fonctions lexicales telles quÕelles apparaissent dans le Dictionnaire Explicatif et Combinatoire dÕIgor MelÕcÿuk. On obtient les exemples en cliquant sur EXEMPLE et les fonctions lexicales en cliquant sur FLEXICALES. Figure 6.18Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_commerceÓ Figure 6.19Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_corrompreÓ 134 SpŽcialisation ˆ l interlingue par acceptions 3.4. Problèmes et limitations LÕutilisation du logiciel HyperCard ne permettra pas la construction de bases lexicales de grande taille, mme si une expŽrimentation dans un logiciel de base de donnŽes commerciale (4D) nÕa pas permis de conclure ˆ la supŽrioritŽ dÕun tel systme. La crŽation de nouvelles acceptions nÕest pas pilotŽe par le systme, mais reste ˆ lÕinitiative du lexicographe. Cette mŽthodologie trs ouverte oblige le linguiste ˆ se poser de nombreuses questions lors dÕune telle crŽation. En consŽquence, les motivations de cette crŽation sont plus souvent dus ˆ un raffinement naturel du linguiste (qui raisonne en termes de concepts) quÕa des besoin de codage dÕun problme contrastif. Avec une plate-forme de dŽveloppement aussi gŽnŽrale, il est toujours possible de rajouter des fonctionnalitŽs permettant lÕindexage dÕune entrŽe, la crŽation dÕune acception, son renommage, et la crŽation dÕun lien lexical. Par contre, il est difficile dÕoffrir une interface diffŽrente de celle prŽsentŽe plus haut. En particulier, il est impossible dÕoffrir au linguiste une vue graphique des diffŽrents rŽseaux lexicaux dŽfinis par les fonctions lexicales de MelÕcÿuk. Pourtant, une telle visualisation globale est utile pour la vŽrification des informations lexicales. Notons quÕun systme se basant sur SUBLIM doit dŽfinir un outil de visualisation de graphe. En effet, une telle visualisation nÕest pas trs aisŽe ˆ dŽfinir en GRIF. Enfin, ˆ cause de lÕabsence dÕun mŽcanisme pratique de manipulation de structures complexes, HyperCard ne permet pas la dŽfinition et la vŽrification efficace de contraintes de cohŽrence. HyperCard a donc permis de dŽvelopper rapidement une maquette de base lexicale interlingue par acceptions. Il a aussi permis dÕexpŽrimenter les problmes de maintenance rencontrŽs dans cette approche, et dÕen dŽduire les comportements gŽnŽraux souhaitables dans un systme gŽnŽrique de gestion de bases lexicales interlingues par acceptions. 4. Conclusion de l’étude LÕapproche par acceptions rŽgit lÕarchitecture lexicale et lÕorganisation des diffŽrentes unitŽs du lexique. Elle nÕimpose pas de restriction sur les informations linguistiques associŽes aux unitŽs de dictionnaires. On peut donc la considŽrer comme un cadre gŽnŽral dans lequel le linguiste est libre dÕimplŽmenter sa base lexicale, ˆ condition de satisfaire ˆ la condition suivanteÊ: - les unitŽs du dictionnaire sont des acceptions. Ë cette condition, le linguiste dispose donc de toute la flexibilitŽ de SUBLIM pour le codage des ses informations linguistiques. De plus, il est possible dÕassocier des informations aux acceptions interlingues. Enfin, lÕapproche par acceptions nÕest donc pas antinomique dÕune information linguistique interlingue. En particulier, on peut imaginer de ÒglisserÓ vers lÕapproche conceptuelle, dans le cas de bases restreintes/dŽdiŽes ˆ des langues de spŽcialitŽ. Enfin, nous pouvons dŽgager trois aspect gŽnŽriques ˆ lÕapproche interlingue par acceptionsÊ: - quelle que soit la forme de lÕinformation linguistique contenue dans les dictionnaires, les unitŽs des lexiques monolingues et bilingues sont des acceptionsÊ; VII. Implémentation 1. L’acception, une structure logique supplémentaire La premire partie de la spŽcialisation de SUBLIM vers NADIA porte sur son noyau. Afin de pouvoir gŽrer des acceptions monolingues et interlingues, on introduit deux nouvelles structures de baseÊ: monolingual-acception et interlingual-acception. 1.1. Acceptions monolingues LÕacception monolingue est une structure pouvant accueillir nÕimporte quelle information linguistique. De plus, elle doit contenir un lien vers une et une seule acception interlingue se trouvant dans le dictionnaire interlingue. Nous la dŽfinissons comme une sous-classe de la classe acception, dŽfinie comme un agrŽgat avec un seul trait contenant nÕimporte quelle information linguistique. Ainsi, la dŽfinition en DƒCOR de la nouvelle structure de base est la suivanteÊ: (define! acception :type (:is-a :aggregated) (linguistic-information T)) (define! link-to-interlingua :type (:is-a 'link) (target (:type 'interlingual-acception))) (define! monolingual-acception :type (:is-a 'acception ) (interlingual-acception 'link-to-interlingua)) Pour dŽfinir une classe linguistique basŽe sur la structure d'acception, on utilise l'expression suivanteÊ: (monolingual-acception keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrents ŽlŽments de lÕacception monolingue. Le mot-clŽ possible estÊ: :information class spŽcifie la classe acceptable pour lÕinformation linguistique associŽe ˆ l'acception. Ainsi, la dŽfinitionÊ: (define-linguistic-class french-acception (monolingual-acception :information (feature-structure (id string) (definition string)))) se rŽŽcrit enÊ: (define! french-acception :type (:is-a monolingual-acception) (linguistic-information (define! nil :type (:is-a 'feature-structure) (id (:type 'string)) (definition (:type 'string)))))) On peut ainsi dŽfinir une acception sans ce soucier des liens quÕelle entretient avec les unitŽs du dictionnaire interlingue. 1.2. Acceptions interlingues LÕacception interlingue peut, elle aussi, accueillir nÕimporte quelle information linguistique ou sŽmantique. De plus, elle doit contenir un ensemble de liens vers des acceptions monolingues se trouvant dans les diffŽrents dictionnaires interlingues. Ainsi, la dŽfinition en DƒCOR de la nouvelle structure de base passe par la dŽfinition d'un lien vers les acceptions monolingues. Cette dŽfinition est la suivanteÊ: (define! link-to-monolingual-acception :type (:is-a 'link) (target (:type 'monolingual-acception)) (source (:type 'interlingual-acception))) (define! interlingual-acception :type (:is-a 'acception) (monolingual-acceptions (define! nil :type (:is-a :list) (:range 1) (:allowed-types 'link-to-monolingual-acception))) (close-acceptions (define! nil :type (:is-a :list) (:allowed-types 'refinement-link))) (explanation string)) On remarque dans cette dŽfinition quÕune acception interlingue contient une explication sous forme dÕune cha”ne de caractres (ce qui est nŽcessaire pour une bonne gestion de la base). Cette dŽfinition utilise la classe 'refinement-link dŽfinie plus bas. Pour dŽfinir une structure basŽe sur la structure d'acception interlingue, on utilise lÕexpression suivanteÊ: (interlingual-acception keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de dŽcoration des diffŽrents ŽlŽments de lÕacception interlingue. Les mots-clŽs possibles sontÊ: :information class spŽcifie la classe acceptable pour lÕinformation linguistique associŽe ˆ l'acception. :refinement-link class* spŽcifie la (ou les) classe(s) de lien de raffinement (par dŽfaut, on aura la classe 'refinement-link). :link-to-monolingual-acception class* spŽcifie la (ou les) classe(s) de lien vers les dictionnaires monolingues. On remarque quÕil est possible de modifier les liens de raffinement afin de leur associer une information (pondŽrationÉ). Il est aussi possible de changer la classe des liens vers les acceptions monolingues afin dÕy ajouter une information quelconque. Ainsi, la dŽfinitionÊ: (define-linguistic-class my-acception (interlingual-acception :information (feature-structure (id string) (definition string)) :refinement-link 'my-link)) se rŽŽcrit enÊ: (define! my-acception :type (:is-a 'interlingual-acception) (linguistic-information (define! nil :type (:is-a 'feature-structure) (id (:type 'string)) (definition (:type 'string))))) (close-acceptions (define! nil :type (:is-a :list) (:allowed-types '(my-link))))) 1.3. Dictionnaires d’acceptions Le noyau de SUBLIM comprend aussi des ŽlŽments dictionnaires qui sont les ŽlŽments de base de la dŽfinition dÕune base lexicale. NADIA introduit donc une nouvelle classe de dictionnaireÊ: le dictionnaire interlingue par acceptions. La dŽfinition dÕun dictionnaire interlingue par acceptions se fait gr‰ce ˆ la fonctionÊ: define-acception-dictionary name Keywords* o name est un symbole dŽfinissant de manire unique le dictionnaire pour lÕensemble de la base. :owner string spŽcifie le propriŽtaire du dictionnaire. :links list spŽcifie la liste des dictionnaires liŽs par le dictionnaire interlingue. Cette liste est donnŽe sous forme de liste de symboles, chacun correspondant ˆ un dictionnaire dŽfini par ailleurs. Cette dŽfinition se traduit par la crŽation dÕune instance de la classe acception-dictionary. La classe acception-dictionary dŽfinie dans Nadia comprend des mŽthodes spŽcialisŽes pour la crŽation et la gestion des acceptions interlingues. 2. Le lien lexical Comme nous lÕavons indiquŽ dans le chapitre prŽcŽdent, lÕapproche par acceptions se prte bien ˆ lÕutilisation de liens lexicaux analogues aux fonctions lexicales. 2.1. Lien général Comme dans SUBLIM, un lien a une source, une cible et une Žtiquette. Dans le cas dÕun lien lexical, la source et la cible sont des acceptions. Pour le lien gŽnŽral, on ne fait aucune hypothse sur lÕinformation portŽe par lՎtiquette. Ainsi, ce lien lexical est une nouvelle structure de base dŽfinie comme suitÊ: (define! lexical-link :type (:is-a 'link) (target (:type 'acception)) (source (:type 'acception)) (label T)) Pour dŽfinir une structure basŽe sur la structure de lien lexical, on utilise lÕexpression suivanteÊ: (lexical-link keywords*) o les mots-clŽs restreignent les classes qui peuvent tre valeurs de l'Žtiquette du lien. Les mots-clŽs possibles sontÊ: :label class spŽcifie la classe acceptable pour l'Žtiquette du lien. :target class spŽcifie la classe de la cible ('acception par dŽfaut). :source class spŽcifie la classe de la source ('acception par dŽfaut). :verifies (let ((source (corresponding-acception source-acception)) (target (corresponding-acception target-acception))) (if (and source target) (exist? (french::lexical-function {lexical-function-name [flname : 'Syn]} [from: @source-acception, to: @target-acception])) T)) :error-message "Un synonyme interlingue doit être reflété dans le dictionnaire français" :level :warning) On ne peut avoir de cycle dans le sous-rŽseau des relations de synonymie englobante Syn∩ (voir figure 7.2.)Ê: Syn∩ Syn∩ Syn∩Syn∩ Syn∩ Figure 7.2Ê: Configuration illicite dans le sous-rŽseau de synonymie englobante Syn∩ Ainsi, dans chaque dictionnaire, il faut pouvoir spŽcifier que la relation de synonymie englobante Syn∩ n'admet pas de cycle. Cette relation permet de trouver des problmes potentiels dans le rŽseau lexical d'une langue particulire. Lorsqu'une relation est donnŽe dans diffŽrents dictionnaires, elle forme un rŽseau qui recouvre un ensemble de dictionnaires (voire la totalitŽ de la base). Dans ce cas, il est intŽressant de vŽrifier la cohŽrence entre les relations donnŽes sur les diffŽrents dictionnaires. Dans ce cas, la contrainte dŽfinie plus haut correspond ˆ la dŽtection d'un schŽma illicite ayant la forme donnŽe dans la figure 7.3. Syn∩ Langue L Acceptions Syn∩ Syn∩ Figure 7.3Ê: Configuration illicite dans le sous rŽseau lexical interdictionnaire de synonymie englobante Syn∩ Ces contraintes portent sur l'ensemble d'un rŽseau lexical. On ne peut donc utiliser de manire efficace le moteur de vŽrification proposŽ par SUBLIM. On dŽfinit donc un moteur spŽcialisŽ dans la vŽrification de cohŽrence sur des rŽseaux lexicaux. 3.2. Déclaration d’une contrainte de cohérence sur le réseau lexical La plupart des schŽmas ˆ dŽtecter passe par la dŽtection dÕun cycle dans un rŽseau lexical complexe. Cette dŽtection de cycle ne peut se faire quÕavec des liens orientŽs. Par contre, certains liens orientŽs forment des rŽseaux o les cycles sont valides. Aussi, il faut donner au linguiste un moyen dÕexprimer quels sont les liens pour lesquels la cohŽrence doit tre vŽrifiŽe. Ces dŽclarations de contraintes comportent 2 parties principalesÊ: - la dŽclaration du rŽseau lexical sur lequel portent les contraintes, - la propriŽtŽ qui doit tre vŽrifiŽe par le rŽseau ainsi dŽclarŽ. La dŽclaration dÕun rŽseau lexical passe par la dŽclaration des liens qui le composent. On peut dŽfinir un rŽseau portant sur un dictionnaire (la dŽfinition est alors faite au niveau du dictionnaire) ou sur un ensemble de dictionnaires (la dŽfinition est alors faite au niveau de la base lexicale). La dŽclaration dÕun rŽseau portant sur un dictionnaire est faite en donnant lÕensemble des liens qui dŽfinissent ce rŽseauÊ: (lexical-network links*) ou links est un suite de liens dŽfinis sur le dictionnaire. Ainsi, le rŽseau formŽ par lÕensemble des liens de synonymie de MelÕcÿuk est dŽfini par lÕexpressionÊ: (lexical-network (lexical-function {lexical-function-name [flname : 'Syn]}) (lexical-function {lexical-function-name [flname : 'Syn^]}) (lexical-function {lexical-function-name [flname : 'Syn<]}) (lexical-function {lexical-function-name [flname : 'Syn>]})) La dŽclaration dÕun rŽseau portant sur un ensemble de dictionnaires est faite en donnant lÕensemble des liens qui dŽfinissent ce rŽseau. Ces liens seront notŽs en indiquant le dictionnaire sur lequel ils portent. Ainsi, un rŽseau de synonymie englobante Syn∩ portant sur trois dictionnaires monolingues (franais, anglais et allemand) et le dictionnaire dÕacceptions est-il dŽfini au niveau de la base lexicale de la manire suivanteÊ: (lexical-network (french::lexical-function {lexical-function-name [flname : 'Syn^]}) (english::lexical-function {lexical-function-name [flname : 'Syn^]}) (german::lexical-function {lexical-function-name [flname : 'Syn^]}) (acception::lexical-function {lexical-function-name [flname : 'Syn^]}) link-to-interlingua) Rappelons que link-to-interlingua est la classe des liens qui relient une acception monolingue ˆ son acception interlingue correspondante. La propriŽtŽ ˆ vŽrifier sur un rŽseau lexical est lÕune des propriŽtŽs suivantesÊ: acyclic : vŽrifie quÕun rŽseau est sans cycle, graph : vŽrifie que le rŽseau (un multigraphe) est composŽ dÕun seul graphe, forest : vŽrifie que le rŽseau (un multigraphe) est Žquivalent ˆ une fort (chaque graphe du rŽseau est un arbre), tree : vŽrifie que le rŽseau (un multigraphe) est Žquivalent ˆ un arbre (le rŽseau est composŽ dÕun seul graphe Žquivalent ˆ un arbre). Nous avons vu lÕutilitŽ de la propriŽtŽ acyclic. Les propriŽtŽs graph, forest et tree sont utiles pour tester des relations dŽfinissant une hiŽrarchie (on ne doit avoir quÕun graphe sans cycle) ou une arborescence. Ainsi, une contrainte de cohŽrence portant sur un rŽseau lexical sÕexprime gr‰ce ˆ lÕexpressionÊ: define-network-coherence-rule name :applies-on lexical-network-spec :verifies property :error-message string :level level La contrainte de cohŽrence vŽrifiant lÕabsence de cycle dans le rŽseau lexical de synonymie englobante dÕun dictionnaire particulier est dŽfinie de la manire suivante (au niveau du dictionnaire)Ê: (define-network-coherence-rule acyclic-more-general-synonymy :applies-on (lexical-network (lexical-function {lexical-function-name [flname : 'Syn^]})) :verifies 'acyclic :error-message "Détection d’un cycle dans le réseau de synonymie englobante" :level :warning) La contrainte vŽrifiant lÕabsence de cycle dans le rŽseau lexical de synonymie englobante sur plusieurs dictionnaires est dŽfinie de la manire suivante (au niveau de la base lexicale)Ê: (define-network-coherence-rule global-acyclic-more-general-synonymy :applies-on (lexical-network (french::lexical-function {lexical-function-name [flname : 'Syn^]}) (english::lexical-function {lexical-function-name [flname : 'Syn^]}) (german::lexical-function {lexical-function-name [flname : 'Syn^]}) (acception::lexical-function {lexical-function-name [flname : 'Syn^]}) link-to-interlingua) :verifies 'acyclic :error-message "Détection d’un cycle dans le réseau de synonymie global" :level :warning) Le systme NADIA ainsi dŽfini est en cours de rŽalisation. La premire Žtape de son utilisation passe par la rŽcupŽration de la maquette Parax dans ce systme. De plus, NADIA sera appliquŽe au dŽveloppement dÕune version informatique du DEC dans le cadre dÕune action de recherche partagŽe entre le GETA et lՎquipe dÕIgor MelÕcÿuk ˆ lÕUniversitŽ de MontrŽal. Bibliographie [AbeillŽ 1989] AbeillŽ A. (1989) LÕunification dans une grammaire dÕarbre adjoints: quelques exemples en syntaxe franaise. T.A. Information, 30/1-2: pp. 69-112. [AbeillŽ 1993] AbeillŽ A. (1993) Les nouvelles syntaxes - Grammaires dÕunification et analyse du franais, Armand Colin, Paris, 327 p. [Adriaens & al. 1990] Adriaens G. & Lemmens M. (1990) The Self Extending Lexicon : Off-line and On-line Defaulting of Lexical Information in the METAL Machine Translation System. Proc. Coling-90, Helsinki, 20-25 August 1990, H. Karlgren ed. vol. 3/3: pp. 305-307. [A•t-Kaci 1986] A•t-Kaci H. (1986) An Algebra•c Approach to the Effective Resolution of Type Equations. Theoretical Computer Science, 45: pp. 293-351. [A•t-Kaci & al. 1988] A•t-Kaci H. & Lincoln P. (1988) LIFE : a Natural Language for Natural Language. T.A. Information, 30/1-2: pp. 37-67. [A•t-Kaci & al. 1992] A•t-Kaci H., Meyer R. & Roy P. V. (1992) Wild LIFE - A User Manual, Available with the WILD-LIFE software, 81 p. [A•t-Kaci & al. 1986] A•t-Kaci H. & Nasr R. (1986) LOGIN : a Logic Programming Language with Built-in Inheritance. Journal of Logic Programming, 3: pp. 185-215. [AndrŽ & al. 1989a] AndrŽ J., Furuta R. & Quint V. (1989a) By way of an introduction. Structured Documents: What and Why? In ÒStructured DocumentsÓ, J. AndrŽ, R. Furuta & V. Quint ed., Cambridge University Press: pp. 1-6. [AndrŽ & al. 1989b] AndrŽ J., Furuta R. & Quint V. (1989b) Structured Documents P. Hammersley ed., The Cambridge Series on Electronic Publishing, Cambridge University Press, Cambridge, 220 p. [Apple Computer Inc. 1992a] Apple Computer Inc. (1992a) Macintosh Human Interface Guidelines, Addison-Wesley Publishing Company, Inc., 384 p. 148 Bibliographie [Apple Computer Inc. 1992b] Apple Computer Inc. (1992b) Text Services Manager. In ÒInside Macintosh: TextÓ, Apple Computer Inc.: pp. 1-107 (section 7). [Apple Computer Inc. 1989] Apple Computer Inc. (1989) Hypercard Stack Design Guidelines, Addison- Wesley Publishing Company, Inc., 230 p. [Barnett & al. 1990] Barnett J., Knight K., Mani I. & Rich E. (1990) Knowledge and Natural Language Processing. Communications of ACM, 33/8: pp. 50-71. [Blanchon 1990] Blanchon H. (1990) Ambiguity resolution and paraphrase selection. Proc. DBMT-90, Post-COLING seminar on Dialogue-Based MT, Le Sappey, France, 26-28 August 1990, E. Blanc & C. Boitet ed. vol. 1/1: pp. 38-41 & 238-241. [Blanchon 1991] Blanchon H. (1991) Problmes de dŽsambigu•sation interactive en TAO personnelle. Proc. LÕenvironnement traductionnel : La station de travail du traducteur de lÕan 2001, Mons (Belgique), 25-27 avril 1991, ActualitŽs scientifiques, A. Clas: pp. 31-48. [Blanchon 1992] Blanchon H. (1992) A Solution to the Problem of Interactive Disambiguation. Proc. Coling-92, Nantes, France, 23-28 juillet 1992, C. Boitet ed. vol. 4/4: pp. 1233-1238. [Blanchon 1994] Blanchon H. (1994) LIDIA-1 : une premire maquette vers la TA interactive Òpour tousÓ. Thse nouveau doctorat, UniversitŽ Joseph Fourier (Grenoble 1), 319 p. [Boitet 1988a] Boitet C. (1988a) Hybrid Pivots using m-structures for multilingual Transfer- based systems. Japanese Institute of Electronic Information and Communication Engineering, NLC, 88/3: pp. 17-22. [Boitet 1988b] Boitet C. (1988b) Representation and computation of units of translation for Machine Interpretation of spoken texts. Technical report, GETA - ATR, 1988, 20 p. [Boitet 1990a] Boitet C. (1990a) Multilingual Machine Traslation does not have to be saved by Interlingua. Proc. MMT-90, Tokyo, 5-6 November 1990, 2 p. [Boitet 1990b] Boitet C. (1990b) Towards Personnal MT : general design, dialogue structure, potential role of speech. Proc. Coling-90, Helsinki, 20-25 August 1990, H. karlgren ed., Hans karlgren, vol. 3/3: pp. 30-35. [Boitet 1993a] Boitet C. (1993a) Crucial open problems in Machine Translation & Interpretation. Proc. BKKÕ93, Bangkok, Thailand, 17-20 March 1993 vol. 1/1. [Boitet 1993b] Boitet C. (1993b) Human-Oriented Design and Human-Machine-Human Interactions in Machine Interpretation. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 13 p. [Boitet 1993c] Boitet C. (1993c) Integration of Heterogeneous Components for Speech Translation: the ÒWhiteboardÓ Architecture and an Architectural Prototype. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 20 p. [Boitet 1993d] Boitet C. (1993d) La TAO comme technologie scientifique : le cas de la traduction automatique fondŽe sur le dialogue. In ÒLa traductiqueÓ, P. Bouillon & A. Clas ed., Les presses de lÕUniversitŽ de MontrŽal, AUPELF/UREF: pp. 109- 148. Bibliographie 149 [Boitet 1993e] Boitet C. (1993e) Multimodal Interactive Disambiguation: first report on the MIDDIM project. Technical Report, ATR Interpreting Telecommunications Research Laboratories, 30 August 1993, 16 p. [Boitet 1993f] Boitet C. (1993f) TA et TAO ˆ GrenobleÉ 32 ans dŽjˆ ! T.A.L. (revue semestrielle de lÕATALA), 33/1Ñ2, SpŽcial Trentenaire: pp. 45-84. [Boitet & al. 1990] Boitet C. & Blanchon H. (1990) TAO personnelle et promotion des langues nationales : le projet LIDIA du GETA. Proc. Les industries de la langue : perspectives des annŽes 1990, MontrŽal, Canada, 22-24 novembre 1990 vol. 1/2: pp. 415-434. [Boitet & al. 1993] Boitet C. & Blanchon H. (1993) Dialogue-based MT for monolingual authors and the LIDIA project. Proc. NLPRSÕ93, Fukuoka, Japon, 6-7 dŽcembre 1993: pp. 208-222. [Boitet & al. 1982a] Boitet C., Guillaume P. & Quezel-Ambrunaz M. (1982a) ARIANE-78: an integrated environment for automatic translation and human revision. Proc. COLING-82, Prague, July 1982: pp. 19-27. [Boitet & al. 1982b] Boitet C., Hue & Collomb RŽd. (1982b) ÒDSE-2Ó Ñ SpŽcification du systme Ariane-X. Projet ESOPE Contrat ADI/CAP-Sogeti/Champollion, GETA- Champollion - Cap Sogeti France, 24 juin 1982. [Boitet & al. 1982c] Boitet C. & Nedobejkine N. (1982c) Base lexicale : organisation gŽnŽrale et indexage. rapport final, projet ESOPE ADI, partie D, GETA, Grenoble, 1982, 30 p. [Boitet & al. 1986a] Boitet C. & Nedobejkine N. (1986a) Toward Integrated Dictionary for M(A)T : Motivations and Linguistic Organisation. Proc. COLING 86, Bonn, 25- 29 aout 1986 vol. 1/1: pp. 423-428. [Boitet & al. 1986b] Boitet C. & Nedobejkine N. (1986b) Vers une base lexicale intŽgrŽe pour la T(a)O : motivations et organisation linguistique. Proc. JournŽes francophones de lÕinformatique, bases de donnŽes et bases de connaissances, Grenoble, janvier 1986 vol. 1/1: pp. 151-169. [Boitet & al. 1994] Boitet C. & Seligman M. (1994) The ÒWhiteboardÓ Architecture: A Way to Integrate heterogeneous components of NLP Systems. Proc. COLING-94, Kyoto, Japan, 5-9 August 1994, M. Nagao ed. vol. 1/2: pp. 426-430. [Boitet & al. 1988] Boitet C. & Zaharin Y. (1988) Representation trees and string-tree correspondences. Proc. Coling-88, Budapest, 22Ð27 August 1988, D. V‡rgha ed.: pp. 59-64. [Booch 1992] Booch G. (1992) Conception orientŽe objets et applications. Addison-Wesley ed., Addison-Wesley, 588 p. [Brachman 1993] Brachman R. J. (1993) Viewing Data Through a Knowledge Representation Lens. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JPDEC, vol. 1/1. [Briscoe & al. 1993a] Briscoe T. & Caroll J. (1993a) Generalized Probabilistic LR parsing Natural Language (Corpora) with Unification-Based Grammars. C.L., 19/1: pp. 25-59. [Briscoe & al. 1993b] Briscoe T., Paiva V. d. & Copestake A., ed. (1993b) Inheritance, Defaults, and the Lexicon. Studies in Natural Language Processing, B. Boguraev ed., Cambridge University Press, Cambridge, 298 p. 152 Bibliographie [Genthial & al. 1990] Genthial D., Courtin J. & Kowarski I. (1990) Contribution of a Category Hierarchy to the Robusteness of Syntactic Parsing. Proc. COLING-90, Helsinki, 20-25 aožt 1990, H. Karlgren ed., Hans Karlgren, vol. 2/3: pp. 139-144. [Goodman & al. 1991] Goodman K. & Nirenburg S., ed. (1991) The KBMT project: a case study in Knowledge-Based Machine Translation., Morgan Kaufmann Publishers, San Mateo, California, 330 p. [Gross 1987] Gross M. (1987) The Use of Finite Automata in the Lexical Representation of Natural Language. Proc. Electronic Dictionaries and Automata in Computational Linguistics- LITP Spring School on Theoretical Computer Science, St Pierre dÕOleron, M. Gross ed., Springer Verlag, Berlin,: pp. 34-50. [Gross & al. 1985] Gross M. & Tremblay D. (1985) Etude du contenu dÕune banque terminologique. Rapport technique, LADL Paris, mai 1985, 180 p. [Hari 1990] Hari S. (1990) Analyse automatique dÕun dictionnaire en vue de la constitution dÕune base de donnŽes lexicales. MŽmoire de DEA en Informatique et Automatique mention XIAO, UniversitŽ dÕAix-Marseille III, GRTC,n¡ 371, septembre 1990, 68 p. [Herwijnen 1990] Herwijnen E. V. (1990) Practical SGML, Kluwer Academic Publishers, Dordrecht(Nl.), 307 p. [Hutchins 1986] Hutchins W. J., ed. (1986) Machine Translation - Past, Present, Future. Computers and their Applications, E. Horwood ed., Ellis Hordwood Limited, New York/Chichester/Brisbane/Toronto, 382 p. [Hutchins & al. 1992] Hutchins W. J. & Somers H. L. (1992) An introduction to Machine Translation, Academic Press, Harcourt Brace Jovanovich, 362 p. [Karttunnen 1984] Karttunnen L. (1984) Features and Values. Proc. COLING-84, Stanford University, California, 2-6 July 1984, ACL ed., Association for Computational Linguistics, vol. 1/1: pp. 28-33. [Karttunnen 1991] Karttunnen L. (1991) Finite-state Constraints. Proc. CICL-91, USM, Penang, Malaysia vol. 1/1: pp. 1-18. [Karttunnen 1993] Karttunnen L. (1993) Finite-State Lexicon Compiler. Research Report,n¡ ISTL- NLTT-1993-04-02, Xerox PARC, Avril 1993, 18 p. [Karttunnen & al. 1992] Karttunnen L. & Beesley K. R. (1992) Two-Level Rule Compiler. Research Report,n¡ ISTL-92-2, Xerox PARC, October 1992, 15 p. [Kay 1973] Kay M. (1973) The MIND system. In ÒCourant Computer Science Symposium 8: Natural Language ProcessingÓ, R. Rustin ed., Algorithmics Press, New York: pp. 155-188. [Kay 1980] Kay M. (1980) The Proper Place of Men and Machines in Language Translation. Research Report,n¡ CSL-80-11, Xerox, Palo Alto Research Center, octobre 1980, 20 p. [Kay 1982] Kay M. (1982) Machine Translation. American Journal of Computational Linguistics, 8/2: pp. 74-78. [Keene 1989] Keene S. E. (1989) Object-Oriented Programming in Common Lisp, Addison- Wesley, 266 p. [Kiczales & al. 1991] Kiczales G., Rivires J. d. & Bobrow D. G. (1991) The Art of the Metaobject Protocol, MIT Press, 335 p. Bibliographie 153 [Lafourcade 1992] Lafourcade M. (1992) Le problme de lÕaccs au lexique dans les outils pour rŽdacteurs. ODILE, une approche. Proc. SŽminaire Lexique, Toulouse, P™le langage naturel et parole du GDR-PRC CHM, vol. 1/1: pp. 81-89. [Lafourcade 1993] Lafourcade M. (1993) Geta-Browser. GETA-IMAG, Grenoble, Common Lisp Object System (MCL - CLOS), Apple Macintosh, version 2.2. [Lafourcade 1994a] Lafourcade M. (1994a) Applying Pivot MT Techniques to Multi-dialectal Programming Language Editors. rapport interne, GETA-IMAG, janvier 1994. [Lafourcade 1994b] Lafourcade M. (1994b) GŽnie logiciel pour le gŽnie linguiciel. Thse nouveau doctorat, UniversitŽ Joseph Fourier (Grenoble 1), 300 p. [Lafourcade 1994c] Lafourcade M. (1994c) ODILE: un outil personnel dÕaide ˆ la traduction. Turjuman, 3/1: pp. 13-21. [Lafourcade 1994d] Lafourcade M. (1994d) Re-Engineering with added Genericity of Specialized Languages for Linguistic Programming - A case study with the ATEF & LT SLLPs. Proc. IACLÕ94, Penang, Malaysia, 26-28 July 1994: pp. 51-57. [Lafourcade & al. 1992] Lafourcade M. & SŽrasset G. (1992) Geta-Strings. Logiciel GETA, Grenoble, Common Lisp Object System (MCL - CLOS), Macintosh, version 1.0. [Lafourcade & al. 1993a] Lafourcade M. & SŽrasset G. (1993a) DOP (Dictionary Object Protocol). GETA-IMAG, Grenoble, Common Lisp Object System (MCL - CLOS), Apple Macintosh, version 2.0. [Lafourcade & al. 1993b] Lafourcade M. & SŽrasset G. (1993b) Geta-Grapher. GETA-IMAG, Grenoble, Common Lisp Object System (MCL-CLOS), Apple Macintosh, version 1.1. [Lay & al. 1992] Lay M.-H., Zaysser L. & Flores S. (1992) Projet Eureka Genelex, le modle syntaxique. Rapport technique, Projet Eureka Genelex, 10 juin 1992, 107 p. [Lenat & al. 1990] Lenat D. B., Guha R. V., Pittman K., Pratt D. & Shepherd M. (1990) CYC: Toward Programs with Common Sense. Communications of ACM, 33/8: pp. 30- 49. [MelÕcÿuk 1984] MelÕcÿuk I. (1984) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-sŽmantiques I, Presses de lÕuniversitŽ de MontrŽal, MontrŽal(Quebec), Canada, 172 p. [MelÕcÿuk 1988] MelÕcÿuk I. (1988) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-sŽmantiques II, Presses de lÕuniversitŽ de MontrŽal, MontrŽal(Quebec), Canada, 332 p. [MelÕcÿuk 1992] MelÕcÿuk I. (1992) DEC : Dictionnaire explicatif et combinatoire du franais contemporain, recherche lexico-sŽmantiques III, Presses de lÕuniversitŽ de MontrŽal, MontrŽal(Quebec), Canada, 323 p. [Melby 1988] Melby A. k. (1988) Lexical Transfert: Between a Source Rock and a Hard Target. Proc. Coling-88, Budapest, 22-27 aožt 1988, D. Vargha ed. vol. 2/2: pp. 411-413. [Melby 1991] Melby A. K. (1991) Pour le traducteur : un poste de travail ˆ trois niveaux dÕassistance. Proc. LÕenvironnement traductionnel ; La station de travail du traducteur de lÕan 2001, Mons, Belgique, 25-27 avril 1991 vol. 1/1: pp. 151-153. [Meyer & al. 1990] Meyer I., Onyshkevych B. & Carlson L. (1990) Lexicographic Principles and Design for Knowledge-Based Machine Translation. Technical Report,n¡ CMU-CMT-90-118, Carnegie Mellon University, August 13, 1990, 66 p. 154 Bibliographie [Miike 1990] Miike S. (1990) How to Define Concepts for Electronic Dictionaries. Proc. international workshop on electronic dictionaries, Oiso Kanagawa, Japan: pp. 43-49. [Morin 1991] Morin J.-Y. (1991) IntŽgration des connaissances en gŽnie linguistique : niveaux, dimensions, objets et contraintes. Proc. LÕenvironnement traductionnel - La station de travail du traducteur de lÕan 2001, Mons, Belgique, 25-27 avril, AUPELF&UREF, Presses de lÕUniversitŽ de MontrŽal, vol. 1/1: pp. 109-133. [Nagao 1993] Nagao M. (1993) Current Status and Future Trends of Natural Language Processing. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1: pp. 31-39. [Nagao & al. 1985] Nagao N., Tsujii J. & Nakamura J. (1985) Terminology dictionary for machine translation. Proc. Second Infoterm Symposium on Terminology, Wien, 15-18 avril 1985. [NŽdobejkine 1990] NŽdobejkine N. (1990) ReprŽsentation des informations lexicales dans les dictionnaires Žlectroniques. T.A. Informations, 31/1: pp. 5-15. [NŽdobejkine 1991] NŽdobejkine N. (1991) Dictionary Approach in Natural Language Processing. Proc. Third International Conference on Translation, Kuala Lumpur (Malaysia). [Nirenburg 1987] Nirenburg S., ed. (1987) Machine translation. Studies in Natural Language Processing, A. K. Joshi ed., Cambridge University Press, Cambridge, 350 p. [Nirenburg 1989a] Nirenburg S. (1989a) KBMT-89 Project Report., Center for Machine Translation, Carnegie Mellon University, Pittsburg, avril 1989, 286 p. [Nirenburg 1989b] Nirenburg S. (1989b) Knowledge-based machine translation. M.T., 4/1: pp. 5-24. [Nirenburg & al. 1990a] Nirenburg S. & Defrise C. (1990a) Lexical and Conceptual Structure for Knowledge-Based Machine Translation. Proc. ROCLING III, Taipeh, 20-22 August 1990 vol. 1/1: pp. 105-130. [Nirenburg & al. 1990b] Nirenburg S. & Goodman K. (1990b) Treatment of Meaning in MT Systems. Proc. ROCLING III, Taipeh, 20-22 August 1990 vol. 1/1: pp. 81-101. [Nirenburg & al. 1989] Nirenburg S. & Levin L. (1989) Knowledge Representation Support. M.T., 4/1: pp. 25-52. [Norvig 1992] Norvig P. (1992) Paradigms of Artificial Intelligence Programming: Case Studies in Common Lisp, Morgan Kaufmann Publishers, San Mateo - California, 948 p. [Phan 1991] Phan H. K. (1991) Contribution ˆ lÕinformatique multilingue, extension dÕun Žditeur de documents structurŽs. Thse nouveau doctorat, UniversitŽ des sciences et techniques de Lille, Flandres Artois, 231 p. [Phan & al. 1992] Phan H. K. & Boitet C. (1992) Multilinguization of an editor for structured documents. Application to a trilingual dictionary. Proc. COLING 92, Nantes, 23-28 July 1992, C. Boitet ed., ACL, vol. 3/4: pp. 966 - 971. [Qi 1991] Qi Y. (1991) Research and Development of the Chinese Dictionary Used for Multilingual Machine Translation. Proc. International Symposium on Bibliographie 157 [VŽronis & al. 1989a] VŽronis J., Ide N. M. & Hari S. (1989a) Construction automatique de grands rŽseaux de neurones pour la dŽsambiguisation du langage naturel. Proc. 10mes journŽes Systmes Experts et leurs applications, confŽrence spŽcialisŽe : le traitement des langues naturelles et ses applications, Avignon, 28 mai-1 juin 1990: pp. 105-117. [VŽronis & al. 1989b] VŽronis J., Ide N. M. & Wurbel N. (1989b) Extraction dÕinformations sŽmantiques dans les dictionnaires courants. Proc. 7me congrs Reconnaissance des Formes et Intelligence Artificielle, AFCET RFIA, Paris: pp. 1381-1395. [VŽronis & al. 1990] VŽronis J., Ide N. M., Wurbel N. & HariŽ S. (1990) Construction et exploitation dÕune base de donnŽes lexicale Franco-Anglaise: le projet Vassar/GRTC. Proc. JournŽes nationales du PRC Communication Homme- Machine, Toulouse, Octobre 1990: pp. 115-124. [Wilks 1986] Wilks Y. (1986) An Intelligent Analyzer and Understander of English. In ÒReadings in Natural Language ProcessingÓ, B. J. Grosz, K. Spark Jones & B. L. Webber ed., Morgan Kaufmann Publishers, Inc., Los Altos, California: pp. 193- 204. [Wilks & al. 1990] Wilks Y. & Farwell D. (1990) A White paper on Research in Pragmatic-based Machine Translation. Memorandan in Computer and Cognitive Science,n¡ MCCS-90-188, Computing Research Laboratory, New Mexico State University, Las Cruces, NM, 25 p. [Wilks & al. 1993] Wilks Y. & Nirenburg S. (1993) Toward Automated Knowledge Acquisition. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1: pp. 54-58. [Yaoliang & al. 1991] Yaoliang J. & Zhendong D. (1991) As a CICC MMT (ODA) Project. Proc. International Symposium on Multilingual Machine Translation (MMT-91), Beijing, 19-21 August 1991 vol. 1/1: pp. 13-15. [Yokota 1990] Yokota E. (1990) How to Organise a Concept Hierarchy. Proc. International workshop on electronic dictionaries, Oiso Kanagawa Japan, Japan Electronic Dictionary Research Institute, Ltd., vol. 1/1: pp. 50-57. [Zajac 1988] Zajac R. (1988) Operations on Typed Feature Structures: Motivations and Definitions. Internal Report, ATR Interpreting Telephony Research Laboratories, 1988, 32 p. [Zampolli 1973] Zampolli A. (1973) LÕautomatisation de la recherche lexicographique : Žtat actuel et tendances nouvelles. 18/1/2: pp. 103-138. [Zaysser & al. 1992] Zaysser L., Laporte E., Lay M.-H., Vandenbussche C. & Francopoulo G. (1992) Projet Eureka Genelex, couche morphologique. Rapport Technique, Projet Eureka Genelex, 2 juin 1992, 97 p. Annexes 162 Annexes Dans cet exemple, le dŽbut de lՎlŽment est indiquŽ par lՎtiquette <quote>. Sa fin est indiquŽe par </quote>. ÒquoteÓ indique le nom de lՎlŽment. LÕutilisation des chevrons (< et >) et du slash (/) est la convention standard utilisŽe en SGML (cette convention peut tre redŽfinie). Un ŽlŽment peut tre vide, contenir un simple texte, on contenir un ensemble dÕautres ŽlŽments dÕun type diffŽrent. Cela permet le codage de structure plus complexes. Supposons que lÕon souhaite coder une anthologie, qui contiendra un ensemble de pomes dont on conna”t le titre, et un ensemble de strophes (elles mme constituŽes dÕun ensemble de vers). Un tel document appara”tra sous la forme suivante7Ê: <anthology> <poem><title>The SICK ROSE</title> <stanza> <line>O rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed</line> <line>Of crimson joy:</line> <line>And his dark secret love</line> <line>Does thy life destroy.</line> </stanza> </poem> <poem> <!-- more poems go here --> </anthology> Des blancs et retours ˆ la lignes ont ŽtŽ introduits pour simplifier la lecture du document. Ils ne jouent aucun r™le dans la dŽfinition de la structure du document. De plus, la ligneÊ: <!-- more poems go here --> est un commentaire SGML qui nÕest pas traitŽ comme une partie du texte. Cet exemple ne fait aucune hypothses sur les rgles qui gouvernent la structure dÕune anthologie. Pourtant, on peut dŽfinir des rgles qui permettront de simplifier lՎtiquetage du documentÊ: - une anthologie contient des pomes, et rien dÕautre, - un pome a un seul titre qui prŽcde la premire strophe et qui ne contient pas dÕautre ŽlŽment, - mis ˆ part le titre, un pome ne contient que des strophes, - une strophe ne contient quÕun ensemble de vers, - seuls une strophe ou un autre pome peuvent venir ˆ la suite dÕune strophe, - seuls un vers ou une strophe peuvent venir ˆ la suite dÕun vers. Ë partir de ces rgles, on peut infŽrer quÕil nÕest pas nŽcessaire dՎtiqueter explicitement la fin des vers et des strophes. La deuxime rgle implique quÕil est inutile de marquer la fin dÕun titre (qui est implicitement marquŽe par un dŽbut de strophe). De la mme manire, il est 7 Cet exemple est extrait de “Songs of innocence and experience” (1974) de William Blake. Description informelle de SGML 163 inutile dՎtiqueter explicitement la fin dÕun pome. Ainsi, on peut reprŽsenter le mme document de la manire suivanteÊ: <anthology> <poem><title>The SICK ROSE <stanza> <line>O rose thou art sick. <line>The invisible worm, <line>That flies in the night <line>In the howling storm: <stanza> <line>Has found out thy bed <line>Of crimson joy: <line>And his dark secret love <line>Does thy life destroy. <poem> <!-- more poems go here --> </anthology> Les rgles, telles celles dŽcrites ci-dessus, sont la premire Žtape du processus de crŽation dÕune spŽcification formelle de la structure dÕun document SGML. Cette description est une ÒDŽfinition de Type de DocumentÓ (DTD). Ainsi, la DTD correspondant ˆ lÕexemple ci-dessus est dŽfinie comme suitÊ: <!ELEMENT anthology - - (poem+)> <!ELEMENT poem - O (title?, stanza+)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT stanza - O (line+)> <!ELEMENT line - O (#PCDATA)> On a ainsi dŽfini les diffŽrents ŽlŽments du document. On a pu indiquer lÕoptionnalitŽ ou lÕobligation des Žtiquettes de dŽbut et de fin. Ainsi, dans la ligneÊ: <!ELEMENT title - O (#PCDATA)> le Ò-Ó indique lÕobligation de lՎtiquette de dŽbut et le ÒOÓ indique que lՎtiquette de fin peut tre omise. En troisime partie de la dŽfinition de chaque ŽlŽment (entre parenthses) appara”t la dŽfinition de son contenu. Le contenu peut tre une suite de caractres (#PCDATA) ou un ensemble dՎlŽments (title?, stanza+). Le Ò?Ó ˆ la suite dÕun ŽlŽment indique sont optionnalitŽ. Un Ò+Ó ˆ la suite dÕun ŽlŽment indique que cet ŽlŽment est obligatoire et peut tre rŽpŽtŽ. Un Ò*ӈ la suite dÕun ŽlŽment indique que cet ŽlŽment peut tre rŽpŽtŽ, mais nÕest pas obligatoire. Un Ò,Ó entre deux ŽlŽment indique leur mise en sŽquence. Il est possible dÕassocier des attributs ˆ chacun des ŽlŽments dÕun document. Il est ainsi possible dÕassocier un identificateur ˆ un ŽlŽment particulier ou de lui associer un numŽro, un statut, etc. Ainsi, pour pouvoir associer un identificateur et un statut ˆ un ŽlŽment de type poem, on va ajouter la dŽfinition suivante dans la DTD anthologyÊ: <!ATTLIST poem id ID #IMPLIED status (draft | revised | published) draft > Dans cette dŽfinition, on indique ˆ quel ŽlŽment sont associŽs les attributs dŽfinis. Pour chaque attribut, on donne un nom, un ensemble de valeur, et une valeur par dŽfaut. ID est un type de valeur spŽcial permettant de donner un nom unique ˆ un ŽlŽment du document. Sa 164 Annexes valeur est calculŽe automatiquement (#IMPLIED). LÕattribut status peut avoir trois valeursÊ: draft, revised, published, avec draft comme valeur par dŽfaut. Les concepts exposŽs jusquÕalors portent sur la dŽnotation dÕune structure dans le document. SGML propose aussi un moyen simple et souple de coder et de nommer des parties arbitraires du contenu dÕun document, de manire portable. Cette possibilitŽ est offerte par les entitŽs. Une entitŽ est une partie nommŽe du contenu du document, indŽpendamment de sa structure. Par exemple, la dŽclaration suivanteÊ: <!ENTITY tei "Text Encoding Initiative"> dŽfinit une entitŽ de nom tei et dont la valeur est la cha”ne ÒText Encoding InitiativeÓ. On peut rŽfŽrer ˆ ces entitŽs ˆ lÕintŽrieur dÕun document en insŽrant leur nom, prŽcŽdŽ dÕun Ò&Ó et terminŽ par un point-virgule. Ainsi, le texte ÒLa &tei; est une initiative…Ó est Žquivalent au texte ÒLa Text Encoding Initiative est une initiative…Ó. Ce mŽcanisme dÕentitŽ est utilisŽ notamment pour coder les caractres diacritŽs dans un texte que lÕon souhaite pouvoir passer dÕune machine ˆ une autre. Description informelle de GRIF 167 Stanza = BEGIN Lines = LIST OF (Line); END; Line = TEXT; END Ici, lՎlŽment Anthology a un attribut editor dont la valeur est un texte. ƒtant donnŽe cette structure, on peut dŽfinir une prŽsentation la reflŽtant dans un document. Cette prŽsentation est dŽfinie en associant, ˆ chaque ŽlŽment de la structure, une bo”te de prŽsentation, dont la position et la taille sont dŽfinies en fonction de celle des bo”tes voisines. Par exemple, la bo”te correspondant au titre de lÕanthologie est centrŽe par rapport ˆ sa bo”te contenante (celle correspondant ˆ lÕanthologie), et son texte est Žcrit en Helvetica 14 grasÊ: Anthology_title: BEGIN HorizPos: VMiddle = Enclosing . VMiddle; VertPos: Top = Enclosing . Top; Size: 14; Font: Helvetica; Style: Bold; END; Un pome est alignŽ ˆ gauche, et se trouve 1 cm en dessous du pome prŽcŽdentÊ: Poem: BEGIN HorizPos: Left = Enclosing . Left; VertPos: Top = Previous Poem . Bottom + 1 cm; END; Son titre est prŽsentŽ en Times 12 gras, alignŽ ˆ gaucheÊ: Title: BEGIN VertPos: Top = Enclosing . Top; HorizPos : Left = Enclosing . Left; Size: 12; Font: Times; Style: Bold; END; LÕauteur est prŽsentŽ en Times 10 italiques, avec un retrait ˆ gauche dÕun demi centimtreÊ: Author: BEGIN VertPos: Top = Previous Title . Bottom; HorizPos: Left = Enclosing . Left + 0.5 cm; Size: 10; Font: Times; Style: Italics; END; LÕensemble des strophes dÕun pome est alignŽ ˆ gauche et son texte est en Times 10. On laisse un espace de 0,7 centimtre aprs le nom dÕauteurÊ: Stanzas: BEGIN VertPos: Top = Previous Author . Bottom + 0.7 cm; HorizPos: Left = Enclosing . Left; Size: 10; Font: Times; Style: Roman; END; 168 Annexes De la mme manire, une strophe se trouve un demi-centimtre en dessous de la strophe prŽcŽdente, et alignŽe sur la gauche, en Times 10 (la typographie a ŽtŽ hŽritŽe de la bo”te contenante Stanzas)Ê: Stanza: BEGIN VertPos: Top = Previous Stanza . Bottom + 0.5 cm; HorizPos: Left = Enclosing . Left; END; Ainsi, on a dŽfini une prŽsentation pour la classe de document Anthology. Nous donnons une instance de cette classe de document dans la figure B.1. Figure B.1Ê: Une instance de document de la classe Anthology Enfin, gr‰ce au langage T, il est possible dÕexporter les documents de cette classe sous certaines formes. Dans lÕexemple proposŽ, nous allons exporter vers la forme SGML prŽsentŽe dans lÕannexe prŽcŽdente. Dans le format que lÕon veut produire, on doit gŽnŽrer les Žtiquettes <anthology> et </anthology> autour du documentÊ: Anthology: BEGIN Create "<anthology>" before; Create "</anthology>" after; END; De plus, le titre de lÕanthologie nÕappara”t pas. On ne lui associe donc pas de rgle de traduction. Description informelle de GRIF 169 Les Žtiquettes <poem> et </poem> apparaissent autour de chaque pomeÊ: Poem: BEGIN Create "<poem>" before; Create "</poem>" after; END; Le titre d'un pome appara”t entre les Žtiquettes <title> et </title>Ê: Title: BEGIN Create "<title>" before; Create "</title>" after; Create content; END; Chaque strophe est entourŽe de <stanza> et </stanza>Ê: stanza: BEGIN Create "<stanza>" before; Create "</stanza>" after; END; Enfin, chaque vers est entourŽ de <line> et </line>Ê: Line: BEGIN Create "<line>" before; Create "</line>" after; Create content; END; D'autre mŽcanismes permettent la gŽnŽration de formats d'export plus compliquŽs (conditions d'application de rgles, sortie vers plusieurs fichiers, traduction des caractres spŽciaux, utilisation de compteursÉ). 172 Annexes CÎUR, nom, masc. I.1a. Organe principal de la circulation sanguine d'une personneÉ [le cÏur de Jean ] 1b. Organe principal de la circulation sanguine d'un animalÉ [le cÏur de lion ] 2. Produit alimentaire É [le cÏur de veau ] 3. Partie de la poitrine d'une personne É [Il a serrŽ son fils sur son cÏur ] 4a. Organe imaginaire des sentiments É [Le cÏur espre toujours ] 4b. Organe imaginaire de l'intuition É [Son cÏur le lui dit ] 5a. É propriŽtŽ de la personnalitŽ É [un cÏur de glace ] 5b. Personne possŽdant le cÏur I.5a [Vous devez la vie ˆ un noble cÏur, ˆ un homme vaillant ] II.1a. Partie principale d'une unitŽ fonctionnelleÉ [le cÏur du bateau ] 1b. ƒlŽment principal [le cÏur du problme ] 2a. Partie centrale d'un espaceÉ [le cÏur du royaume ] 3. ObjetÉ ayant la forme du cÏur I.1a [un cÏur en papier ] 4. Une des quatre couleurs 2 des cartes ˆ jouerÉ [l'as de cÏur ] III. Organe imaginaire des nausŽes É [Cette senteur lui tournait le cÏur ] I.1a. CÏur de X = Organe principal de la circulation sanguine d'une personne X qui se trouve dans la partie centrale du corps II.1d de X et qu'on reprŽsente symboliquement comme ayant la forme . Connotations 1) CÏur I.1a est le sige des sentiments [voir CÎUR I.4a]. 2) CÏur I.1a est le sige de l'intuition [voir CÎUR I.4b]. 3) CÏur I.1a qui bat 1 reprŽsente la vie [voir les phrasmes correspondants dans CÎUR I.1a]. RŽgime 1 = X 1. de N 2. A poss C1 : le cÏur de Marie, son cÏur Fonctions lexicales Gener : organe (interne), viscre [le cÏur, le foie, les poumons et autres organes internes <viscres >] A 0 : de [ s ] [maladie de cÏur ] // cardiaque 1 [artre cardiaque, palpitations cardiaques, affections cardiaques ] Bon = Ver : bon | prŽpos; parfait, excellent; sain; fort, puissant, solide AntiBon = AntiVer : mauvais | prŽpos; faible, malade 1a Loc in : dans [le s ]; au [ s ] | C 1 = v [On le dŽcouvrit Žtendu, un poignard dans le cÏur ; ressentir une douleur au cÏur ] Loc ad : en [plein s ] [Il a reu la balle en plein cÏur ] Oper 1 : avoir [ART s ] | C. a un dŽpendant [avoir le cÏur malade <sain>] Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 173 S 1 (Oper 1 + AntiBon) : cardiaque 2 Fact 0 : battre 1; se contracter SingS 0 Fact 0 : battement [de s ] F 1 = FinFact 0 : s'arrter F 1 comme consŽquence de Excess usual : cŽder S 0 FinFact 0 : arrt [de ART s ] de nouveau CausFact 0 : ranimer [ART s ] CausFact 0 ATTR _____. PlusBon :soutenir, stimuler [ART s ] Son = Fact 0 : cogner, battre 2 [J'entends battre son cÏur ] SingS 0 Son : coup [de ART s ] [J'entendais les coups rapides de son cÏur ] S 0 AntiFact actual,0 :// attaque, crise (cardiaque 1) AntiFact usual,0 : fam battre la breloque, fam avoir des ratŽs S 0 AntiFact usual,0 : maladie 1a [de s ] // spŽc insuffisance cardiaque 1 Degrad : faiblir, flancher Degrad actual : [Cl dat ] manquer [Ë cette nouvelle, le cÏur lui manqua ] F 2 = Caus usual,1 Excess : se fatiguer [le s ] nonPerm usual,1 Excess :fam soigner 2, mŽnager [A poss s ] Excess actual : palpiter, accŽlŽrer S 0 Excess actual : // spŽc palpitations (cardiaques 1), battements prŽcipitŽs [de ART s ] AntiBon comme consŽ- quence de Excess usual : usŽ Stop(C.) Ñ Sympt 13 (peur , Žmotion ,É) :s'arrter [(de N)] Stop(C.) Ñ Sympt 123 (Žmotion forte) : [Cl dat ] flanche [(de N)] [Le cÏur lui flanche ] F 3 = Stop(C.) Ñ Sympt 13 (chagrin ) : se rompre, se briser [(de N)] CausF 3 : rompre [le s ] F 4 = Excess(C.) Ñ Sympt 13 (Žmotion forte) : fam battre la chamade [(de N)] Adv 1 F 4 : le s battant [Nous l'attendons le cÏur battant ] Excess(C.) Ñ Sympt 13 (peur, horreur, effroi, chagrin, dŽsespoirÊ) : se serrer, cogner, battre vite <fort> [(de N)] Excess(C.) Ñ Sympt 13 (joie ,amour ) : bondir, tressaillir, palpiter, frŽmir [(de N)] Excess(C.) Ñ Sympt 13 (pitiŽ, chagrin, angoisse ) : se serrer [(de N)] en forme de C. : en [ s ] [un ornement en cÏurÊ] Parties du cÏur 174 Annexes F 5 = moitiŽ latŽrale droite du C. : s droit F 6 = moitiŽ latŽrale gauche du C. : s gauche cavitŽ dans la partie supŽrieure de F 5 et de F 6 :// oreillette ([du s ]) cavitŽ dans la partie infŽrieure de F 5 et de F 6 :// ventricule ([du s ]) Affections du cÏur F 7 = syncope provoquŽe par un court arrt du C. entra”nant une grande p‰leur : syncope blanche maladie 1a entra”nant de frŽquentes F 7 : maladie 1a blanche malformation du C. chez les nouveau-nŽs : maladie 1a bleue avoir une lŽsion au C. entra”nant un souffle [bruit anormal] : avoir un souffle [au s ] hŽmorragie dans le C. : infarctus syndrome caractŽrisŽ par des douleurs dans la rŽgion du C. : angine de poitrine personne qui a une affection du C. : cardiaque 2 Traitement du cÏur discipline mŽdicale s'occupant du C. : // cardiologie examen des bruits du C. : // ausculation cardiaque 1 Žtude des enregistrements graphiques des mouvements du C. : // cardiographie mŽdicament pour le C. : // potion cordiale, cordial opŽration sur le C. qui continue ˆ battre 1 : opŽration [ˆ s fermŽ] opŽration sur le cÏur qui est arrtŽ : opŽration [ˆ s ouvert] pile Žlectrique pour stimuler le C. : stimulateur cardiaque Exemples Le cÏur te flanche, ma beautŽ? [J. Giono]. Sous l'influence de causes diverses, en particulier une mauvaise nouvelle, ou un coup violent portŽ ˆ l'estomac, le cÏur peut s'arrter pendant quelques instants, en mme temps que la respiratio : la syncope est rŽalisŽe [P. Vallery-Radot]. Il montait s'arrtant toutes les deux marches, reprenant souffle, attendant que se calment un peu les battements prŽcipitŽs de son cÏur [A. Gide]. Ë l'annonce de cette nouvelle, il Žprouva une vive douleur au cÏur. Son pauvre petit cÏur se mit ˆ battre la chamade. S'il continuait malgrŽ tout, c'est que son cÏur Žtait solide. Le cadavre Žtait froid; le cÏur avait cessŽ de battre depuis longtemps. × (Faire) la bouche en cÏur Phrasmes reliŽes ˆ CÎUR I.1a par la connotation ÔcÏur I.1a qui bat 1 reprŽsente la vieÕ Tant que ce <mon, É> cÏur battra Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 177 faon de parler Žmotionnelle qui Caus 3 Fact 0 : Žloquence du s Caus 3 Fact 1 : [Cl dat ] toucher, troubler, agiter, retourner [le s ]; [Cl dat ] aller droit [au s ], parler [ˆ ART s ], faire vibrer les cordes [du s ] Caus 3 Fact 12 : [Cl dat ] remplir, gonfler [ART s de N] [Cette nouvelle me remplit le cÏur d'espoir ] Adv 2 Fact 13 : de [ s ] [catholique de cÏur ] Fact 2 : Žprouver, ressentir [N] MagnFact 2 : tre plein, dŽborder, bržler, se consumer [de N] | Y est un sentiment fort [Mon cÏur est plein <dŽborde > de joie ] IncepFact 2 : se remplir [de N] Fact 3 : v 0 (M 2 (C.)) [(PREP) N] [Son cÏur s'attache facilement aux personnes ; Mon cÏur espre cette rencontre ] Able 1 Fact 3 : sensible [ˆ N] [Son cÏur fut sensible ˆ ces paroles ] IncepPredMinusAble 1 Fact 3 : faiblir nonAble 1 Fact 3 : inaccessible [ˆ N] Labreal 12 : avoir [N au s ] [Il avait la joie au cÏur ] F 1 = Z Žtant trs important pour X, Labreal 13 : avoir, tenir [N ˆ s ] [J'ai mon travail <cette affaire >ˆ cÏur ] IncepF 1 : prendre [N ˆ s ], se prendre [de s pour N] Z Žtant important pour X, Labreal 31 : [Cl dat ] tenir [ˆ s ] [Mon travail me tient ˆ cÏur ] Conv 21 Manif : venir [du s ] [Cette parole me vient du cÏur ] mots de X - spontanŽment S 2 Manif : cri [du s ] F 2 = (en disant ˆ W ses sentiments) ATTR ≤____ Caus 1 Manif : ouvrir, dŽcouvrir, expliquer [A poss s ˆ N], mettre, livrer, montrer [A poss s ] ˆ nu [Il mit son cÏur ˆ nu ] un peu F 2 : ouvrir [un coin de A poss s ˆ N] volontairement Caus 1 Manif :Žpancher, vider, dŽcharger [A poss s ] deviner les sentiments de X sans que X Caus 1 Manif : lire [dans le/A poss s ], sonder [le.A poss s ] nonPerm 1 Manif : cacher [A poss s ] Degrad : vieillir Excess Ñ Sympt 23 (Y) : frŽmir, tressaillir, tressauter, bondir [de N = Y] Excess Ñ Sympt 213 (un fort sentiment Y) : [Cl dat ] sauter dans la gorge [de N = Y] une partie du C. telle que son contenu est peru ou admis par X : fond, replis, secret, coin | le plus souvent avec Loc in [Au fond du cÏur <Dans les replis de son cÏur, dans le secret de son cÏurÊ>il ressentait encore de l'amour ] avoir dans le C. de la sympathie pour la per- sonne W : tre [de s avec N = W] 178 Annexes F 3 = facultŽ de X d'Žprouver dans son C., en se souvenant des faits qui avaient provoquŽ des sentiments forts, ces mmes sentiments : litt mŽmoire I.1 [du s ] IncepMagnReal 2 (F 3 ) : // se graver au fond du s Y = amour 1,2 Real 3 : vivre [dans ART s ] Caus 3 Fact actual,0 : conquŽrir, gagner [ART s ] Caus 3 Fact usual,0 : attirer [ART s ] Fact 3 : tre [ˆ N] [Mon cÏur est ˆ Pierre ] F 4 = S instr Caus 3 Fact 3 : chemin, clŽ [du s ] trouver F 4 : trouver [le chemin <la clŽ> s ] Caus 3 Fact actual,3 : [se] aliŽner [ART s ] le fait que la personne Z aimŽe de X ne contacte plus X LiquFact 3 : prov Loin des yeux, loin du s Labreal 13 : porter [N dans A poss s ] Žtat des C. des personnes qui s'aiment : union [des ss] | C. au pl Y = amour 2 A 0 : de [Ø/ART s ] [amant <affaire, problme, histoire, drame, peine, sa dameÊ> de cœur, courrier du cœur ] IncepReal 13 : donner [A poss s ˆ N] A 1 Fact 0 : pris [Elle a le cÏur pris ], Žpris Caus 3 Fact 0 : possŽder [ART s ], tre ma”tre [de ART s ] A 1 nonFact 0 : libre, ˆ prendre Fact 3 : appartenir [ˆ N] beaucoup de X + Caus 3 Fact 3 : tra”ner tous [les ss] aprs soi homme Ñ S 1 Able 1 Caus 3 Fact 3 : bourreau [de ss] | C. au pl femme Ñ S 1 Able 1 Caus 3 Fact 3 : charmeuse [de ss] | C. au pl F 5 = dans le but que Z Caus 3 Fact 0 , Caus 1 Manif ˆ Z : offrir [A poss s ˆ N = Z] F 6 = en rŽponse ˆ F 5 , Z Caus 1 Manif ˆ X : accorder [A poss s ˆ N = X] AntiF 6 : refuser [A poss s ˆ N = X] Y = chagrin Fact 0 : saigner, pleurer Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 179 CausFact 1 : [Cl dat ] blesser, broyer, briser, crever, dŽchirer, fendre, oppresser, percer, transpercer, serrer, ronger [le s ] [Cette nouvelle lui brisa le cÏur ] S res CausFact 1 : blessure [au s ] Y = dŽsir Real 1 : avoir [le s ˆ V inf ] [Il avait le cÏur ˆ rire ] AntiAdv 1 Real 1 : ˆ contrecÏur X refuse volontairement ce que son C. Fact 0 : bouder [contre A poss s ] Fact 1 : [le/A poss s dire Cl dat de V inf ] [Mon cÏur me dit de me promener ] Y = joie Real 1 : avoir [du s ˆ N] | N = ouvrage, travail, t‰che,É Adv 1 Real 1 : de bon <grand, tout> s , de gaietŽ de s [Il accepta de bon cÏur ] Y = plaisir Real 3 : tre [selon A poss s ] Fact 0 : chanter A 1 Fact 0 : le s en fte Caus 3 Fact actual,0 : captiver [ART s ] [Ce chant captivait son cÏur ] Caus 3 Fact 1 : rŽchauffer, rŽjouir [ART s ] Fact 3 : y tre [Il faisait son travail avec diligence, mais le cÏur n'y Žtait pas ] Y = sentiment pŽnible F 7 = Real 1 : avoir [le s gros <lourd> de N], avoir un poignard <une Žpine> [dans le s ] AntiF 7 : avoir [le s lŽger] ˆ cause d'un amour 2 non partagŽ, Real 1 : avoir [le s ] en Žcharpe Real 3 : [Cl dat ] rester, demeurer, peser [sur le s ]; rester en travers [du s ] [Le silence de cet homme injuste me resta sur le cÏur ] F 8 = A 1 Fact 0 : le s gros <lourd> | postpos AntiF 8 : le s lŽger | postpos CausFact 1 : [Cl dat ] glacer, littÊtransir, oppresser [le s ] | M 2 (C.) = peur ; [Cl dat ] pincer, ronger, empoisonner [le s ] | M 2 (C.) = haine, envie, jalousie CausMinusFact 1 : [Cl dat ] soulager, apaiser, calmer [le s ] Fact 2 : tre bourrelŽ [de remords] | M 2 (C.) = remords Labreal 13 : avoir (fort) [N sur le s ], en avoir gros [ˆ V inf sur le s ] [J'ai ce soufflet fort sur le cÏur ; Il en avait gros sur le cÏur ˆ leur dire adieu ] ContLabreal 13 : garder [N sur le s ] 182 Annexes Caus 1 Func 0 + F 4 : se mettre [du s ] au ventre A 2 Manif + C. 2 _____. bienveillant : plein de s // cordial 2 [mot <accueil >cordial ] A 1 Caus 1 Manif + C. 2 _____. bienveillant : // cordial 1 [personne cordialeÊ] C. 2 _____. hypocrite : s double F 6 = C. 2 _____. insensible : s sec, s de glace, s d'airain, s de pierre, litt s de granit, vieilli s de bronze CausPredF 6 : [Cl dat ] durcir [ART s] [Les nombreux malheurs lui durcissent le cÏur ] F 7 = C. 2 _____. mŽchant : s noir, s de vipre S 0 (F 7 ) : noirceur du s A 1 + F 7 : sans-cÏur [ce voyou sans-cÏurÊ] PredF 7 : tre [sans s ], manquer [de s ] bien que X dise des choses agrŽables, X a F 7 : prov Bouche de miel, s de fiel C. 2 _____. peureux : s de poulet C. 2 _____. infidle : s d'artichaut CausPred(C. 2 _____. malhonnte) : dŽpraver, corrompre [ART s ] Exemples Les natures au cÏur sur la main ne se font pas l'idŽe des jouissances solitaires de l'hypocrisieÉ[Barbey d'Aurevilly]. Comme un soldat qui prend la goutte ˆ boire pour se mettre du cÏÏur au ventreÉ [J. Giono]. Mais je n'aurais jamais le cÏur de pouvoir prŽfŽrerl'un de vous deux ˆ l'autre. Ce voyou sans cÏur et sans honneur, ce bandit! S'il te reste un cÏur, attends jusqu'ˆ demain! Ceux qui avaient encore un peu de cÏur l'ont perdu. Cet acte rŽvle la noirceur de son cÏur. I.5b. CÏur Y = Personne possŽdant le cÏur I.5a Y [= S 1 (cÏur I.5a )]. RŽgime 1 = Y 1. de N 2. A C 1 : un cÏur de fer Fonctions lexicales Les FL Syn et celles de type C. 2 _____. M 2 : |̂ CÎUR I.5a C. courageux peut tout rŽussir : prov Ë s vaillant, rien d'impossible Exemples Quoi? dans leur duretŽ ces cÏur d'acier s'obstinent [P. Corneille]. C'est un cÏur de fer, indomptable. Vous devez de trs humbles excuses ˆ un noble cÏur, votre fils. Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 183 II.1a CÏur de X = Partie principale d'une unitŽ fonctionnelle X o l'activitŽ caractŽristique de X est la plus intense. RŽgime 1 = X 1. de N 2. A poss C 1 : le cÏur du bateau <de l'usineÊ>, son cÏur Exemples La rue Sainte-Catherine est le cÏur de MontrŽal. En un point qui n'est pas tout ˆ fait le centre du terrier, mais quia ŽtŽ mžrement choisi pou un cas d'extrme pŽril, j'ai b‰ti le cÏur de ma citadelle. La chaleur produite dans le cÏur du rŽacteur est transfŽrŽe par un fluide caloporteur ˆ un circuit eau-vapeur. II.1b. CÏur de X = ƒlŽment principal de X [= FL non standard Çpartie principaleÈ(X) | X = dŽbat, sujet, question, problme, discussion, querelle, contrverse, document ,É, mais pas *pome , *roman ,É]. RŽgime 1 = X 1. de N C 1 : le cÏur du problme <de l'intrigue > Exemples Cette attitude nous mne au cÏur d'une querelle <au cÏur de la controverse philosophique>. Nous Žtions parvenus au cÏur de sujet. Mais le cÏur du document Žtait bel et bien l'installation des rŽfugiŽs. Touts ses Ïuvres paraissent dŽcouler d;une conception centrale, du cÏur mystŽrieux de sa philosophie. II.2a. pas de pl. CÏur de X = Partie centrale d'un espace topographique X. RŽgime 1 = X 1. de N 2. A poss C 1 : le cÏur du royaume , son cÏur Fonctions lexicales Syn : centre, milieu 184 Annexes Loc in : dans [ART s ], au [ s ] Magn [ÔcentraleÕ] + Loc in : en plein s Loc ab : du [ s ] Exemples C'est au cÏur de cette fort que se trouvaient les deux colonnes [G. de Sde]. Il s'agit pour lui ˆ la fois de reculer ses frontires jusqu'au cÏur de la Germanie [G. de Sde]. ÉÊles oasis les plus douces, les plus riches du cÏur de l'Asie [J. Kessel]. Voilˆ l'ennemi dans le cÏur du royaume! Pourquoi lui, SŽjan, chef des 10 000 lŽgionnaires qui gardaient le cÏur de l'Empire romain, ne deviendrait-il pas le ma”tre de cet Empire tout entier? Une source qui jaillit directement du cÏur du rocher. Il faut au moins protŽger le cÏur de ce jardin. Des lianes moussues au cÏur des buissons de lilas. Les manifestations se sont rendues en cortge au pied du tombeau en plein cÏur de la capitale polonaise. II.2b. CÏur de X = Partie centrale Ñ en Žpaisseur Ñ d'une plante X ou de la partie X d'une plante, qui est perue comme distincte des autres parties de X. RŽgime |̂ CÎUR II.2a C 1 : le cÏur de ce bouleau, son cÏur Fonctions lexicales Toutes les FL : |̂ CÎUR II.2a enlever le C. : // spŽc dŽcÏurer [dŽcÏurer une pice de bois ] Exemples Ils devaient aussi se repasser le cÏur de la salade, le blanc de la poularde et le foie du lapin! [M. Pagnol]. Les vieilles souches (de vigne0 sont pourries jusqu'au cÏur, et le fruit n'en vaut gure [P.-L. Courier]. Ces troncs d'arbre ŽchouŽs sur les plages [É] et que le soleil et la mer ont dessŽchŽs jusqu'au cÏur [S. Schwartz-Bart]. Le cÏur du bouleau est malade. Un ver sortit du cÏur de la pomme. Les deux pieds de laitue Žtaient aussi verts que la jeune herbe tendreÊ; leurs feuilles cachaient le cÏur blanc et repliaient les unes sur les autres. ×II.2 Ë cÏur [fromage fait ˆ cÏur ] Au cÏur <En plein cÏur> de Comme le cÏur de la cheminŽe [noir comme le cÏur de la cheminŽe ] II.3. CÏur de X = Objet en matire X ayant la forme symbolique du cÏur I.1a. RŽgime 1 = X 1. en N C 1 : un cÏur en carton <papier, sucre, tissu ,É> Exemples Elle portait au cou un cÏur suspendu ˆ une cha”ne. × CÏur de Marie <de Jeannette> CÏur-de-pigeon Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 187 Anti p : respect I Anti i : considŽration, Žgard; dŽfŽrence, estime V 0 : mŽpriser I A 0 : mŽprisant I.1 [attitude mŽprisante ] Gener : attitude, sentiment [de Ø/ART s ] [sentiment d'un profond mŽpris ] S 1p : litt contempteur S 2/3 : objet [de Ø/ART s ] [Le prŽsident <Sa prise de positionÊ> est l'objet d'un grand mŽpris ] Magn quant,1 + S 2 : paria A 1 : plein [de Ø/ART s ] | C 2 =,/ C 2.1 [Il s'est montrŽ plein de mŽpris <d'un mŽpris insultant > pour ses confrres ] // mŽprisant I.2 [Quand il voit tant de malhonntetŽ, il devient mŽprisant ] A 2 : couvert [de Ø/ART s ] | Y dŽsigne une personne tel qu'il doit PredA 2/3 : digne [de Ø/ART s ] // mŽprisable [Paul <Sa malhonntetŽ > est mŽprisableÊ] PredAble 1 : enclin, portŽ [ˆ ART s ], fam avoir [le s ] facile | C 2 = v PredAble 2/3 : mŽriter [ART s ] Qual 1 : dŽdaigneux, hautain, snob, arrogant, condescendant Qual 2 : abject, ignoble, infect, inf‰me, bas, misŽrable 2, sordide, dŽgožtant, rŽpugnant, vil, indigne, odieux Magn : grand, profond, absolu, souverain, sans bornes; hautain, froid PredMagn : ne pas conna”tre <avoir> de bornes Magn quant,1 : collectif, public, gŽnŽral, universel IncepPredPlus : s'accro”tre [Le mŽpris de l'argent s'acccro”t de plus en plus dans certains groupes sociaux ] Caus (3) PredPlus : accro”tre [ART s ] [La cupiditŽ de leur sÏur n'a fait qu'accro”tre leur mŽpris de l'argent ] IncepPredMinus : diminuer, s'attŽnuer [Son mŽpris s'est beaucoup attŽnuŽ aprs qu'il l'ežt connu ] Ver : justifiŽ, (bien) fondŽ, lŽgitime, mŽritŽ AntiVer : injustifiŽ, mal fondŽ < non fondŽ Adv 1 : dans [ART s ] | C 2 =,/ v, et G = vivre, se dŽrouler [Jean vit dans un profond mŽpris pour tous ceux qui ne sont pas de son rang social ]; avec [ART s ] | C 2 (G) = Y [Jean regarde ses collgues avec un mŽpris souverain ] Propt : par [ s ] [Il a refusŽ de rŽpondre par mŽpris des jugesÊ] Oper 1 : avoir, Žprouver [ART s ] | C 2 =,/ v Oper 2 : tre en butte [ˆ ART s ] | Y dŽsigne une personne, et C 1 \o(=,/) v ou M. ATTR _____. Magn quant,1 [Jean est en butte au mŽpris de tout le monde ], tre victime [de ART s ], subir [ART s ] IncepOper 2 : tomber, litt sombrer [dans les s ] [Le prŽsident <La scienceÊ>, ˆ la suite de ces ŽvŽnements, tomba dans le mŽpris gŽnŽral ] Magn quant,1 + CausOper 2 : // mettre, clouer [N = Y] au pilori | Y dŽsigne une personne FinFunc 0 : dispara”tre [Son mŽpris des gens peu fortunŽs a disparu ] 188 Annexes Caus 2 Func 0 : encourir [ART s ] [Jean a encouru le mŽpris de tous ]; atttirer [ART s ] | Y dŽsigne une personne, et C 1 =,/ v, ou M. ATTR_____. Magn quant,1 [Paul s'est attirŽ le mŽpris gŽnŽral par son hypocrisie ] Caus 3 Func 1 : engendrer [ART s chez N] [La familiaritŽ engendre le mŽprisÊ] Caus (3) Func 1 : apprendre, inculquer [ART s ˆ N] [Jean inculque ˆ ses Žtudiants le mŽpris de l'hypocrisie ; Son attitude partiale envers ses employŽs apprend ˆ ces derniers le mŽpris de leur chefÊ] Caus (2/3) Func 1 : inspirer [ART s ˆ N] [Cet ŽvŽnement inspire aux travailleurs le mŽpris de leur patron ; L'argent inspirait ˆ ce philosophe un tel mŽpris qu'il a donnŽ son hŽritage ˆ son frreÊ; L'hypocrisie de Jean leur inspirait un profond mŽprisÊ] Caus 3 Func 2 : attirer, valoir [ART s ˆ N] | C 1 =,/ v, ou M. ATTR_____. Magn quant,1 [Ses dŽclarations lui attirrent <valurent > le mŽpris d'un bon nombre de citoyens ] Labor 12 : tenir [N en s | M. sans dŽpendant/ dans ART s | M. a un dŽpendant] | Y dŽsigne une personne [Pierre tient Jean en mŽpris ] Conv 21 Manif : dŽnoter, montrer, traduire [ART s] malgrŽ X, Conv 21 Manif : trahir [ART s] A 2 Manif : plein, empreint [de ART s ] | C 2 =,/ C 2.1 // mŽprisant I.1 Caus 1 Manif : manifester, montrer, marquer, affecter, afficher, tŽmoigner [ART s], faire preuve [de Ø/ART s] SingS 0 Caus 1 Manif : manifestation, signe, marque, preuve, geste 2 [de Ø/ART s] (des paroles ou un comportement grossier en public) 3 ≤___ Caus 1 Manif : // conspuer, huer, bafouer 2, litt vilipender, vieilli honnir [N] (des paroles ou un comportement grossier envers Y) 3 ≤___ Caus 1 Manif : [Cl dat ] cracher [A poss s ] ˆ la figure [Je voudrais les Žcraser sous mes pieds et leur cracher mon mŽpris ˆ la figure ]; couvrir [N de ART s ] [Elle le couvrit de son mŽpris en le toisant des pieds ˆ la tte ] F 1 = la personne pour laquelle le locuteur Caus 1 Manif : canaille, fam con, fam salaud, fam ordure, fam cochon, fam sale type, pop couillon, pop salope, pop saligaud, pop fumier, É Mult(F 1 ) : engeance Mult(personnes ou choses pour lesquelles le locuteur Caus 1 Manif) : ramassis [de N] Adv 1 Caus 1 Manif : avec [Ø/ART s] [Jamais personne ne me toisa avec mŽpris comme le fit Charles ce jour-lˆ ] Perm 1 Manif : dŽverser [ART s sur N] nonPerm 1 Manif : refrŽner [ART s ] un sourire spŽcifique Ñ Sympt 23 : sourire [de s ] S 0 (sourire en grima- ant Ñ Sympt 23 : rictus [de s ] ricaner Ñ Sympt 23 : ricanet [de s ] Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 189 regarder d'une faon effrontŽ Ñ Sympt 2 : // toiser [N] (des pieds ˆ la tte) hausser les Žpaules Ñ Sympt 23 : hausser les Žpaules [de s ] Exemples L'Anglaise reconnut sa rivale et fut glorieusement anglaise; elle nous enveloppa d'un regard plein de son mŽpris anglais et disparut dans la bruyre avec la rapiditŽ d'une flche [H. de Balzac]. Je vais peut-tre vous para”tre vieux jeu, mais j'ai un mŽpris sans bornes pour ces femmes qui vont d'amant en amant, le plus souvent sans amour, pour des raisons de prestige ou de carrire [A. Maurois]. Rien ne m'a plus donnŽ un absolu mŽpris du succs que de considŽrer ˆ quel prix on l'obtient [G. Flaubert]. Le mŽpris ‰cre et froid des passants lui pŽnŽtrait dans la chair et dans l'‰me comme une bise. II. pas de pl. MŽpris par X de Y = S 0 (mŽpriser II ). RŽgime 1 = X 2 = Y 1. A poss 1. de N obligatoire C 2 : le mŽpris des lois <de la libertŽ de presse, du danger > C 1 + C 2 : son mŽpris de l'horaire <de la dŽcision de sa femme, des insultes > Fonctions lexicales Magn quant,1 , IncepPredPlus : |̂ MƒPRIS I Syn i : dŽdain, indiffŽrence, dŽtachement Anti p : respect II.1; respect II.2 Anti i : considŽration; attachement, intŽrt; peur, crainte V 0 : mŽpriser II Magn : grand, absolu, total; hautain CausPredPlus : accro”tre, augmenter [ART s ] [L'attitude du tribunal accroissait son mŽpris des menaces ] IncepPredMinus : diminuer, s'attŽnuer [Le mŽpris de la vie s'attŽnue ] Ver : justifiŽ AntiVer : injustifiŽ, insensŽ Adv 1 : au [ s ], avec [ART s ] | C 2 =,/ v [Au mŽpris du danger, il s'est lancŽ ˆ la poursuite de l'agresseur ; Il a fait cette dŽclaration avec un mŽpris total des insultes ] Oper 1 : avoir [ART s ] [Le ministre a un mŽpris total de la libertŽ de presse ] CausOper 1 : conduire, pousser [N ˆ ART s ] [Ses camarades le conduisent au mŽpris des humiliations ] CausFunc 1 : inspirer [ART s ˆ N] [Cet ŽvŽnement inspire aux citoyens le mŽpris du danger ] 192 Annexes 2a. X enseigne Y ˆ Z = X Žnonce une affirmation Y 1 , qui fait partie d'une doctrine Y 2 proposŽe 4a par X, dans le but de causer que Z sache I le contenu de Y. RŽgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP 1. ˆ N 2. rare N 1) C 2 : obligatoire s'il n'y a pas de C 3.2 2) C 2 + C 3.2 : impossible C 1 + C 2 : Les philosophes enseignent l'ŽgalitŽ entre les hommes <que les hommes sont Žgaux > C 1 + C 2 + C 3.1 : Socrate enseignait ˆ ses disciples que la connaissance de soi est fondamentale C 1 + C 3.2 : Allez enseigner toutes les nationsÉ [Bible] Fonctions lexicales Syn i : prcher, professer 2 S 1 : ma”tre II.5, gourou S 2 : enseignement 2 S 3 : disciple Exemples Darwin enseignait que les espces sont issues les unes des autres selon les lois de la sŽlection naturelle. Il faut toujours enseigner la vŽritŽ aux hommes. Pythagore enseignait qu'aprs la mort nous renaissions dans la nature. 2b. X enseigne Y ˆ Z = X contient une affirmation Y 1 qui fait partie d'une doctrine Y 2 proposŽe 4a dans X [comme si X enseignait 2a Y ˆ Z]. RŽgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP obligatoire 1. ˆ N C 1 + C 2 : La Bible enseigne la transcendance de Dieu <que Dieu est transcendantÊ> C 1 + C 2 + C 3 : La Bible nous enseigne que Dieu est transcendant Fonctions lexicales S 2 : enseignement 2 Exemples d articles du Dictionnaire Explicatif et Combinatoire du Franais Contemporain 193 Exemples Le christianisme enseigne qu'il faut aimer son prochain comme soi-mme. 3a. X enseigne Y ˆ Z = PropriŽtŽ ou action de X cause que Z apprenne I.a Y. RŽgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. que PROP obligatoire 1. ˆ N C 1 + C 2 : L'histoire enseigne le dŽclin de toutes les civilisations <que toutes les civilisations sont appelŽes ˆ dispara”treÊ> C 1 + C 2 + C 3 : L'expŽrience nous enseigne que la guerre n'a jamais rŽsolu les problmes Fonctions lexicales Syn : apprendre I.b S 2 : enseignement 3 Exemples Leur attitude au sage enseigne / Qu'il faut en ce monde qu'il craigne / Le tumulte et le mouvement [Ch. Baudelaire]. L'exemple de mes parents m'a enseignŽ le courage bien plus que ne l'auraient fait des discours. 3b. X enseigne Y ˆ Z = PropriŽtŽ ou action de X cause que Z apprenne II.a Y. RŽgime 1 = X 2 = Y 3 = Z 1. N 1. N 2. ˆ V inf obligatoire 1. ˆ N C 1 + C 2 : La servitude enseigne la ruse <ˆ ruser > C 1 + C 2 + C 3 : Mon pre m'a enseignŽ la prudence par son exemple Fonctions lexicales Syn : apprendre II.b Syn i : inculquer, Žduquer Exemples Un bon ma”tre a ce souci constant : enseigner ˆ se passer de lui [A. Gide]. Le feu du soleil [É] enseignait la patience [J. Kessel]. C'est sa mre qui lui a enseignŽ la coquetterie. 194 Annexes ƒTONNANT, adj. 1. X qui Žtonne 1 [ 2. É qui frappe par son caractre remarquable [un film Žtonnant, ] 1. [X ] Žtonnant = X qui Žtonne 1 [= A 1 (Žtonner 1 )]. Fonctions lexicales Syn p : surprenant Magn : trs, fort, bien // stupŽfiant, ahurissant, Žbahissant, fam Žpostouflant 2. [X ] Žtonnant = [X] qui frappe par son caractre remarquable [comme si X Žtait Žtonnant 1]. Fonctions lexicales Syn p : remarquable 2 Anti : ordinaire Magn p : // formidable, extraordinaire 2, merveilleux Exemples Un film Žtonnant, une femme Žtonnante ƒTONNƒ, adj. 1. [X] qui s'Žtonne de Y [ƒtonnŽ devant ce spectacle inattendu, Jean s'est tž ] 2. É tel que Z manifeste l'Žtonnement de X [des yeux ŽtonnŽs] 1. [X ] ŽtonnŽ de Y = [X] qui s'Žtonne de Y [= A 1 (s'ŽtonnerÊ)]. RŽgime 2 = Y 1. devant N 2. de V inf C 2 :ƒtonnŽ devant ce spectacle inattendu <de voir son ami dans un tel ŽtatÊ> Jean s'est tž Fonctions lexicales Syn : surpris 1 Magn : bien, fort, trs // stupŽfait, ahuri, Žbahi, sidŽrŽ, abasourdi, bouche bŽe, fam soufflŽ, fam baba Exemples Une fille ŽtonnŽe. Il lui Žcrivit une lettre et fut trs ŽtonnŽ de recevoir une rŽponse. Tout le monde a ŽtŽ ŽtonnŽ de son comportement. Fort ŽtonnŽ devant la tournure des ŽvŽnements, Pierre se demandait quoi faire. 2. [Z de X ] ŽtonnŽ = [Z de X] tel que Z manifeste l'Žtonnement de X [= A 2 Manif(s'Žtonner )]. Fonctions lexicales Syn : surpris 2 Exemples Les yeux ŽtonnŽs.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved