Docsity
Docsity

Prépare tes examens
Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity


Obtiens des points à télécharger
Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium


Guides et conseils
Guides et conseils

Notes sur le système universel de bases lexicales - 1° partie, Notes de Langue Française

Notes de langue sur le système universel de bases lexicales - 1° partie. Les principaux thèmes abordés sont les suivants: des dictionnaires sur papier aux bases lexicales, Dictionnaires sur support Žlectronique, Systmes lexicaux spŽéciaux.

Typologie: Notes

2013/2014

Téléchargé le 26/03/2014

Daphnee_r
Daphnee_r 🇫🇷

4.1

(64)

392 documents

1 / 68

Documents connexés


Aperçu partiel du texte

Télécharge Notes sur le système universel de bases lexicales - 1° partie et plus Notes au format PDF de Langue Française sur Docsity uniquement! Table des matières INTRODUCTION 1 ƒTAT DE LÕART ET PROBLéMES INTƒRESSANTS 3 I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 1. Dictionnaires sur papier............................................................................................ 6 1.1. Dictionnaires monolingues ....................................................................................... 6 1.2. Thesaurii.................................................................................................................... 8 1.3. Dictionnaires bilingues ............................................................................................. 9 1.4. Dictionnaires multilinguesÊ ...................................................................................... 10 2. Dictionnaires sur support Žlectronique .................................................................. 11 2.1. Un format de codageÊ: SGML/TEI............................................................................ 12 2.2. Dictionnaires en ligne: le Collins On-Line ............................................................. 13 2.3. Gestionnaires de dictionnaires terminologiquesÊ: MTX Termex ............................ 14 2.4. Un environnement originalÊ: le Dicologique .......................................................... 14 3. Systmes lexicaux spŽcialisŽs ................................................................................. 16 3.1. BDLex ...................................................................................................................... 16 3.2. Dictionnaires du LADL............................................................................................ 17 3.3. Ariane ...................................................................................................................... 17 3.4. BDTAO.................................................................................................................... 19 3.5. METAL ..................................................................................................................... 19 II. EFFORTS EN COURS 21 1. Le Lexicaliste ........................................................................................................... 22 ii Table des matires 1.1. Vue gŽnŽrale du systme ........................................................................................ 22 1.2. RŽseau lexical et sŽmantique.................................................................................. 23 1.3. VŽrifications de cohŽrence et valeurs par dŽfaut ................................................... 23 2. EDR ......................................................................................................................... 24 2.1. Architecture lexicale ............................................................................................... 24 2.2. Architecture linguistique......................................................................................... 25 2.3. Dictionnaire de concepts ........................................................................................ 27 3. GENELEX.................................................................................................................. 31 3.1. Le modle conceptuel de GENELEX ....................................................................... 32 3.2. Vue gŽnŽrale dÕune unitŽ du lexique ..................................................................... 33 3.3. Le modle morphologique ..................................................................................... 34 3.4. Le modle syntaxique ............................................................................................. 36 3.5. Le modle sŽmantique............................................................................................ 38 4. MULTILEX................................................................................................................. 39 4.1. Architecture lexicale ............................................................................................... 39 4.2. Architecture linguistique......................................................................................... 40 4.3. Architecture logicielle ............................................................................................. 42 III. LES PROBLéMES INTƒRESSANTS 45 1. Architecture lexicale ............................................................................................... 45 2. Architecture linguistique......................................................................................... 48 3. PrŽsentation de lÕinformation ................................................................................. 49 CONCEPTION D'UNE BASE LEXICALE MULTILINGUE MULTIAPPLICATIONS 51 INTRODUCTION 53 IV. DƒFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 1. DŽfinition de lÕarchitecture lexicale ....................................................................... 55 1.1. Exemples ................................................................................................................. 55 1.2. Le langage de dŽfinition de lÕarchitecture lexicaleÊ: LEXARD .................................. 59 2. DŽfinition de lÕarchitecture linguistique ................................................................. 60 2.1. Exemples ................................................................................................................. 61 2.2. Le langage de dŽfinition de lÕarchitecture linguistiqueÊ: LINGARD ......................... 75 2.3. ImplŽmentation ....................................................................................................... 87 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 1. Architecture logicielle ............................................................................................. 91 2. Niveau InterneÊ: manipulation des informations linguistiques............................... 92 Liste des figures I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (Ždition de 1970) ............................................. 6 Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ..................................................................... 7 Figure 1.3Ê: Un article du RodgetÕs thesaurus .............................................................................. 8 Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. ............................................................................... 9 Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation ...................... 9 Figure 1.6Ê: Un exemple d'article du Robert & Collins.............................................................. 10 Figure 1.7Ê: Une entrŽe du dictionnaire terminologique des sciences de lÕinformation .......... 11 Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh ................................. 13 Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex ........................................... 14 Figure 1.10Ê: Exemple de la structure des ŽlŽments du Dicologique ....................................... 15 Figure 1.11Ê: Un exemple dÕentrŽes de BDLex.......................................................................... 17 Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ .................................................. 17 Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier de la sŽrie noireÓÉ ................................................................................................................... 17 Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex................................................................... 18 Figure 1.15Ê: Une entrŽe lexicale de BDTAO ............................................................................ 19 II. EFFORTS EN COURS 21 Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste .............................................. 22 Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire ........................................................... 22 Figure 2.3Ê: Architecture lexicale du projet EDR ....................................................................... 25 vi Liste des figures Figure 2.4Ê: Structure dÕune entrŽe de dictionnaire monolingue EDR ...................................... 25 Figure 2.5Ê: Exemple dÕentrŽe de dictionnaire monolingue EDR ............................................. 25 Figure 2.6Ê: Un exemple dÕinformation grammaticale associŽe ˆ une entrŽe .......................... 26 Figure 2.7Ê: Exemple dÕinformation sŽmantique associŽe ˆ une entrŽe ................................... 26 Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR .............................................. 26 Figure 2.9Ê: Exemple dÕentrŽes de dictionnaire bilingue .......................................................... 26 Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues ................................................. 27 Figure 2.11Ê: Un exemple de classification de concepts ........................................................... 30 Figure 2.12Ê: Un extrait de la hiŽrarchie de concepts du dictionnaire EDR.............................. 30 Figure 2.13Ê: Le mŽcanisme dÕhŽritage et les relations nŽgatives ............................................. 31 Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique....................................................... 33 Figure 2.15Ê: Un exemple dÕunitŽ morphologique simple prŽsentŽe sous forme graphique .. 35 Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif) .......................... 37 Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ .......................................... 37 Figure 2.18Ê: Un exemple de relations entre les diffŽrents modles GENELEX......................... 38 Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX ..................................................................... 39 Figure 2.20Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX ............................................ 41 Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ ..................................... 41 Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX ................................................................................................................................................... 42 III. LES PROBLéMES INTƒRESSANTS 45 Figure 3.1Ê: Une base lexicale basŽe sur lÕapproche bilingue................................................... 46 Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue. ............................................. 47 IV. DƒFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 Figure 4.1Ê: Base lexicale quintilingue fondŽe sur une approche bilingue unidirectionnelle . 56 Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue.......................... 58 Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte ............................ 58 Figure 4.4Ê: Un exemple dÕentrŽe de dictionnaire..................................................................... 61 Figure 4.5Ê: Table des attributs et de leurs valeurs possibles .................................................... 61 Figure 4.6Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX .............................................. 64 Figure 4.7Ê: Structure commune aux unitŽs morphologiques de GENELEX.............................. 66 Figure 4.8Ê: Structure de lÕUM simple ........................................................................................ 67 Figure 4.9Ê: RŽgime dÕenseigner 1, sous forme dÕautomate ...................................................... 72 Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale ..... 73 Figure 4.11Ê: Vue globale du treillis (Σ,<<)................................................................................ 76 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 Figure 5.1Ê: Architecture logicielle du systme SUBLIM............................................................. 92 Figure 5.2Ê: Un article vu sous forme de table des matires ..................................................... 96 Figure 5.3Ê: Le mme article vu sous la forme habituelle.......................................................... 97 Figure 5.4Ê: Vue intŽgrale de lÕentrŽe composer (transitif)....................................................... 99 Liste des figures vii Figure 5.5Ê: Vue intŽgrale de lÕentrŽe composer (intransitif) .................................................. 100 Figure 5.6Ê: Vue Žditoriale du dictionnaire bilingue ............................................................... 101 Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. ........................................................ 102 Figure 5.8Ê: Premire Žtape du processus dÕexport................................................................. 111 Figure 5.9Ê: Seconde Žtape du processus dÕexport.................................................................. 112 VI. LÕAPPROCHE PAR ACCEPTIONS 121 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idŽales ..................................... 122 Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river............................................ 122 Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement. 122 Figure 6.4Ê: Un exemple de lien de raffinement motivŽ par un phŽnomne contrastif non sŽmantique .............................................................................................................................. 123 Figure 6.5Ê: Un ensemble de dictionnaires monolingues........................................................ 124 Figure 6.6Ê: Une base de connaissances .................................................................................. 124 Figure 6.7Ê: Une base lexicale fondŽe sur la connaissance ..................................................... 124 Figure 6.8Ê: Le systme de gestion lexicale dÕULTRA ............................................................... 126 Figure 6.9Ê: CrŽation du dictionnaire dÕacceptions, premire Žtape. ...................................... 127 Figure 6.10Ê: ƒtat de la base lexicale aprs avoir liŽ rivire, avant dÕavoir liŽ fleuve ............. 128 Figure 6.11Ê: Configuration illicite dŽtectŽe par le systme .................................................... 128 Figure 6.12Ê: Les diffŽrentes solutions aux problmes contrastifs. ......................................... 128 Figure 6.13Ê: Le dictionnaire monolingue de PARAX............................................................... 130 Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ................................................... 131 Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois ... 131 Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois ................................................................................................................................................. 132 Figure 6.17Ê: Une entrŽe chinoise correspondant ˆ lÕacception Ò#acheter_commerceÓ......... 132 Figure 6.18Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_commerceÓ ............................................................................................................. 133 Figure 6.19Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Franaise Ò#acheter_corrompreÓ ............................................................................................................. 133 VII. IMPLƒMENTATION 137 Figure 7.1Ê: Le lien de synonymie interlingue doit se reflŽter dans le dictionnaire monolingue ................................................................................................................................................. 141 Figure 7.2Ê: Configuration illicite dans le sous-rŽseau de synonymie englobante Syn∩ ....... 142 Figure 7.3Ê: Configuration illicite dans le sous rŽseau lexical interdictionnaire de synonymie englobante Syn∩..................................................................................................................... 142 ANNEXE BÊ: INTRODUCTION Ë GRIF 165 Figure B.1Ê: Une instance de document de la classe Anthology ............................................ 168 2 Introduction linguistiques complexes dÕune manire naturelle. Cette approche universelle permet la crŽation de bases lexicales pour des usages diffŽrents, automatiques aussi bien quÕhumains. Lorsque lÕon veut construire des bases lexicales comportant de nombreuses langues, une approche interlingue semble sÕimposer. Cependant, les projets EDR et KBMT, fondŽs sur la connaissance ÒextralinguistiqueÓ du domaine du discours, ont rencontrŽ des problmes thŽoriques complexes (raffinement des concepts, classification et exceptions, description des conceptsÉ), avec pour consŽquence un cožt ŽlevŽ de dŽveloppement et des problmes de cohŽrence. CÕest pourquoi, comme le projet ULTRA, nous avons choisi pour nos applications de privilŽgier une architecture lexicale interlingue fondŽe sur les connaissances linguistiques plut™t que sur les connaissances extralinguistiques. Le lexique ÒpivotÓ nÕest alors plus formŽ de ÒconceptsÓ (indŽpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des langues en prŽsence. Les bases utilisant cette architecture sont appelŽes Òbases NADIAÓ. Nous avons dŽveloppŽ autour de SUBLIM des outils facilitant la gestion de bases NADIA. Dans une base NADIA, on dŽfinit deux nouvelles classes de dictionnaires hŽritant des classes monolingues et interlingues de SUBLIM. On introduit aussi de nouvelles mŽthodes pour leur gestion, ainsi que des ÒunitŽs dictionnairiquesÓ (acceptions monolingues, acceptions interlinguesÉ) dont le linguiste hŽrite pour dŽfinir son architecture linguistique. Pour que SUBLIM (et a fortiori NADIA) puisse tre utilisable pour dŽfinir, construire et maintenir des dictionnaires de grande taille, ˆ usage ÒmachinalÓ aussi bien quÕhumain, il doit intŽgrer des outils conviviaux permettant dՎditer, de parcourir et de manipuler des structures complexes dans diffŽrents modes, textuels et graphiques. Pour cela, nous utilisons Grif, un puissant Žditeur de documents structurŽs. LÕutilisation de diffŽrentes vues dÕune mme structure permet la crŽation et le formatage dÕun dictionnaire sous diverses formes (textes SGML, formulaires, graphiques, dictionnaires imprimablesÉ). Pour la maintenance, il est Žgalement intŽressant de visualiser une structure linguistique sous diffŽrentes formes, avec possibilitŽ de cacher une partie de lÕinformation. Nous dŽfinissons aussi dÕautres outils facilitant la gestion et lÕexploitation des dictionnaires (vŽrification de cohŽrence, import/export, rgles de valeurs par dŽfautÉ). Ces outils sont organisŽs au sein dÕune architecture ˆ trois niveaux sŽparant clairement les problmes de stockage, de manipulation et de visualisation. Dans la premire partie de ce document, nous prŽsentons les travaux qui ont ŽtŽ effectuŽs dans le domaine. Cela nous permet ensuite dÕanalyser les problmes des dictionnaires et dՎvaluer les solutions qui ont ŽtŽ proposŽs par les auteurs des diffŽrents systmes. La seconde partie dŽfinit le projet SUBLIM de systme universel de gestion de bases lexicales multilingues. Nous verrons comment on peut, avec ce systme, dŽfinir une base lexicale multilingue (en dŽfinissant lÕensemble de ses dictionnaires et leurs architectures linguistiques). Nous Žtudierons ensuite lÕarchitecture logicielle et les outils dŽfinis dans ce systme. Dans la troisime partie, nous spŽcialisons SUBLIM ˆ lÕapproche interlingue par acceptions. Nous exposons les principes de cette architecture lexicale interlingue fondŽe sur une les connaissances linguistiques. Nous montrons ensuite que cette architecture lexicale est propice ˆ lÕutilisation de fonctions lexicales ҈ la MelÕcÿukÓ. Nous prŽsentons enfin PARAX, la maquette dÕune base lexicale utilisant cette approche, et dŽgageons les caractŽristiques gŽnŽriques de cette approche. Enfin, nous dŽveloppons lÕimplŽmentation de NADIA, un gestionnaire de bases lexicales interlingues par acceptions, qui se prŽsente du point de vue logique et informatique comme un spŽcialisation du systme SUBLIM. État de l’art et problèmes intéressants la langue que lÕutilisateur peut restituer le type dÕinformation prŽsent dans un article du dictionnaire. 1.1.2. Un dictionnaire dÕunitŽs complexesÊ: le LOGOS DÕautres dictionnaires monolingues se distinguent par le fait que leur unitŽs lexicales sont diffŽrentes de celles des dictionnaires classiques ŽvoquŽs plus haut. Parmi ces dictionnaires, on peut citer le LOGOS de Bordas. Les entrŽes du LOGOS correspondent ˆ des familles de lemmes dŽrivŽs du mme lemme dÕorigine, conformŽment ˆ des schŽmas dŽrivationnels rŽguliers. Cette unitŽ lexicale est notŽe par son lemme dÕorigine. Par exemple, lÕunitŽ lexicale produire regroupe les lemmes produire, producteur, productif, productivitŽ, produit. LÕentrŽe de ce dictionnaire se fait par le lemme origine de lÕunitŽ lexicale. Ainsi, si lÕon cherche le lemme producteur, il faut savoir quÕil appartient ˆ lÕunitŽ lexicale produire pour trouver ses informations associŽes. LÕinformation dÕune unitŽ lexicale du LOGOS est composŽe de deux partiesÊ: ¥ La liste des sens du lemme vedette, ¥ La liste des dŽrivations de lÕunitŽ lexicale. Pour chaque sens et pour chaque dŽrivation du lemme vedette, on a les mmes informations que dans un dictionnaire classique. De plus, ces informations apparaissent sous une forme analogue. construire v. t. (latin construere, mme sens). ¶ ƒdifier ou faire ŽdifierÊ: construire une maison, un pont, une digueÉ Ñ (absolument) On construit beaucoup actuellement dans les banlieues des grandes villes; jÕai achetŽ un terrain, car jÕai lÕintention de faire construire. Ñ (par extension) RŽaliser ou faire rŽaliser (une chose qui suppose un plan prŽalable et un travail considŽrable et complexe)Ê: les chantiers navals construisent les navires; construire un alternateur, des camionsÉ · (figurŽ) Composer, former selon un plan ou un systme plus ou moins rigoureuxÊ: construire lÕintrigue dÕun roman, le plan dÕun exposŽ; cette dissertation nÕest pas construiteÊ: nÕa pas de plan logique et net; construire une thŽorie philosophique. Ñ (spŽcialement, grammaire) Disposer les mots ou les propositions ˆ lÕintŽrieur dÕune phrase, selon un ordre dŽterminŽÊ: construire une phrase, une pŽriode oratoire. Ñ Construire une phrase latine, grecqueÉÊ: disposer les mots quÕelle contient de manire ˆ les ordonner selon lÕordre analytique (sujet, verbe, complŽmentsÉ), avant de la traduire. cf. b‰tir, disposer, dresser, Ždifier, Žlever, Žtablir, fabriquer, rŽaliser; agencer, arranger, articulier, assembler, combiner, composer. Ñ ANT. abattre, dŽmolir, dŽtruire. u se construire v. pron. 1¡ (sens passif) ætre en cours de constructionÊ: un pont se construit actuellement ˆ la sortie du village. Ñ ætre construitÊ: un tel immeuble ne peut se construire en moins de six mois. Ñ (grammaire) Se construire avecÉ, sÕemployer avecÉÊ: le verbe apprendre peut se construire avec ˆ suivi de lÕinfinitif (jÕapprends ˆ lire). Ñ 2¡ (sens rŽflŽchi indirect) É u constructeur, trice n. m. ou adj. 1¡ n. m. Celui qui construitÊ: un constructeur de bateaux, dÕavions; un constructeur-promoteur (voir promoteur). Ñ (figurŽ) Alexandre le Grand fut le constructeur dÕun immense empire. Ñ 2¡ adj. (nŽologisme) Se dit des idŽes dont la rŽalisation permettrait un progrs quelconqueÊ: une proposition constructrice. ¥ N. B.Ê: mieuxÊ: constructif. u constructif, ive adj. Qui est naturellement fait pour construireÊ: une intelligence constructive. Ñ Qui permet de rŽaliser un progrsÊ: un programme constructif. u construction n. f. 1¡ action dՎdifier, de construireÊ: une maison en construction; construction dÕun navire; chantier de construction navale; É Ñ 2¡ Manire dont une chose est construiteÊ: la construction prŽfabriquŽe permet de rŽduire le prix de revient des immeubles;É Ñ 3¡ ƒdificeÊ: raser une ancienne construction. Ñ 4¡ (figurŽ) Action de composer, de rŽaliser selon un plan; la manire dont un ouvrage est composŽ, organisŽÊ: la construction de lÕintrigue dÕune comŽdie;É Ñ 5¡ (spŽcialement, grammaire) Ordre dans lequel les mots se prŽsentent dans une phraseÊ: la construction allemande diffre de la construction franaise. Ñ É Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ. Cette unitŽ regroupe les lemmes construire, constructeur, constructif et construction 1.2. Thesaurii Les thesaurii sont des dictionnaires de concepts. LÕaccs ˆ ce type de dictionnaire ne se fait pas par une forme graphique. Les concepts sont classŽs selon leur sens dans une hiŽrarchie de concepts utilisŽe pour la recherche. Nous allons Žtudier deux de ces thesauri. 1.2.1. Le RodgetÕs Thesaurus of English Words and Phrases Le Rodget thesaurus comporte 1000 unitŽs. Ces unitŽs sont classŽes selon 39 catŽgories rŽparties dans 7 classes. LÕentrŽe de ce thesaurus est un nombre (de 1 ˆ 1000). Pour accŽder ˆ ce dictionnaire, il faut savoir ˆ quelle classe et ˆ quelle catŽgorie appartient lÕarticle recherchŽ. On peut ainsi chercher lÕarticle en question gr‰ce ˆ une table organisŽe hiŽrarchiquement. Notons que, gr‰ce ˆ un index, on peut aussi accŽder ˆ un article par un mot qui le dŽsigne. Un article de ce lexique est reprŽsentŽ par un entier et par un mot vedette. LÕarticle est ensuite dŽcomposŽ en catŽgories linguistiques (nom, verbe, adjectifÉ). Pour chaque catŽgorie linguistique, on a un ensemble de mots (classŽs par signification) qui sont liŽs ˆ ce concept. Certains de ces mots apparaissent avec une rŽfŽrence ˆ un autre concept. Enfin, on a un ensemble de liens vers des concepts sŽmantiquement liŽs au concept courant. Si on lit le texte dÕun article, on trouve des mots sŽmantiquement liŽs. Le sens des mots trouvŽs Žvolue peu ˆ peu vers des contextes diffŽrents. Pour rendre cette transition plus distincte, certains mots sont parfois ajoutŽs comme pointeurs du contexte plut™t que comme ŽlŽments de vocabulaire. 480 Judgment: conclusion N. judgment, judging (see estimate); good judgment, discretion 463 n. discrimination; bad judgment, indiscretion 464 n. indiscrimination; power of judgment, deiscretionary judgment, arbitrement 733 n. authority; arbitration, arbitrage, umpirage; judgment of facts, verdict, finding; penal judgment, sentence 963 n. punishment; spoken judgment, pronouncement; act of judgment, decision, adjudication, award; order, ruling; order of the court 737 n. decree;É estimate, estimation, view 485 n. opinion; assessment, valuation, evaluation, calculation 465 n. measurement; consideration, ponderation; comparing, contrasting 462 n. comparison; transvaluation 147 n. conversion; appreciation, appraisal, appraisement; criticism, constructive c. 703 n. aid; destructive criticism 702 n. hindrance; critique, crit, review, notice, press n., comment, comments, observations, remarks 591 n. dissertation;É estimator, judge, adjudicator; arbitrator, umpire, referee; surveyor, valuer 465 n. appraiser; inspector, inspecting officer, referendary, reporter, examiner 459 n. enquirer; counsellor 691 n. adviser; censor, critic, reviewer, commendator 591 n. dissertator; É Adj. judicial, judicious, judgmatic 463 adj. discriminating; unbiased, dispassionate 913 adj. just; juridical, juristic,É Vb. judge, sit in judgment, hold the scales; arbitrate, referree; hear, try, hear the case, try the cause 955 vb. hold court; uphold an objection, disallow an o.;É estimate, form an e., make an e., measure, calculate, make 465 vb. gauge; value, evaluate, appraise;É Adv. sub judice, under trial, under sentence. See: 147, 438, 449, 462É Figure 1.3Ê: Un article du RodgetÕs thesaurus Les mots en italiques en dŽbut de paragraphe reprŽsentent les sous-concepts. La virgule est utilisŽe pour sŽparer les mots de mme sens. Le point-virgule sŽpare des sens lŽgrement diffŽrents. Ce thesaurus se prŽsente donc comme un rŽseau de mots, liŽs sŽmantiquement, et auxquels on accde gr‰ce ˆ une classification hiŽrarchique de concepts. 1.2.2. Le vocabulaire de traitement de lÕinformation (IFIP & ICC) Le vocabulaire de traitement de lÕinformation de lÕIFIP (International Federation for Information Processing) et lÕICC (International Computation Center) est un dictionnaire terminologique qui se prŽsente comme un thesaurus. Les articles de ce dictionnaire sont rangŽs selon 20 catŽgories, classŽes dans 6 sections principales. Chacune de ces catŽgories est dŽcomposŽe de manire hiŽrarchique en termesÊ: Operation Monadic operation Dyadic operation Logic operation Compare (to) Shift Arithmetical operation Overflow Underflow Binary arith op. Borrow Carry Carry (to) Boolean operation Dual operation Complementary operation Negation Dyadic B. op. Arithmetical shift Logical shift ResultOperand Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. Chaque terme est associŽ ˆ un symbole composŽ dÕune lettre (la catŽgorie) et dÕun chiffre (numŽro du terme). Les termes sont ensuite dŽcrits, soit par une dŽfinition complte, soit en apparaissant ˆ lÕintŽrieur de la dŽfinition dÕun autre terme. Ainsi, les termes result (G2) et operands (G3) apparaissent dans la dŽfinition de operation (G1)Ê: G1 G2 G3 OPERATION A general term for any well-defined action, especially the derivation of a unit of data (the RESULT) from one or more given units of data (the OPERANDS), according to defined rules which specify the result for any permissible combination of values of the operands. Note: The term operands is sometimes used collectively for both operands and results since the results will often be operands in subsequent operations. Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation Notons quÕun index permet de retrouver un article du dictionnaire ˆ partir dÕun terme. Un article de ce dictionnaire contient une dŽfinition. On peut aussi trouver des notes ou des exemples illustrant le terme dŽcrit. La catŽgorie linguistique des termes nÕest pas indiquŽe. Les dŽfinitions sont donnŽes de manire prŽcise plut™t que concise. Les termes utilisŽs dans les dŽfinitions et dŽfinis par ailleurs dans le dictionnaire sont indiquŽs en italiques. Des alternatives au terme sont notŽes en soulignŽ. 1.3. Dictionnaires bilingues Les entrŽes des dictionnaires bilingues sont quasiment les mmes que celles des dictionnaires monolingues classiques. La diffŽrence provient des entrŽes composŽes (pomme de terreÉ) qui ne sont plus considŽrŽes comme des entrŽes mais comme des parties dÕun article (pommeÉ). Ces entrŽes (les lemmes) donnent accs ˆ des traductions des diffŽrents sens du lemme dans la langue cible. 2.1. Un format de codage : SGML/TEI La Text Encoding Initiative (TEI) Žtudie un standard de codage et dՎchange de documents textuels. Ce standard se prŽsente sous forme de recommandations et de structures de documents (pour la prose, les vers, les dictionnaire imprimŽs, les drames, les dictionnaires terminologiquesÉ). Cette initiative est parrainŽe par lÕAssociation for Computers and the Humanities (ACH), lÕAssociation for Computational Linguistics (ACL) et lÕAssociation for Literary and Linguistic Computing (ALLC). Le format TEI est basŽ sur SGML (Standard Generalized Markup Language). SGML est un standard international (ISO 8879) pour la reprŽsentation de textes sous une forme Žlectronique indŽpendamment de la machine et du systme1. SGML utilise des Žtiquettes pour structurer les diffŽrents ŽlŽments dÕun texte. Ces Žtiquettes sont notŽes entre chevrons (exÊ: <paragraph>) et agissent comme des parenthses, lՎtiquette fermante Žtant notŽe avec un Ò/Ó (exÊ: </paragraph>). Dans certaines conditions, lՎtiquette fermante peut tre omise. Parmi les types de documents qui nous intŽressent, la TEI a publiŽ des standards pour le codage de dictionnaires imprimŽs et de bases terminologiques ([Sperberg-McQueen & Burnard 1994], chapitres 12 et 13). La structure globale dÕun dictionnaire est analogue ˆ celle de textes usuels. On retiendra les ŽlŽments suivantsÊ: <text>Ê: contient du texte de nÕimporte quelle sorte (structurŽ ou non), <front>Ê: contient tout ce qui se trouve avant le dŽbut du dictionnaire lui mme (Enttes, page de titre, prŽface, dŽdicaceÉ), <back>Ê: contient tout ce qui se trouve aprs la fin du dictionnaire lui mme (AnnexesÉ), <body>Ê: contient lÕensemble du texte du dictionnaire, sauf les parties front et back, <div>Ê: contient une subdivision des parties front, body ou back du dictionnaire, <div0>Ê: contient une subdivision (du plus haut niveau) du dictionnaire, <div1>Ê: contient une subdivision (du niveau infŽrieur) du dictionnaire, <entry>Ê: contient une entrŽe structurŽe du dictionnaire, <entryFree>Ê: contient une entrŽe non conforme ˆ la structure dÕune entrŽe du dictionnaire, <superentry>Ê: groupe les entrŽes dÕun ensemble dÕhomographes. Voici un exemple de structure de dictionnaire conforme aux recommandations de la TEIÊ: <body> <div0 type=‘dictionary’> <!-- English-French --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> <div0> <!-- French-English --> <entry>...</entry> <entry>...</entry> <!-- ... --> </div0> </body> Les ŽlŽments entry et entryFree partagent les attributs type (entrŽe standard, homographe, rŽfŽrence croisŽe, affixe, abrŽviationÉ) et clŽ (une sŽquence de caractres reflŽtant la position alphabŽtique de lÕentrŽe dans le dictionnaire). 1 Une introduction à SGML est donnée en annexe A. Le format de codage des dictionnaires permet aussi de coder de manire structurŽe les entrŽes dÕun dictionnaire. La dŽcomposition de lÕentrŽe est effectuŽe gr‰ce aux ŽlŽments suivantsÊ: <hom>Ê: regroupe les informations propres ˆ un homographe de lÕentrŽe, <sense>Ê: regroupe les informations propres ˆ un sens, <form>Ê: regroupe les informations sur la forme (orthographique et phonŽtique), <gramGrp>Ê: regroupe lÕinformation morpho-syntaxique dÕune unitŽ du dictionnaire, <def>Ê: contient une dŽfinition, <trans>Ê: contient du texte traduit et les informations associŽes, <eg>Ê: contient un texte exemple contenant au moins une occurrence de lÕentrŽe, <def>Ê: contient une dŽfinition, <usg>Ê: contient les informations sur lÕusage, <xr>Ê: contient des rŽfŽrences croisŽes, <etym>Ê: contient lÕinformation Žtymologique, <re>Ê: contient une entrŽe correspondant ˆ une unitŽ lexicale liŽe ˆ lÕentrŽe (expression, forme dŽrivŽeÉ), <note>Ê: contient des annotations. Le format de la TEI rend possible une dŽcomposition plus fine de la structure dÕune entrŽe de dictionnaire imprimŽ. Nous ne dŽtaillerons pas cette dŽcomposition ici. Le lecteur pourra se reporter ˆ [Sperberg-McQueen & al. 1994]. 2.2. Dictionnaires en ligne: le Collins On-Line La plupart des Žditeurs proposent aujourdÕhui des versions informatiques de leurs dictionnaires. Ces versions reprennent les donnŽes et les fonctionnalitŽs des dictionnaires papier. Ces outils sont utilisŽs en complŽment dÕun traitement de texte comme aide ˆ la rŽdaction ou ˆ la traduction de textes. Leurs fonctionnalitŽs sont assez rŽduites, puisquÕelles ne permettent en gŽnŽral pas dÕautre accs que lÕaccs alphabŽtique classique du dictionnaire papier. Le Collins On-line, avec ses dictionnaires franais-anglais et anglais-franais, en est un exemple reprŽsentatif. Cet outil, avec ses dictionnaires, est le reflet du Robert et Collins, prŽsentŽ plus haut. Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh La dŽcomposition en sens et les Žquivalents sont les mmes. Par contre, la forme est assez diffŽrente. Les contextes sont notŽs de manire plus succincte et les informations sont rendues sous forme de liste. En effet, les contraintes sont diffŽrentes. La prŽsentation du dictionnaire papier est motivŽe par des contraintes de place, alors que la prŽsentation du dictionnaire Žlectronique est motivŽe par des contraintes de lisibilitŽ ˆ lՎcran. Des contraintes dÕinterface ont obligŽ les concepteurs ˆ changer lŽgrement lÕentrŽe du dictionnaire. En effet, le dictionnaire papier utilise le lemme et sa catŽgorie pour crŽer une entrŽe, alors que le dictionnaire Žlectronique nÕutilise que le lemme, les diffŽrentes catŽgories Žtant regroupŽes dans le mme article. Il est possible dÕaccŽder rapidement ˆ lÕun des mots de la langue source apparaissant dans lÕarticle, en le sŽlectionnant et en appuyant sur une combinaison de touches. Par contre, il nÕest pas possible de faire la recherche rapide dÕun mot de la langue cible dans le dictionnaire inverse. 2.3. Gestionnaires de dictionnaires terminologiques : MTX Termex Le travail des traducteurs professionnels sÕeffectue maintenant en majoritŽ sur support informatique. Il est donc crucial quÕils disposent dÕoutils leur permettant dÕavoir accs aux donnŽes lexicales sur leur machine, de manire intŽgrŽe ˆ leur environnement de travail. Ces traducteurs Žtant bien souvent spŽcialisŽs dans un domaine ou employŽs par des entreprises spŽcialisŽes, ils possdent gŽnŽralement leur propre terminologie. Des outils de gestion de dictionnaires terminologiques sont nŽcessaires, en plus des outils de consultation de dictionnaires classiques. MTX Termex est un outil de ce genre. Il permet de consulter des dictionnaires du commerce, et aussi de crŽer son propre dictionnaire terminologique ou de modifier certaines entrŽes des dictionnaires du commerce. Avec cet outil, une entrŽe est simplement une cha”ne de caractres. Cette cha”ne peut comporter des blancs et des symboles de ponctuation. LÕinformation associŽe ˆ cette entrŽe est un texte simple. On peut utiliser ce texte comme une structure Òattributs-valeursÓ en notant les attributs entre accolades. Ainsi, on est libre de crŽer un dictionnaire ayant une structure quelconque. <F1>: Help Choose a command (or <esc>)===> {1} Europe {cap} Sofia {pop} 8 944 000 {lan} Bulgarian {cur} lev {gov} Republic [Bulgaria] MTX (tm) <F8>: Menu <Esc> to exit window File Name Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex Avec MTX 2, un traducteur peut trs facilement crŽer un petit dictionnaire terminologique multilingue. Il paut aussi gŽrer les variantes orthographiques dÕune entrŽe en les liant ˆ lÕentrŽe vedette. La consultation et la navigation sont elles aussi assez simples (possibilitŽ de crŽer des rŽfŽrences croisŽes, de revenir aux fiches prŽcŽdentesÉ). De plus, cet outil est intŽgrŽ aux traitements de texte usuels (appel et consultation automatique de la sŽlection). 2.4. Un environnement original : le Dicologique Le Dicologique est un produit commercialisŽ par la sociŽtŽ MEMODATA (Caen) et fonctionnant sous DOS et Windows. Cet outil utilise vŽritablement les avantages de lÕinformatique pour renouveler les moyens dÕaccs au dictionnaire. En utilisant une approche ensembliste du lexique([Dutoit 1992]), il permet un accs par thmes, analogies, idŽesÉ Le Dicologique regroupe 120Ê000 entrŽes, 25Ê000 concepts et 350Ê000 relations. Les relations se font principalement au travers deÊ: Les informations contenues dans BDLex sont morphologiques et phonologiques. LÕunitŽ lexicale de cette base est le lemme. lemme HG PHON FPH HP CL_PHON NS F CS GN CF nabab 11 /nA/bAb 11 /NA/DAD 2 N Mn 01 nabi 11 /nA/bi 11 /NA/DI 2 N Mn 01 nabot 11 /nA/bo t" 11 /NA/DE 2 N gn 01 nacelle 11 /nA/s&l e 11 /NA/SEL 2 N Fn 81 Figure 1.11Ê: Un exemple dÕentrŽes de BDLex ; (HGÊ: numŽro dÕhomographe, PHONÊ: phonŽtique, FPHÊ: terminaison phonŽtique, HPÊ: numŽro dÕhomophone, CL_PHONÊ: classe phonŽtique, NSÊ: nombre de syllabes, FÊ:ÊfrŽquence, CSÊ: classe syntaxique, GNÊ: variation en genre et nombre et CFÊ: classe flexionnelle) Ce dictionnaire est typiquement ˆ usage informatique. Les informations telles que le numŽro dÕhomographe ou dÕhomophone sont particulirement utiles pour gŽrer les problmes dÕambigu•tŽ lexicale, qui sont cruciaux lors du traitement automatique dÕune langue. De plus, les informations de ce dictionnaire sont codŽes et difficilement utilisables par un humain. On notera nŽanmoins que ce codage est relativement simple (structure en colonne, codes mnŽmotechniques), ce qui explique son succs auprs de nombreux laboratoires. 3.2. Dictionnaires du LADL Le LADL (ˆ lÕUniversitŽ Paris VII) a dŽveloppŽ le dictionnaire DELAF, un dictionnaire contenant 600Ê000 formes flŽchies du franais. Ce laboratoire a aussi dŽveloppŽ le dictionnaire DELACF, contenant 150Ê000 formes flŽchies de mots composŽs franais. Outre leur taille (qui les place parmi les plus importants dictionnaires franais), le DELAF et le DELACF prŽsentent un aspect remarquableÊ: leurs entrŽes sont reprŽsentŽes par des automates dՎtats finis. Cette structure dÕautomate est utilisŽe ˆ diffŽrents niveaux. AppliquŽe au codage des informations morphologiques et syntaxiques dÕune forme flŽchie, elle permet de reprŽsenter les diffŽrentes ambigu•tŽs des formes flŽchies. Y 3 m f P S 1 2 s s passe nom verbe Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ. Les abrŽviations utilisŽes sontÊ: m pour masculin, f pour fŽminin, s pour singulier, 1,2 et 3 pour dŽnoter la personne, P pour prŽsent, S pour subjonctif, Y pour impŽratif. Enfin, elle est utilisŽe pour reprŽsenter les diffŽrentes variantes dÕun mot composŽ. noiresŽrieladepolicierromanun policier Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier de la sŽrie noireÓ qui peut se trouver sous les formes Òun sŽrie noireÓ, Òun policier de sŽrie noireÓÉ 3.3. Ariane Le laboratoire GETA (Groupe dՃtude pour la Traduction Automatique) a dŽveloppŽ un gŽnŽrateur dÕapplications de traduction automatique nommŽ ARIANE. En dŽveloppant des applications de traduction, les chercheurs du GETA se sont vite rendu compte que le problme de la gestion des dictionnaires Žlectroniques Žtait un problme crucial. Aussi, des outils ont ŽtŽ dŽveloppŽs pour faciliter cette gestion. Chaque application de traduction automatique dŽveloppŽe sous ARIANE a son propre dictionnaire, ŽclatŽ en divers composants (pour lÕanalyse morphologique ou syntaxique, le transfert lexical ou structural, la gŽnŽration syntaxique ou morphologiqueÉ). Chacun de ces composants est exprimŽ dans un format spŽcialisŽ du langage en charge de la phase de traitement en question. LՎclatement du dictionnaire introduit des problmes de cohŽrence des informations lexicales rŽparties dans les divers composants. Aussi, un outil (Visulex) a ŽtŽ dŽveloppŽ pour rŽunir et visualiser les diffŽrentes informations lexicales dÕune application de traduction automatique. Cet outil ne permet de manipuler quÕun couple de langues ˆ la fois. Dans une telle base, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines fonctions lexico-sŽmantiques. Par exemple, les lemmes ÒconstructionÓ, ÒconstructifÓ, ÒconstruireÓ, ÒreconstruireÓ appartiennent tous ˆ une mme unitŽ lexicale notŽe Òconstruire-VÓ. Visulex gŽnre deux niveaux de fichiers pour le linguiste. Le premier niveau donne lÕensemble des commentaires associŽs ˆ une unitŽ lexicale. Le second niveau donne le dŽtail des informations linguistiques associŽes ˆ une unitŽ lexicale, sous la forme o on les trouve dans les dictionnaires dÕapplications. Commentaires et informations dŽtaillŽes sont donnŽs de manire structurŽe. Un article de Visulex contient notamment un contexte, une morphologie, des dŽtails sur les ŽlŽments du contexte et une liste dՎquivalents (avec des conditions de choix). -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' --cmt?-- --morphologie-- --cmt?-- FORME COMPLETE DE PARTICIPE PASSE FLECHISSABLE GEGANGEN- PARADIGME 09 INCLUS DANS 01(LEG) SAUF POUR -T QUI NE ... PEUT FAIRE LE PARTICIPE PASSE GEH- PARADIGME 29, DESINENCES -0, -E, -EN, -EST, -ET, -ST, -T GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' --cmt?-- 0:'GEHEN' --cmt?-- … --equivalents-- --------------- 'ALLER' 'ALLER' VERBE SANS AUCUNE RECTION DONNEE, EX: 'MARCHER' --cmt?-- --si: --cmt?-- '''AILL' BASE ACCEPTANT LES DESINENCES DE L'IMPARFAIT,DU... PRESENT SUB --si: --cmt?-- '''IR' --cmt?-- --si: --cmt?-- 'VAIS' --si: --cmt?-- 'VAS' --si: --cmt?-- 'VA' --si: --cmt?-- 'VONT' --si: --cmt?-- '''ALLER' TABLE+S --sinon: '''ALL' COUP+ER,E,EUR,ANT -------------------------------------------------------------- -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' IST:SUBV:=SEIN --morphologie-- VIDE: FCPPA:KMS-E-VB-U-ADJ,MT-E-PPA,SUBADJ-E-RSTA GEGANGEN- WSING:KMS-E-VB GEH- WFIEL:KMS-E-VB GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' VID: 0:'GEHEN' IST:SUBV:=SEIN … --equivalents-- --------------- 'ALLER' 'ALLER' VB: R3:AX:=ETR,RFRUS:=SUPPR --si: SUBJ3:MOD-E-SUB-ET-TF-E-PRE-ET-NUM-E-SIN-OU-MOD... -E-SUB-ET-TF-E-PRE-ET-P-E-3 '''AILL' VERBE:PGMV-E-VERBE --si: FUT:TF-E-FUT-OU-MOD-E-CDL '''IR' AUR:PGMV-E-FUTUR --si: SUIS:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-SIN-ET-P-E-1 'VAIS' --si: DUEPRE:P-E-2-ET-TF-E-PRE-ET-NUM-E-SIN 'VAS' --si: SAI:NUM-E-SIN-ET-TF-E-PRE-ET-MOD-E-IND-OU-MOD-E... -IMP-ET-NUM-E-SIN 'VA' --si: SONT:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-PLU-ET-P-E-3 'VONT' --si: NVBMAS:CPRD-E-VBACT-ET-CAT-E-CATN-ET-GNR-E-MAS '''ALLER' MOT:FLXN-E-MOT --sinon: '''ALL' V1AFE1:FLXV-E-AIMER,DRNV-E-FEME1 -------------------------------------------------------------- Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex Visulex rassemble des informations dispersŽes dans les nombreux dictionnaires des diffŽrents composants dÕune application linguistique. Il est ainsi possible de consulter les informations liŽes ˆ une unitŽ lexicale pour retrouver la source dՎventuelles erreurs de traduction. Par contre, la modification des dictionnaires ne peut se faire quÕau travers dÕARIANE, composant par composant. NŽanmoins, lÕoutil Visulex est un premier pas vers la crŽation dÕune base lexicale spŽcialisŽe pour la Traduction Automatique. 3.4. BDTAO BÕVITAL utilise le systme ARIANE pour construire des applications de traduction automatique industrielles. Pour cela, cette entreprise a dŽveloppŽ une base lexicale rŽutilisable (BDTAO) ˆ partir de laquelle il est possible de gŽnŽrer des composants du dictionnaire de lÕapplication, au format ARIANE. Cette base lexicale est spŽcialisŽe pour la traduction automatique, mais elle est indŽpendante dÕune application de traduction particulire. Une mme base peut tre utilisŽe pour lÕanalyse et la gŽnŽration. De plus, les entrŽes terminologiques sont rŽversibles en transfert. BDTAO contient des dictionnaires Òen fourcheÓ (1 langue source -> n langues cibles). Comme dans les bases Visulex, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines fonctions lexico-sŽmantiques. Les informations linguistiques sont codŽes dans une structure Òattribut-valeurÓ plate. Cette structure est sŽparŽe en deux sections. La premire contient lÕinformation monolingue, la seconde contient diffŽrentes traductions de lÕentrŽe dans diffŽrentes langues, avec Žventuellement des conditions guidant le choix. *ADJECTIF 001 prochain 002 COU 101 S 103 ES 105 E 107 O 504 SXA 990 - prochainement = bientôt, dans un 990 proche avenir 99D 22/03/88 99A IM $CODE $UL PROCHAIN -A $PH AM 1 29/09/88 $AM PROCHAIN ADJ1 Z000154 Figure 1.15Ê: Une entrŽe lexicale de BDTAO BDTAO est une vŽritable base lexicale spŽcialisŽe. En effet, toute modification ou crŽation dÕinformation lexicale se fera dans ce format. On peut ensuite gŽnŽrer des dictionnaires spŽcialisŽs pour chacun des composants dÕune application linguistique sous ARIANE. Un tel outil simplifie grandement la gestion des dictionnaires dÕapplication puisque la consultation et la modification se font ˆ un mme endroit et dans un format simple. Les noms des attributs ne dŽpendent pas des noms des variables utilisŽes dans les grammaires des applications lexicales envisagŽes. Cette indŽpendance de BDTAO vis-ˆ-vis dÕune application particulire permet dÕutiliser une base lexicale pour plusieurs applications diffŽrentes. LÕindexage de cette base lexicale est fait en utilisant des bordereaux dÕindexage o le lexicographe rŽpond ˆ des questions simples sur lÕentrŽe en question. De plus, BÕVITAL a construit un outil permettant de rŽcupŽrer les informations lexicales des applications de traduction dŽveloppŽes antŽrieurement ˆ BDTAO. 3.5. METAL Pour son gŽnŽrateur de systmes de Traduction Automatique (METAL 3.0), SIEMENS a dŽveloppŽ des outils pour faciliter la manipulation des dictionnaires. Il y a deux types de dictionnaires sous METAL 3.0Ê: les dictionnaires monolingues et les dictionnaires de transfert. Les structures des entrŽes de ces dictionnaires sont des structures de traits plates. Les traits des dictionnaires de transfert sont fixŽs pour chaque paire de langues. Les traits des dictionnaires monolingues sont dŽfinis pour chaque langue par un fichier de description. Une entrŽe de dictionnaire METAL est un ensemble de traits avec leurs valeurs. Les valeurs de ces traits peuvent tre de lÕun des types suivantsÊ: 1. Le Lexicaliste Le Lexicaliste est un systme de gestion de bases lexicales monolingues dŽveloppŽ et commercialisŽ par la sociŽtŽ SITE. 1.1. Vue générale du système Le Lexicaliste sÕappuie sur une description des entrŽes du lexique. Un article est un arbre dŽcorŽ dont la racine correspond ˆ lÕentrŽe du dictionnaire (lemme) et les nÏuds aux diffŽrents sens de lÕarticle. Les dŽcorations sont des structures attributs-valeurs simples portŽes par les diffŽrents sens de lÕarticle. sense 0 sense 1 sense 2 sense 2.2sense 2.1sense 1.1 sense 1.2 category: verb conjugation: V27 Morphological information … Misc. information Semantic information Syntactical information 2/2 hyphen: ap-pren-dre … definition: "S'instruire" example: "Apprendre à faire du piano" … Syntactical information 1/2 auxiliary: avoir transitivity: intransitive prop.gov.: à <infinitive> Apprendre = Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste Le linguiste dŽfinit les attributs (et les valeurs) qui sont utilisŽs dans une base lexicale particulire. Cette description est appelŽe ÒrŽfŽrentielÓ. Il peut aussi donner des propriŽtŽs (attributs monovaluŽs, multivaluŽs, relations acycliquesÉ) sur les attributs de la base. Ces propriŽtŽs sont contenues dans le ÒmŽta-rŽfŽrentielÓ. Meta-rŽfŽrentiel RŽfŽrentiel DŽcrit les propriŽtŽs des attributs dŽfinis dans le rŽfŽrentiel Base lexicale DŽcrit la structure des articles de la base lexicale Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire Les attributs sont sŽparŽs en 5 catŽgories distinctes: - attributs des lemmes (exÊ: catégorie), - attributs des sens (exÊ: transitivité, définition), - attributs des rgles flexionnelles (exÊ: nombre, genre), - relations lexicales (exÊ: abréviation, dérivation), - relations sŽmantiques (exÊ: hyperonymie, synonymie). Lorsque ce travail de dŽfinition a ŽtŽ accompli, les tables SQL et lÕinterface sont automatiquement gŽnŽrŽes par le systme. 1.2. Réseau lexical et sémantique Le systme gre deux types de relations, qui dŽfinissent deux rŽseaux diffŽrents ˆ lÕintŽrieur du dictionnaireÊ: - les relations lexicales, dŽfinies sur un ensemble de sens de mots, - les relations sŽmantiques, dŽfinies sur un ensemble de concepts. Une relation lexicale relie deux sens de mots au niveau lexical. Par exempleÊ: - ÒapptÓ est-abreviation-de ÒappartementÓ, - ÒclefÓ est-variante-orthographique-de ÒclŽÓ - ÒapprentissageÓ est-nominalisation-de ÒapprendreÓ. Les relations lexicales relient les diffŽrents sens des lemmes, et non diffŽrents lemmes. Cela permet par exemple de relier les deux sens diffŽrents de ÒblanchirÓ ˆ leur nominalisation ÒblanchissageÓ et ÒblanchimentÓ). On aura doncÊ: - ÒblanchissageÓ est-nominalisation-de Òblanchir-1Ó, - ÒblanchimentÓ est-nominalisation-de Òblanchir-2Ó. Une relation sŽmantique relie deux concepts au niveau sŽmantique (au sens de la rŽfŽrence au monde rŽel)Ê: - ÒchaiseÓ est-un ÒmeubleÓ, - ÒpoissonÓ a-connotation-avec ÒmerÓ, - ÒmalariaÓ est-synonyme-de ÒpaludismeÓ. Chaque sens de mot peut tre associŽ ˆ un concept par un attribut particulierÊ: le prŽdicat sŽmantique. RŽciproquement, chaque concept peut tre associŽ ˆ un ou plusieurs sens de mot. 1.3. Vérifications de cohérence et valeurs par défaut Pour simplifier la maintenance et lÕindexage dÕun dictionnaire, le linguiste dispose dÕun langage spŽcialisŽ avec lequel il peut dŽfinir des contraintes sur certains des attributs dÕun article. Ces contraintes sont utilisŽes de deux manires pourÊ: - VŽrifier la cohŽrence dÕun article (dŽjˆ indexŽ dans le dictionnaire), - Attribuer des valeurs par dŽfaut ˆ certains attributs dÕun article en cours de crŽation. Avec ce langage, le linguiste peut par exemple exprimer les contraintes suivantesÊ: - un verbe pronominal prend lÕauxiliaire ҐtreÓ, - un verbe impersonnel nÕa pas de forme passive, - lÕattribut transitivité prend la valeur directe pour les verbes se terminant en ÒiserÓ (cette valeur par dŽfaut sera proposŽe), - lÕattribut conjugaison dÕun verbe se terminant par ÒgerÓ prend la valeur V1 ou V2. Voici un exemple de ces contraintesÊ: DECL-MESSAGES msg-aux "l'attribut auxiliaire n'est pas défini" msg-transit "l'attribut transitif n'est pas défini" msg-transObj2 "l'attribut transObj2 doit être défini" msg-frmPassif "l'attribut frmPassif doit être défini" DECL-CONTRAINTES // Syntactic attributes for verbs SI cat = verb ALORS // the default auxilary is “avoir” (to have) aux DEFINI DEFAUT {avoir} MESSAGE msg-aux // if the verb ends with “ter”, the conjugation is // V3 or V3H or V3Q (default V3). si cle = "*ter" alors mm dans { V3, V3H, V3Q } defaut V3 FSI // An intransitive verb does not admit passive (by default) SI transit = intrans ALORS passiv DEFAUT non FSI FSI 2. EDR Le plus grand projet mondial de construction dÕune base lexicale multilingue a dŽbutŽ ˆ Tokyo le 26 avril 1986. DÕune durŽe de 9 ans, ce projet a impliquŽ 1200 hommes-annŽes pour un cožt total de 14 milliard de Yens (environ 750 MF). Au terme de son contrat, EDR a atteint ses objectifsÊ: la construction dÕune base lexicale anglais-japonais utilisable par des systmes de traduction automatique. Les dictionnaires anglais et japonais comportent 300Ê000 entrŽes chacun (200Ê000 en vocabulaire gŽnŽral et 100Ê000 en vocabulaire terminologique). EDR a aussi dŽcrit 640Ê000 concepts correspondant ˆ ces entrŽes. La base lexicale comporte enfin deux dictionnaires bilingues (1 par sens) de 300Ê000 entrŽes et deux corpus (anglais et japonais) de 250Ê000 phrases analysŽe. Ces corpus comportent aussi 20 millions de phrase Japonaises et 10 millions de phrases anglaises. EDR est avant tout un projet industriel visant la construction dÕune base lexicale de grande taille. Cet objectif nÕa pu tre atteint quÕau prix dÕune simplification des structures linguistiques prŽsentes dans les dictionnaires. NŽanmoins, ces dictionnaires sont suffisamment complets pour tre utilisŽs comme une source de donnŽes lexicales par de nombreux systmes de traduction dŽveloppŽs au Japon. 2.1. Architecture lexicale Le projet EDR a dŽlibŽrŽment adoptŽ une approche mixte o lÕon trouve un dictionnaire interlingue et des dictionnaires bilingues. Les dictionnaires de mots (anglais et japonais) sont divisŽs en deux parties. La premire contient environ 200Ê000 termes gŽnŽraux, et la seconde contient environ 100Ê000 termes techniques (dans le domaine du traitement de lÕinformation). Ces dictionnaires contiennent les informations grammaticales sur les entrŽes et les concepts auxquels elles sont associŽes. Le dictionnaire de concepts regroupe 640Ê000 concepts, parmi lesquels, 100Ê000 proviennent des entrŽes terminologiques et sont communs aux deux langues. Par ailleurs, 60Ê000 concepts sur environ 300Ê000 concepts issus de chaque dictionnaire gŽnŽral sont communs aux deux langues (Ch. Boitet, communication personnelle). Le correspondant en langue cible dÕune entrŽe en langue source est une liste dÕentrŽes du dictionnaire de langue cible, ˆ moins quÕune flexion particulire ne soit nŽcessaire lors de la traduction. Les Žquivalences entre langues nՎtant gŽnŽralement pas parfaites (nuances entre les concepts recouverts par un mot et sa traductionÉ), on donne la relation de correspondance qui existe entre lÕentrŽe et son Žquivalent. Il existe 5 relations de correspondanceÊ: ¥ ŽquivalenceÊ: les concepts recouverts par lÕentrŽe et sa traduction sont Žquivalents, ¥ sous-relationÊ: le concept de lÕentrŽe est plus large que le concept de sa traduction, ¥ super-relationÊ: le concept de lÕentrŽe est un sous-concept de celui de la traduction, ¥ synonymieÊ: la diffŽrence entre les concepts est minime, ¥ remarqueÊ: le correspondant est une transcription de lÕentrŽe. Dans ce cas, une explication est donnŽe en information supplŽmentaire. EntrŽes Relations de correspondance Correspondances Žquivalence dog left Žquivalence annihilation sous-relation sous-relation <explanation> circuitous allege super-relation super-relation (in) other words abbey synonymie ameer remarque remarque ebosikago [bamboo hand-basket]Ê? Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues LÕexplication supplŽmentaire est indiquŽe entre chevrons(<>), parenthses (()) ou crochets ([]) suivant que lÕon a affaire (respectivement) ˆ une sous-relation, une super-relation ou une remarque. 2.3. Dictionnaire de concepts Dans les trois phrases suivantesÊ: ¥ Un ŽlŽphant appara”t, ¥ Un ŽlŽphant nÕoublie jamais, ¥ LՎlŽphant est une espce en danger, le mot ŽlŽphant renvoie tour ˆ tour ˆ un individu de lÕespce des ŽlŽphants, ˆ un prototype dՎlŽphant ou ˆ lÕespce des ŽlŽphants. NŽanmoins, ce mot rŽfre ˆ quelque chose de commun ˆ chacun de ces usages. Ce quelque chose est le contenu sŽmantique du mot ŽlŽphant. La mme remarque sÕapplique au mot japonais z™., qui a le mme contenu sŽmantique que le mot ŽlŽphant. Le contenu sŽmantique dÕun mot, ainsi dŽfini, est reprŽsentŽ par un ŽlŽment du dictionnaire de concepts (un concept). Un concept (correspondant ˆ un mot) a une identificateur unique. Ainsi, le concept correspondant ˆ ŽlŽphant a lÕidentificateur <3bf246>. NŽanmoins, comme il nÕy a pas de possibilitŽs de confusion (polysŽmieÉ), ce concept est aussi appelŽ Òconcept ŽlŽphantÓ et notŽ ǎlŽphantÈ. Dans le dictionnaire de concepts, lÕidentificateur est accompagnŽ dÕune illustration (une phrase en anglais et en japonais) qui permet ˆ lÕutilisateur de conna”tre le concept quÕil manipule. Le plus important travail de recherche, dÕindexage et de maintenance a ŽtŽ effectuŽ sur le dictionnaire de concepts. Ce dictionnaire est dŽcomposŽ en deux parties. Dans la premire partie, les concepts sont dŽcrits par un ensemble de relations quÕils entretiennent entre eux. Dans la seconde partie, les concepts sont classifiŽs hiŽrarchiquement. 2.3.1. Description des concepts EDR a rejetŽ lÕapproche consistant ˆ dŽcrire un concept ˆ lÕaide de concepts de base plus simples. Aussi, chaque unitŽ sŽmantique, correspondant ˆ un mot ou une expression complexe, sÕexprime par un concept (que lÕon peut identifier et manipuler), et ce, mme si la sŽmantique de ce concept peut se traduire par une description ˆ base de concepts plus simples. La description des concepts se base sur un ensemble de relations quÕils entretiennent entre eux. EDR a retenu 24 relations et 50 attributs (relations unaires) pour cette descriptionÊ: agent sujet dÕune action volontaire. Les entitŽs conscientes ou automatisŽes peuvent tre de tels sujets. Òun animal mangeÓ ÇmangerÈ ÑÊagentÊ→ ÇanimalÈ a-object attribut dÕun objet Òles tomates sont rougesÓ ÇrougeÈ ÑÊa-objectÊ→ ÇtomateÈ object objet affectŽ par une action ou un changement Òmanger de la viandeÓ ÇmangerÈ ÑÊobjectÊ→ ÇviandeÈ cause la cause Òmort de froidÓ ÇmortÈ ÑÊcauseÊ→ ÇfroidÈ implement instrument ou moyen dans une action volontaire Òcouper avec un couteauÓ ÇcouperÈ ÑÊimplementÊ→ ÇcouteauÈ material composant matŽriel ou structurel Òfait avec du laitÓ ÇfaireÈ ÑÊmaterialÊ→ ÇlaitÈ source sujet dÕun ŽvŽnement ou position ou condition initial dÕun objet Òvenir de TokyoÓ ÇvenirÈ ÑÊsourceÊ→ ÇTokyoÈ goal sujet dÕun ŽvŽnement ou position ou condition finale dÕun objet Òaller ˆ TokyoÓ ÇallerÈ ÑÊgoalÊ→ ÇTokyoÈ place lieu o se tient un ŽvŽnement Òjouer dans la chambreÓ ÇjouerÈ ÑÊplaceÊ→ ÇchambreÈ scene contexte dans lequel un ŽvŽnement a lieu Òjouer dans un drameÓ ÇjouerÈ ÑÊsceneÊ→ ÇdrameÈ manner manire dont se passe une action ou un changement Òparler lentementÓ ÇparlerÈ ÑÊmannerÊ→ ÇlentementÈ time instant o se passe un ŽvŽnement Òse lever ˆ lÕheureÓ Çse leverÈ ÑÊtimeÊ→ Lj lÕheureÈ time-from instant o dŽbute un ŽvŽnement Òje travaille depuis le matinÓ ÇtravaillerÈ ÑÊtime-fromÊ→ ÇmatinÈ time-to instant o se termine un ŽvŽnement Òje travaille jusquÕau soirÓ ÇtravaillerÈ ÑÊtime-toÊ→ ÇsoirÈ quantity quantitŽ de chose, dÕaction ou de changement Òun kilo de pommesÓ ÇpommesÈ ÑÊquantityÊ→ ÇkiloÈ number nombre Ò3 kilosÓ ÇkiloÈ ÑÊnumberÊ→ Ç3È condition relation de condition entre ŽvŽnements ou circonstances Òaller pleurerÓ ÇallerÈ ÑÊconditionÊ→ ÇpleurerÈ cooccurrence relation simultanŽe entre ŽvŽnements ou circonstances Òpartir en pleurantÓ ÇpartirÈ ÑÊcooccurrenceÊ→ ÇpleurerÈ purpose but dÕune action Òaller voirÓ ÇallerÈ ÑÊpurposeÊ→ ÇvoirÈ sequence relation temporelle sŽquentielle entre ŽvŽnements ou circonstances Òsauter et frapperÓ ÇsauterÈ ÑÊsequenceÊ→ ÇfrapperÈ basis base de comparaison Òles roses plus belles que les lilasÓ ÇrosesÈ ←Êa-objectÊÑ ÇbeauÈ ←ÊobjectÊÑ ÇplusÈ ÑÊbasisÊ→ ÇbeauÈ ÑÊa-objectÊ→ ÇlilaÈ and relation de conjonction entre concepts Òvisiter Rome et VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇRomeÈ ÑÊandÊ→ ÇVeniseÈ) or relation de disjonction entre concepts Òvisiter Rome ou VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇÇRomeÈ ÑÊorÊ→ ÇVeniseÈ) modifier autres relations Ë ces 24 relations sÕajoutent 4 Òpseudo-relationsÓ, qui sont des relations dŽfinies en fonction des autres relations. Ainsi, la pseudo-relation possessor est dŽfinie comme suitÊ: possessor ÑÊpossessorÊ→ ≡ ←ÊobjectÊÑÊÇownÈÊÑÊagentÊ→ Les pseudo-relations sontÊ: possessor relation de possession Òle chien de TomÓ ÇchienÈ ÑÊpossessorÊ→ ÇTomÈ beneficiary bŽnŽficiaire dÕun ŽvŽnement ou dÕune circonstance Òutile aux personnesÓ ÇutileÈ ÑÊbeneficiaryÊ→ ÇpersonnesÈ from-to portŽe, chemin,ÊÉ Òun tiquet dÕOsaka ˆ TokyoÓ ÇtiquetÈ ÑÊmodifierÊ→ (ÇÇOsakaÈ ÑÊfrom-toÊ→ ÇTokyoÈ) unit lÕunitŽ Ò500 yens pour une douzaineÓ ( Ç1È ←ÊnumberÊÑ ÇdouzaineÈ ) ←ÊunitÊÑ (Ç yensÈ ÑÊnumberÊ→ Ç500È ) Les attributs sont dŽfinis comme des relations unaires sur les concepts. EDR a dŽfini 50 attributs rŽpartis comme suitÊ: Attributs qualifiant lÕobjetÊ: all Tous les objets some Un nombre non spŽcifiŽ dÕobjets specific Des objets spŽcifiŽs generic Objets avec des caractŽristiques gŽnŽrales Attributs indicateur de tempsÊ: past Le point de vue est dans le passŽ present Le point de vue est dans le prŽsent future Le point de vue est dans lÕavenir Attributs de relativitŽÊ: begin DŽbut dÕune action ou dÕun ŽvŽnement end Fin dÕune action ou dÕun ŽvŽnement progress Une action ou un ŽvŽnement est en cours continue Une action rŽpŽtitive ou un ŽvŽnement rŽpŽtitif est en cours state Une action ou un ŽvŽnement est terminŽ et un Žtat ou rŽsultat est atteint complete Toutes les actions ou tous les ŽvŽnements sont terminŽs yet NÕa pas encore eu lieu already A dŽjˆ eu lieu soon Aura lieu bient™t just Vient dÕavoir lieu come On approche du moment auquel pense le locuteur go On sՎloigne du moment auquel pense le locuteur Attributs dŽnotant lÕintention du locuteurÊ: imperative Un ordre interrogation Une question exclamation Une exclamation invite Une invitation rumor Une rumeur respect Avec respect polite Avec politesse require-agreement Demande agrŽment ou confirmation thought Une pensŽe conclude Une conclusion sure InfŽrence ˆ partir dÕune situation maybe InfŽrence dÕune ŽventualitŽ seem InfŽrence ou supposition recommend Une recommandation grant Une permission grant-not Un refus de permission underestimate Une sous-estimation duty Une obligation should Une quasi-obligation sufficiency Suffisance consent Un consentement pity DŽsappointŽ be-sorry Avec remords appearance Circonstance ou comparaison natural-result RŽsultat naturel dÕun ŽvŽnement ou dÕune circonstance advise Avis ou recommandation donnŽe par lÕauteur natural-thing Forme idŽale, ce qui devrait tre blame Un bl‰me if SpŽculation sur quelque chose dÕincertain reality La rŽalitŽ unexpected Inattendu, imprŽvisible GENELEX a choisi de coder ses dictionnaires dans un format entitŽs-attributs-relations. Ce choix permet de visualiser un unitŽ lexicale comme un graphe. Cela permet aussi de placer chaque ŽlŽment dÕinformation sur un pied dՎgalitŽ (i.e. aucun nÏud nÕest privilŽgiŽ lors des recherches, alors quÕune structure en arbre privilŽgierait la racine). GENELEX a produit un dictionnaire public dÕenviron 3000 termes. Par ailleurs, les participants au projet ont transformŽ leurs dictionnaires privŽs au format dŽfini par le consortiumÊ: Hachette 55Ê000 termes Notre temps 60Ê000 termes + 25Ê000 noms propres SEMA Group 70Ê000 unitŽs morphologiques IBM 50Ê000 unitŽs morphologiques GSI-ERLI 68Ê000 unitŽs morphologiques simples et 15Ê000 unitŽs morphologiques composŽes 3.1. Le modèle conceptuel de GENELEX Le modle conceptuel de GENELEX dŽfinit le formalisme de haut niveau dans lequel un linguiste peut exprimer sa thŽorie linguistique. Ce formalisme de haut niveau doit tre indŽpendant du stockage effectif des donnŽes. GENELEX doit reprŽsenter les diverses descriptions existantes, compte tenu de ce quÕelles dŽpendront du modle thŽorique, du degrŽ de finesse et des critres discriminants retenus par le lexicographe, et ce, quelle que soit son Žcole. Cela aura des rŽpercutionsÊ: - au niveau morphologique, - au niveau du comportement syntaxique des unitŽs lexicales, - au niveau sŽmantique, - au niveau des inter-relations entre les diffŽrentes informations codŽes. Ces diverses descriptions appara”tront soit dans plusieurs instances de dictionnaires, soit dans une seule et mme instance construite par fusion de toutes les autres. Le formalisme descriptif de Genelex est donc dŽveloppŽ pour pouvoir contenir chacune des thŽories en usage. Il fonctionne donc comme un pont entre les diffŽrentes thŽories linguistiques. Le modle conceptuel GENELEX a ŽtŽ largement exprimŽ au travers de modles entitŽs- attributs-relations (Merise). Beaucoup de contraintes dÕintŽgritŽ sont exprimŽes dans ce formalismeÊ: typage des objets, typage des relations, cardinalitŽ des relations, etc. Cependant, ce modle nÕest pas fait pour exprimer des rgles. Aussi, certaines contraintes ont dž tre exprimŽes dans le document dÕaccompagnement (restriction sur les combinaisons de valeurs). Il sÕensuit que le modle conceptuel de GENELEX combine lÕutilisation du formalisme entitŽs-attributs-relations et de commentaires en langage naturel. Comme nous lÕavons dŽjˆ mentionnŽ, le formalisme de GENELEX se veut indŽpendant du stockage effectif des donnŽes. Cela permet ˆ chaque membre du consortium GENELEX de construire ses propres outils sur la plate-forme de son choix. Un format dՎchange est donc nŽcessaire pour assurer la compatibilitŽ des diffŽrents outils. Le consortium GENELEX a choisi SGML (Standard Generalized Markup Language) comme format dՎchange. SGML est un langage de description de documents (cf. annexe A) qui permet de dŽcrire la structure et le contenu dÕun ensemble de documents. La structure dÕun document est donnŽe par une DTD (Document Type Definition). GENELEX a donc traduit son modle conceptuel en un modle physique en construisant une DTD. Certaines des contraintes alors exprimŽes en langage naturel ont pu tre exprimŽes formellement dans la DTD. Les autres contraintes apparaissent sous forme de commentaires. 3.2. Vue générale d’une unité du lexique Comme lÕensemble des informations dÕun dictionnaire Genelex, chaque unitŽ du lexique peut tre vue sous forme de graphe. Les unitŽs sont organisŽes selon trois couchesÊ: unitŽs morphologiques (UM), unitŽs syntaxiques (USyn) et unitŽs sŽmantique (USŽm). Nous donnons en figure 2.14. lÕarticulation globale dÕune unitŽ du lexique. Graphie UMG MFG Phonie UMP MFP se prononce UnitŽ Morphologique UMS, UMC, UM_AFF dŽrivation, forme brve, autonomie, composition forme graphique forme phonique syntaxe 0,n 1,1 UnitŽ syntaxique simple USynt sŽmantique 0,n 1,n UnitŽ sŽmantique USŽm, traits componentiels, relations Abstraction Concept Structure prŽdicative PrŽdicat sŽmantique Structure syntaxique self, construction, position, É correspondance d'arguments UnitŽ syntaxique composŽe composition Description de base transformation transformation Description de base struct. interne struct. transf. sŽmantique Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique Une unitŽ du lexique comprend donc une unitŽ morphologique. Cette unitŽ morphologique est reliŽs ˆ 0, 1 ou plusieurs unitŽs syntaxiques simples. LÕunitŽ syntaxique, par contre, nÕest reliŽe quՈ une et une seule unitŽ morphologique. Dans le cas dÕexpressions composŽes, lÕunitŽ morphologique est reliŽe ˆ plusieurs unitŽs syntaxiques simples (celles des composants), elles-mmes liŽes ˆ une unitŽ syntaxique complexe (dŽcrivant le comportement syntaxique global du composŽ). Une unitŽ syntaxique simple est reliŽe ˆ 0, 1 ou plusieurs unitŽs sŽmantiques. LÕunitŽ sŽmantique est liŽe de manire biunivoque ˆ un concept et ˆ une structure prŽdicative. On conna”t aussi la correspondance entre les arguments du prŽdicat et les ŽlŽments syntaxiques de lÕunitŽ. LorsquÕune unitŽ sŽmantique est associŽe ˆ plusieurs unitŽs syntaxiques, celle-ci sont simples et proviennent de la mme unitŽ morphologique. Avec ce schŽma, il est possible de crŽer des dictionnaires nÕayant que des informations morphologiques, nÕayant que des informations morphologiques et syntaxiques ou ayant des informations morphologiques, syntaxiques et sŽmantiques. 3.3. Le modèle morphologique Le modle morphologique dŽfinit une unitŽ morphologique (UM) et donne sa structure. Une unitŽ morphologique est le point dÕentrŽe de la couche morphologique et le point de passage vers les autres couches. Une unitŽ morphologique est un regroupement de mots basŽ sur des propriŽtŽs morphologiques. Elle est identifiŽe par son lemme graphique et/ou par son lemme phonŽtique. La forme lemmatisŽe est la forme singulier sÕil y a variation en nombre, masculin sÕil y a variation en genre, et infinitif pour les verbes. Dans certains cas, il est difficile de savoir si lÕon a affaire ˆ plusieurs unitŽs morphologiques ou ˆ une seule. Pour cela, GENELEX a dŽfini des critres formels dՎclatementÊ: - si deux catŽgorie grammaticales peuvent tre associŽes ˆ une forme lemmatisŽe, on considre quÕon est en prŽsence de deux lemmes distincts. Par exempleÊ: autiste (nom) et autiste (adjectif). On note cependant la difficultŽ ˆ distinguer certaines catŽgorieÊ: nom/adjectif, participe passŽ/adjectif, participe prŽsent/adjectif. - si la variation en genre dÕun nom reflte une variation sŽmantique (mise ˆ part le changement de sexe), on considre que lÕon est en prŽsence de deux unitŽs morphologiques distinctes. Par exempleÊ: un page/une page, un colonel/une colonelle (la colonelle est la femme du colonel, pas un colonel fŽminin). - si deux significations trs distinctes (sans lien Žtymologique ou rhŽtorique) peuvent tre associŽes ˆ une forme lemmatisŽe, on considre que lÕon est en prŽsence de deux lemmes distincts. Par exempleÊ: fraise, pole. LÕapplication de ce critre est laissŽe au lexicographe. On ne peut malheureusement pas toujours dŽterminer si certains de ces critres sÕappliquent ou non. GENELEX a dŽfini cinq types dÕunitŽs morphologiquesÊ: - UM simpleÊ: une UM simple est associŽe ˆ une graphie (plusieurs en cas de variantes) constituŽe dÕune suite de caractres alphabŽtiques, de sŽparateurs (tiret, apostrophe, point) et de la marque Žventuelle dÕhyphŽnation. Par exempleÊ: demain, aprs-demain, aujourdÕhui. - UM affixesÊ: une UM affixe peut tre de type prŽfixe, infixe ou suffixe, ou encore sans type dans le cas o elle ne prend son statut quÕen contexte de dŽrivation ou composition. Par exemple, -tion (suffixe), re- (prŽfixe), et gyne (sans type dÕaffixe), qui donne androgyne et gynŽcologue. - UM dŽrivŽesÊ: une UM dŽrivŽe est une unitŽ morphologique simple qui entretient des liens de dŽrivation avec dÕautres unitŽs morphologiques (simples ou affixes). Ces unitŽs grand dam, dans le but de P[mode: infinitif] -> dans ce but). De plus, on peut mentionner les processus dÕeffacementÊ: fil de fer barbelé -> fil barbelé -> barbelé. P P0 P1 P2 P3 C = PRO [lex : il] [sscat : impersonnel] V [ssCatSyn : copule] SADJ P (P0) SELFsyntagme rŽŽcritÊ: SADJÊ: ou P P P0 P1 PPrep [lex: de] P0: vide P1 SV[mode: infinitif] P0 P1 P [mode: subjonctif]CONJ [sscat: subord.] [lex: que] SELF = intŽressant (adjectif) Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif) La figure 2.17. donne un exemple de construction syntaxique pour une USyn composŽe. LÕinteraction entre composants et arguments ou modifieur y est dŽcrite (insertion dÕun argument entre les composants, par exemple). CB: P P0 SELF P1 SN SN SELF: IntervConst: V Syntagme NT S: SV P0 IO P1 V [RefLex: mettre] SP [prep: en] [RefLex: Ïuvre] cb.P1 SN mettre SN en Ïuvre Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ 3.5. Le modèle sémantique Vu le faible niveau de consensus dans la communautŽ scientifique en ce qui concerne la formalisation des connaissances sŽmantiques, GENELEX propose un mŽta-modle ˆ instancier plut™t quÕun modle ˆ implŽmenter directement sur les donnŽes lexicales. Dans cet esprit, Genelex a clairement sŽparŽ la sŽmantique en deux niveauxÊ: - un niveau de reprŽsentation sŽmantique linguistiqueÊ: cette reprŽsentation, trs proche de la langue, est construite principalement ˆ partir de lÕobservation du lexique en contexte et des relations sŽmantiques entre ŽlŽments du lexique. Ce niveau regroupe les informations sŽmantiques fines nŽcessaires ˆ la traduction automatique de qualitŽ ou ˆ la gŽnŽration, ˆ la comprŽhension automatique de texte pour gŽnŽration de rŽsumŽÉ). - un niveau de reprŽsentation sŽmantique conceptuelleÊ: cette reprŽsentation, issue des courants de lÕintelligence artificielle, est dÕune plus grande ÒabstractionÓ. elle sÕappuiera sur des primitives, associŽes ˆ un formalisme de reprŽsentation des connaissances. La profusion de thŽories que GENELEX souhaite pouvoir coder dans son modle lÕa menŽ ˆ choisir une approche plus multi-thŽorique que a-thŽorique. LÕunitŽ sŽmantique permet dÕaccŽder ˆ lÕensemble des informations sŽmantiques correspondant ˆ une certaine acception dÕune entrŽe. LÕunitŽ sŽmantique dŽcrit donc le sens dÕune unitŽ morphologique dans un contexte syntaxique donnŽ. DÕautre part, une unitŽ syntaxique, et donc implicitement lÕunitŽ morphologique dont elle est issue, peut tre associŽe ˆ plusieurs unitŽs sŽmantiques. Les relations entre les diffŽrents modles de GENELEX nous donnent donc une structure illustrŽe par lÕexemple de la figure 2.18. UnitŽ morphologique UnitŽ syntaxique UnitŽ sŽmantique UnitŽ syntaxique UnitŽ syntaxique UnitŽ syntaxique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique UnitŽ sŽmantique Figure 2.18Ê: Un exemple de relations entre les diffŽrents modles GENELEX Pour Žtablir la correspondance entre syntaxe et sŽmantique, Genelex introduit la notion de prŽdicat. Toute unitŽ sŽmantique peut-tre associŽe ˆ un prŽdicat. Il est ainsi possible de noter les liens entre les diffŽrentes positions (en syntaxe) et les arguments du prŽdicat (en sŽmantique). Ë chaque argument dÕun prŽdicat est associŽe une information sŽmantique en terme de traits ou de r™le sŽmantique. On peut aussi lui associer une valeur par dŽfaut, afin de traiter les cas o lÕargument est absent en surface. Enfin, il est possible dՎtablir des relations entre les diffŽrentes unitŽs sŽmantiques du dictionnaire. Cette possibilitŽ permet donc de coder un thesaurus, voire dÕautres liens plus fins, comme les fonctions dÕIgor MelÕcÿuk. 4. MULTILEX MULTILEX est un projet ESPRIT (DG XIII), qui a dŽbutŽ en dŽcembre 1990 et sÕest achevŽ en dŽcembre 1993. Son but Žtait de proposer des standards pour les bases lexicales multilingues. Les 3 annŽes du projet ont ŽtŽ rŽparties en deux phases. La premire phase, axŽe vers la recherche, a consistŽ en la dŽfinition des standards ˆ adopter. La seconde, axŽe vers les applications, a expŽrimentŽ, corrigŽ et dŽveloppŽ les standards ainsi proposŽs. MULTILEX a proposŽ diffŽrents types de standards, portantÊ: - sur les informations linguistiquesÊ: quelles sont les informations que lÕon met dans la base, sous quelle formeÉ)Ê? - sur lÕarchitecture linguistiqueÊ: comment les entrŽes sont-elles organisŽesÊ? - sur lÕarchitecture lexicaleÊ: comment les dictionnaires sont-ils organisŽsÊ? - sur lÕarchitecture informatiquesÊ: comment sont organisŽs les diffŽrents outilsÊ? Enfin, MULTILEX a dŽveloppŽ un prototype de dictionnaire quadrilingue (anglais, franais, allemand et italien) selon ces standards. LÕarchitecture dÕune base lexicale MULTILEX est basŽe sur des dictionnaires monolingues et bilingues. Les unitŽs lexicales sont reprŽsentŽes avec un formalisme basŽ sur les structures de traits typŽs. Un langage a ŽtŽ dŽfini pour dŽcrire la structure dÕune unitŽ lexicale. Un autre, dŽfini par nos soins, permet de coder des rgles de cohŽrence et dÕintŽgritŽ. Chaque manipulation de lÕinformation linguistique est faite dans ce formalisme. Ensuite, les entrŽes sont stockŽes dans une base de donnŽes relationnelle. MULTILEX a aussi dŽveloppŽ un standard linguistique pour la reprŽsentation dÕunitŽs lexicales de langues europŽennes. Ce standard code lÕensemble maximal dÕinformations linguistiques commun aux langues europŽennes. 4.1. Architecture lexicale Une base de donnŽes lexicales MULTILEX est un ensemble de dictionnaires monolingues et bilingues. LÕarchitecture lexicale prŽvoit un dictionnaire monolingue par langue, et deux dictionnaires bilingues unidirectionnels par couple de langues (voir figure 2.19.). Language 1 Language 2 Language 3 Monolingual dictionary Transfer dictionary Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX Les Žquivalences bilingues contiennent des informations contrastives entre la LU source et la LU cible. Ces informations contiennent notamment des indications sur les diffŽrence de sens entres les LUs, des conditions syntaxiques sur lÕapplication de la correspondance et des transformations ˆ appliquer pour effectuer le transfert. 4.2.2.3. Approche unidirectionnelle Une relation bilingue est principalement constituŽe de deux partiesÊ: une condition syntaxique dÕapplication et une transformation ˆ appliquer aux informations de la langue source pour obtenir une structure valide en langue cible. Il nÕest pas possible, dans le cas gŽnŽral, dÕinverser cette relation. En effet, sÕil est possible (dans certains cas) dÕinverser la transformation donnŽe, on ne peut dŽduire des informations prŽsentes les conditions syntaxiques ˆ appliquer ˆ lÕentrŽe en langue cible pour sŽlectionner le transfert inverse. Le modle de MULTILEX est donc fortement unidirectionnel. 4.3. Architecture logicielle Paralllement aux standards linguistiques, Multilex a dŽveloppŽ des standards informatiques pour lÕimplŽmentation de bases lexicales multilingues. Ces standards rŽgissent le format dՎchange des donnŽes, lÕarchitecture lexicale ˆ adopter et lÕensemble des outils ˆ construire pour la maintenance dÕune base lexicale multilingue. Les outils se conformant ˆ ces standards peuvent le faire selon plusieurs niveaux, le minimum requis Žtant lÕutilisation du format dՎchange des donnŽesÊ: MLEXd. Cette architecture logicielle ressemble ˆ lÕarchitecture logicielle dŽfinie plus avant dans cette thse, car, lors de ma premire annŽe de thse, jÕai collaborŽ au projet MULTILEX. LÕarchitecture logicielle que jÕai proposŽe a ŽtŽ retenue par le consortium. Celle proposŽe dans ce travail en est la version suivante. <item> <word-sens> <lu> <gr-canon> ballast <homograph-number> 0 <meaning-number> 1 <gpmu-id> <gr-canon> ballast <meaning-number> 1 <syntactic-description> … Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX LÕarchitecture logicielle MULTILEX distingue fortement les problmes de stockage, de manipulation, et de visualisation des donnŽes. Elle est basŽe sur trois niveauxÊ: - niveau base de donnŽesÊ: ce niveau est en charge du stockage effectif des donnŽes. DiffŽrents systmes relationnels de gestion de bases de donnŽes peuvent tre utilisŽs ˆ ce niveau, qui est invisible pour lÕutilisateur. - niveau interneÊ: ce niveau est en charge des diffŽrentes manipulations sur les donnŽes des entrŽes de dictionnaires. CÕest ˆ ce niveau que les diffŽrents outils dÕun systme de gestion de bases lexicales oprent. Pour ce niveau, MULTILEX conseille dÕutiliser des structures de traits typŽs. - niveau prŽsentationÊ: ce niveau est en charge de la prŽsentation des informations ˆ lÕutilisateur. Cette prŽsentation nÕest pas nŽcessairement proche de la structure interne utilisŽe. De plus, il peut tre possible de proposer diffŽrentes prŽsentation dÕune mme information pour diffŽrents utilisateurs ou diffŽrents buts. Cette architecture est illustrŽe par la figure 2.22. Multilex a aussi dŽfini un ensemble dÕoutils standard pour un systme de gestion de bases lexicales multilingues. Ces diffŽrents outils manipulent les donnŽes linguistiques au niveau interne et interagissent avec lÕutilisateur au niveau externe. Les outils ainsi dŽfinis sont les suivantsÊ: - ƒditeurÊ: lՎditeur permet dՎditer ou de modifier des entrŽes du dictionnaire. Pour cela, il doit offrir des fonction de navigation ˆ lÕintŽrieur de la base lexicale. Afin de permettre lՎdition et la modification des entrŽes, lÕensemble des informations linguistiques doit tre prŽsentŽ ˆ lÕutilisateur. - NavigateurÊ: le navigateur permet de consulter la base lexicale. Il doit permettre diffŽrentes prŽsentations suivant les motivations de lÕutilisateur. Il nÕest pas nŽcessaire que les prŽsentations refltent la totalitŽ des informations linguistiques associŽes ˆ une entrŽe. ƒventuellement, lÕoutil donnera un moyen ˆ lÕutilisateur de spŽcifier sa propre prŽsentation. - VŽrificateur de cohŽrenceÊ: cet outil permet de vŽrifier des rgles de cohŽrence dŽfinies par lÕutilisateur. Lorsque certaines de ces rgles sont violŽes, le vŽrificateur le signale ˆ lÕutilisateur. Cet outil permet la vŽrification de cohŽrence ˆ lÕintŽrieur dÕun article, la cohŽrences entre articles dÕun mme dictionnaire, et la cohŽrence entre articles de diffŽrents dictionnaires. - DŽfauteurÊ: cet outil permet de complŽter des entrŽes incompltes. Cet complŽtion peut avoir lieu a posteriori sur des entrŽes dŽjˆ prŽsentes dans le dictionnaire, ou interactivement afin dÕaccŽlŽrer le processus dՎdition. Cet outil utilise des rgles de valeurs par dŽfaut dŽfinies par un linguiste. - Import/exportÊ: cet outil gŽnre et accepte des fichiers MLEXd reflŽtant la structure linguistique des entrŽes du dictionnaire. Le format MLEXd est un format basŽ sur SGML, codant des structures de traits. L1 L2 L3 L4L5 L6 Dictionnaire monolingue Dictionnaire interlingue I Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue. La critique la plus courante de lÕapproche par transfert porte sur le nombre de dictionnaires ˆ dŽfinirÊ: le nombre de dictionnaires bilingues thŽorique est fonction du carrŽ du nombre de dictionnaires monolingues. Si nm est le nombre de dictionnaires monolingues, et nb le nombre de dictionnaires bilingues, on a: nbÊ=Ê nmÊ(nmÊ-Ê1) 2 Ce nombre est multipliŽ par deux lorsque lÕon utilise des dictionnaires bilingues unidirectionnels. Ce calcule se base sur lÕhypothse que tous les couples de langues doivent tre prŽsents et que la charge de traduction est rŽpartie de manire uniforme entre les langues. Or, mme ˆ lÕUnion EuropŽenne, qui est considŽrŽe comme lÕorganisme travaillant dans le contexte la plus multilingue (9 langues), lÕeffort de traduction nÕest pas rŽparti de manire uniforme parmi les langues, les principales Žtant lÕallemand, lÕanglais, et le franais. Aussi, lÕapproche par transfert est la plus utilisŽe ˆ lÕheure actuelle. En effet, la plupart des projets ne se situent pas dans les hypothses retenues pour effectuer le calcul prŽcŽdent. Dans la plupart des cas, ces projets nÕont quÕune ou deux langues sources. Dans dÕautres cas, il est possible de passer par un ensemble de langues intermŽdiaires qui agissent comme des pivots. Dans ce cas, le nombre de dictionnaire augmente de manire linŽaire et non plus quadratique. Pour sa part, la mŽthode interlingue permet de rŽduire le nombre de liens. En effet, il suffit de construire un lien entre chaque dictionnaire monolingue et le dictionnaire interlingue. On a ainsi une connectivitŽ beaucoup plus rŽduite que dans lÕapproche bilingue. Mais cet avantage se paie en complexitŽ puisque ces liens sont beaucoup plus difficiles ˆ gŽrer. En effet, lÕajout dÕune entrŽe dans une langue peut remettre en cause les entrŽes du dictionnaire interlingue (et donc certains liens allant vers les autres langues). Il est trs difficile dՎvaluer la complexitŽ qui se rajoute lorsque lÕon utilise cette approche. De plus, on ne sait si la complexitŽ de crŽation dÕune base interlingue nÕaugmente pas de manire quadratique avec le nombre de langue. Des expŽrimentations ont ŽtŽ conduites ˆ une echelle suffisante au CICC (environ 50Ê000 mots de base et 25Ê000 termes techniques en japonais, chinois, malais, indonŽsien et thai [Yaoliang & zhendong 1991]), mais on nÕen trouve pas les rŽsultats en termes de difficultŽs de dŽveloppement de lÕinterlingue. En partant de lÕhypothse selon laquelle le dŽveloppement dÕun dictionnaire interlingue nÕaugment pas de manire quadratique avec la nombre de langue et en se plaant dans un contexte trs fortement multilingue, on considre habituellement quÕune telle approche est justifiŽe lorsque lÕon veut construire des bases lexicales comportant plus de huit langues ([Boitet 1988a, Boitet 1990a]). Ë lÕheure actuelle, la majoritŽ des projets utilisant lÕapproche interlingue se basent sur une connaissance du monde (ontologie). Aussi, il est assez difficile de distinguer les problmes entra”nŽs par le choix dÕune approche multilingue et ceux entra”nŽs par une reprŽsentation des connaissances. LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽfini dans cette thse donne au linguiste le moyen de dŽfinir son architecture lexicale en dŽclarant explicitement lÕensemble des dictionnaires prŽsents dans sa base. La dernire partie de cette thse propose dans ce cadre une nouvelle approche interlingue ne faisant pas appel ˆ un modle par connaissances. 2. Architecture linguistique LÕarchitecture linguistique dÕune base lexicale dŽfinit la manire dont sont codŽes les entrŽes des dictionnaires quÕelle contient. Elle rŽgit donc, notamment, les structures logiques qui seront utilisŽes dans le codage des informations linguistiques. Lors de lՎtude des efforts en cours, nous avons pu constater la multitude des choix qui se posent lorsque lÕon veut reprŽsenter des informations linguistiques dans un dictionnaire. De plus, on ne souhaite pas forcŽment reprŽsenter les mmes informations. Une base lexicale voudra reprŽsenter toutes les informations morphologiques, syntaxiques et sŽmantiques alors quÕune autre se contentera de reprŽsenter la morphologie. Les difficultŽs linguistiques ne sÕarrtent pas lˆ. Ds le niveau morphologique, que lÕon considre comme le plus simple et le plus mžr, on est confrontŽ ˆ des problmes dus ˆ lÕorganisation du dictionnaire et aux difficultŽ inhŽrentes de la langue (quÕest-ce quÕune entrŽe, puis-je avoir un espace dans une entrŽe, puis-je coder des expressions compltes, vais-je utiliser des tables pour coder la morphologie, ou bien un automateÉ). Ces mmes problmes se retrouvent ˆ tous les niveaux. Ë ces difficultŽs linguistiques sÕajoutent les problmes dus ˆ lÕoutil choisi pour gŽrer la base lexicale. En effet, si lÕon souhaite rŽutiliser les outils de MULTILEX, il faut coder toutes les structures linguistiques avec la seule structure logique que propose MULTILEXÊ: les structures de traits. De la mme manire, lÕutilisation des outils de Genelex oblige lÕadoption dÕune structure entitŽs-attributs-relations. Certes, ces structures sont adaptŽes ˆ certaines thŽories linguistiques, mais un outil ne doit pas prŽjuger des thŽories qui seront retenues par les linguistes. Il existe une trs importante variŽtŽ de structures logiques utilisŽes dans certains dictionnaires. Parmi ces structures, on peut citer les ensembles dÕattributs (EDR), les automates dՎtats finis (LADL), les graphes (GENELEX), les structures de traits (MULTILEX), les arbres ŽtiquetŽs (Le Lexicaliste), les termes Prolog (ULTRA)É Stuart M. Shieber [Shieber 1986] a dŽfini trois critres dՎvaluation des formalismes grammaticaux. LÕun de ces critres est pertinent dans le contexte des bases lexicalesÊ: - FŽlicitŽ linguistiqueÊ: le degrŽ auquel les descriptions de phŽnomnes linguistiques peuvent tre exprimŽes, directement ou indirectement, de la manire o le linguiste voudrait les exprimer. Il est possible de coder une structure linguistique en utilisant nÕimporte quelle structure logique particulire. NŽanmoins, ce codage nÕest, bien souvent, ni naturel, ni pratique. De plus, il est souvent difficile de trouver une structure logique qui permette un codage naturel de la totalitŽ des phŽnomnes linguistiques que lÕon veut coder dans le dictionnaire. Aussi, il est difficile de satisfaire au critre de Shieber avec un systme ne proposant quÕun type de structure logique. LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽcrit dans cette thse propose donc au linguiste une grande variŽtŽ de structures logiques. Ainsi, il peut choisir la structure logique quÕil juge la plus adaptŽe ˆ sa thŽorie linguistique. Il peut mme coder des unitŽs lexicales en utilisant diffŽrentes structures logiques. 3. Présentation de l’information Les informations lexicales ont certaines particularitŽsÊ: - cette information (parfois trs complexe) est spŽcifiŽe, rentrŽe et utilisŽe par des linguistes non spŽcialisŽs en informatique, - elle peut tre utilisŽe ˆ des buts trs variŽs comme lÕapprentissage dÕune langue, la consultation dÕune dŽfinition, la synthse de parole, la Traduction AutomatiqueÉ - les performances des systmes automatiques sont directement reliŽes aux informations lexicales quÕils utilisent, ce qui rend cruciales les problmes de maintenance et de correction, - la taille dÕune base lexicale est telle quÕelle nŽcessite plusieurs personnes pour lÕindexage et la maintenance de cette information, Tous ces facteurs demandent donc une prŽsentation de cette information qui la rende facile dÕaccs ˆ des fins de maintenance, alors que cette information est, en gŽnŽral, structurŽe pour un usage automatique. Ce problme est crucial lorsquÕon laisse le linguiste libre dans le choix de ses structures. En effet, certaines structures, trs appropriŽes pour une utilisation informatique, sont trs difficiles ˆ prŽsenter, ˆ lire et ˆ comprendre. Ainsi, sÕil est aisŽ de manipuler une structure dÕautomate reprŽsentŽe sous forme graphique, cela est beaucoup plus complexe si on souhaite la reprŽsenter sous une forme textuelle, en donnant par exemple la liste de ses arcs ou de ses nÏuds. Cet Žtat de fait rend difficile le repŽrage dÕerreurs Žventuelles et leur correction. Il faut donc trouver un moyen de contr™ler la manire dont est prŽsentŽe lÕinformation. De plus, le mŽcanisme de prŽsentation doit tre suffisamment gŽnŽral pour permettre de masquer la structure interne de lÕinformation lexicale. Enfin, cette information peut tre accŽdŽe pour diffŽrents usages. Dans certains cas, le lexicographe veut consulter lÕensemble des informations dÕune entrŽe pour en vŽrifier la cohŽrence. Dans dÕautre cas, il veut avoir une liste des entrŽes qui satisfont ˆ un critre ou qui ont ŽtŽ classŽes par un tri. Dans ce cas, le lemme et la catŽgorie sont les seules informations qui lÕintŽressent. Il est donc important de pouvoir dŽfinir diffŽrentes prŽsentations de lÕinformation. Introduction Comme nous lÕavons constatŽ dans la partie prŽcŽdente, la diversitŽ des solutions envisageables pour structurer une base lexicale, pour structurer une entrŽe du lexique ou pour prŽsenter les informations linguistiques ˆ lÕutilisateur rend impossible le choix a priori dÕune solution linguistique satisfaisant lÕensemble des utilisateurs. Pourtant, les projets ŽtudiŽs on souvent fait des choix restrictifs pour lÕutilisation de leurs outils dans lÕimplŽmentation de bases lexicales variŽes. Le projet MULTILEX a pourtant donnŽ au linguiste un langage lui permettant de dŽfinir les traits quÕil souhaite coder dans son dictionnaire. NŽanmoins, il ne peut utiliser que des structures de traits pour coder une thŽorie linguistique. Or, nous avons vu que de nombreuses autres structures logiques sont effectivement utilisŽesÊ: graphes (GENELEX), automates (LADL), arbres (Le Lexicaliste)É Certains diront quÕil est tout ˆ fait possible de coder ces structures logiques avec des structures de traits. Cet argument est techniquement exact, mais ergonomiquement non fondŽ. En effet, ce type dÕoutil doit offrir au linguiste un niveau suffisant dÕabstraction pour quÕil nÕait pas ˆ se prŽoccuper dÕun codage supplŽmentaire de lÕinformation. De plus, les projets existants ont figŽ lÕarchitecture lexicale considŽrŽe. Il nÕest donc pas possible dÕutiliser leurs rŽsultats pour expŽrimenter de nouvelles architectures lexicales. Enfin, rares sont les projets qui se sont attachŽs au problmes de la visualisation de lÕinformation. Le langage de dŽfinition des traits linguistiques de MULTILEX, par exemple, permet de paramŽtrer le placement des ŽlŽments de la structures dans les Žcrans de saisie, mais il ne permet pas de visualiser la structure linguistique en faisant abstraction de sa reprŽsentation interne (structure de traits). On veut donc construire un outil gŽnŽrique permettant de crŽer de nombreuses instances de bases lexicales qui ne seront pas forcŽment basŽes sur une mme architecture lexicale, qui ne se fonderont pas sur la mme thŽorie linguistique, qui nÕutiliseront pas les mmes structures logiques et o les informations ne seront pas visualisŽes de la mme manire. Aussi, nous avons choisi de travailler ˆ la crŽation de SUBLIM, un outil qui permettra au linguiste de crŽer et de gŽrer une base lexicale pour laquelle il a, au prŽalable, dŽclarŽÊ: - les dictionnaires quÕelle contientÊ: ces dictionnaires peuvent tre monolingues, bilingues ou interlingues, - pour chaque dictionnaire, quelles sont les structures quÕil contientÊ: ces structures linguistiques peuvent tre exprimŽes en utilisant diffŽrentes structures logiques de base (arbres, graphes, structures de traits, automatesÉ) que lÕon peut composer. - pour chaque dictionnaire et pour chaque structure, la (ou les) manire(s) de les prŽsenter. Dans cette partie, nous prŽsentons les principes et lÕimplŽmentation de cet outil. Nous commencerons par la partie concernant la dŽfinition des architectures lexicales, pousuivrons par celle concernant la dŽfinition de lÕarchitecture linguistique, et finirons par lÕarchitecture logicielle et les outils de gestion de la base lexicale. Ainsi, la dŽfinition du dictionnaire franais-anglais se fera de la manire suivante (en admettant que le dictionnaire monolingue anglais a ŽtŽ nommŽ english)Ê: (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") Ainsi, le dictionnaire bilingue franais-anglais sera nommŽ de manire univoque par le symbole french-english dans lÕensemble de la base. LÕattribut :type dŽfinit le type du dictionnaire bilingue. Le dictionnaire bilingue peut tre unidirectionnel ou bidirectionnel. Les attributs :source et :target ne sont pertinents que dans le cas de dictionnaires bilingues unidirectionnels. Ils sont obligatoires dans ce cas. En effet, les structures linguistiques dŽfinies dans ce dictionnaire pourront utiliser ou se rŽfŽrer ˆ des structures utilisŽes dans les dictionnaires source et cible. Dans le cas dÕun dictionnaire bidirectionnel, ces attributs sont remplacŽs par lÕattribut :links qui prend pour valeur une liste de dictionnaires. Finalement, la dŽfinition de ces diffŽrents dictionnaires se fait dans le cadre de la dŽfinition dÕune base lexicale multilingue particulire. Cette base lexicale est dŽfinie gr‰ce ˆ la fonctionÊ: define-lexical-database name Keywords* o name est un symbole dŽfinissant de manire unique la base lexicale. Ainsi, notre base lexicale multilingue se dŽfinit parÊ: (define-lexical-database MULTILEX-like-database :owner "GETA" :comment "Une base lexicale fondée sur une approche bilingue" :dictionaries (french english german dutch italian french-english french-german french-italian french-dutch ... )) Notre base lexicale se nomme donc MULTILEX-like-database. Nous lui avons attribuŽ un commentaire (une cha”ne de caractres) et une liste de dictionnaires (ceux que nous avions dŽfinis auparavant). 1.1.2. Une architecture interlingue Notre deuxime exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale basŽe sur lÕapproche interlingue. Cette architecture lexicale est inspirŽe de lÕarchitecture lexicale du systme ULTRA [Farwell, Guthrie & Wilks 1993]. La base lexicale que nous souhaitons dŽfinir comprend 5 dictionnaires monolingues (anglais, chinois, japonais, espagnol et allemand). Ces 5 dictionnaires sont reliŽs par un dictionnaire interlingue (voir figure 4.2). Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le dictionnaire interlingue contient un ensemble dÕunitŽs interlingues appelŽes IR. La dŽfinition des dictionnaires monolingues se fait exactement de la mme manire que dans lÕexemple prŽcŽdentÊ: (define-monolingual-dictionary english :language "English" :owner "CRL-NMSU") La dŽfinition du dictionnaire interlingue se fait gr‰ce ˆ la fonctionÊ: define-interlingual-dictionary name Keywords* o name est un symbole dŽfinissant de manire unique le dictionnaire pour lÕensemble de la base. Ainsi, la dŽfinition du dictionnaire interlingue se fera de la manire suivanteÊ: (define-interlingual-dictionary IR :owner "CRL-NMSU" :links (english chinese japanese german spanish)) Chinese English GermanJapanese Spanish Dictionnaire monolingue Dictionnaire interlingue IR Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue Le dictionnaire interlingue sera nommŽ de manire univoque par le symbole IR dans lÕensemble de la base. LÕattribut :links dŽfinit lÕensemble des dictionnaires monolingues reliŽs par le dictionnaire interlingue IR. La structure linguistique portŽe par les unitŽs des dictionnaires interlingues peut donc utiliser ou se rŽfŽrer ˆ des structures dŽfinies dans chacun des dictionnaires monolingues. La base lexicale elle-mme se dŽfinit comme auparavantÊ: (define-lexical-database ULTRA :owner "CRL-NMSU" :comment "Une base lexicale fondée sur une approche interlingue" :dictionaries (english german spanish japanese chinese IR)) 1.1.3. Une architecture mixte Notre dernier exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale basŽe ˆ la fois sur une approche bilingue et sur une approche interlingue. Cette architecture lexicale est inspirŽe de lÕarchitecture lexicale du projet EDR [EDR 1993]. Dictionnaire monolingue Dictionnaire interlingue Dictionnaire bilingue unidirectionnel japonais anglais Concept Dictionary Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte La base lexicale que nous souhaitons dŽfinir comprend 2 dictionnaires monolingues (anglais et japonais). Ces 2 dictionnaires sont reliŽs ˆ la fois par deux dictionnaires monolingues unidirectionnels et par un dictionnaire interlingue (voir figure 4.3.). Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le dictionnaires interlingue contient un ensemble dÕunitŽs interlingues appelŽes concepts. Les dictionnaires bilingues contiennent un ensemble de liens reliant les unitŽs du dictionnaire source ˆ des unitŽs du dictionnaire cible. La dŽfinition des dictionnaires monolingues se fait exactement de la mme manire que dans les exemples prŽcŽdentsÊ: (define-monolingual-dictionary english :language "English" :owner "EDR") Le dictionnaire interlingue se dŽfinit exactement comme dans lÕexemple prŽcŽdentÊ: (define-interlingual-dictionary concept-dictionary :owner "EDR" :links (english japanese)) Les dictionnaires bilingues se dŽfinissent exactement comme les dictionnaires du premier exemple : (define-bilingual-dictionary japanese-english :type unidirectionnal :source japanese :target english :owner "EDR") Et la base elle-mme se dŽfinit comme dans les exemples prŽcŽdentsÊ: (define-lexical-database EDR :owner "EDR" :comment "Une base lexicale fondée sur une approche mixte" :dictionaries (english japanese concept-dictionary)) 1.2. Le langage de définition de l’architecture lexicale : LEXARD Le langage LEXARD permet de dŽfinir une base lexicale. La dŽfinition dÕune base lexicale passe par la crŽation de ses ŽlŽmentsÊ: les dictionnaires. LEXARD offre trois types de dictionnairesÊ: - dictionnaires monolingues, - dictionnaires bilingues, - dictionnaires interlingues. La dŽfinition des dictionnaires monolingues se fait gr‰ce ˆ la fonctionÊ: define-monolingual-dictionary name Keywords* o name est un symbole dŽfinissant de manire unique le dictionnaire pour lÕensemble de la base. Les Keywords dŽfinissent des renseignements indispensables pour la gestion du dictionnaireÊ: :owner string spŽcifie le propriŽtaire du dictionnaire. :language string spŽcifie la langue du dictionnaire. La dŽfinition des dictionnaires bilingues se fait gr‰ce ˆ la fonctionÊ: define-bilingual-dictionnary name Keywords* o name est un symbole dŽfinissant le dictionnaire de manire unique ˆ lÕintŽrieur de la base. :owner string spŽcifie le propriŽtaire du dictionnaire. :type type spŽcifie le type (soit unidirectionnel, soit bidirectionnel) du dictionnaire. :source symbol spŽcifie le dictionnaire source (seulement si unidirectionnel).
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved