Prépare tes examens
Obtiens points
Guides et conseils

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Guides et conseils

Vends sur Docsity

Connexion

Créer un compte

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Rechercher des documents

Prépares tes examens avec des documents partagés par des étudiants comme toi sur Docsity

Recherches des documents du magasin

Les meilleurs documents à vendre des étudiants ayant terminé leurs études

Recherche parmi toutes les ressources d'étude

Docsity AINEW

Résume tes documents, pose-leur des questions, convertisse-les en quiz et cartes conceptuelles

Explores les questions

Enleves tout doute en lisant les réponses aux questions posées par d'autres élèves comme vous

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Condiviser documents

20 Points

Pour chaque document téléchargé

Réponds aux questions

5 Points

Pour chaque réponse donnée (max 1 par jour)

Tous les moyens d'obtenir des points gratuits

Obtiens des points maintenant

Choisi un plan Premium avec tous les points dont tu as besoin

Opportunités d'étude

Recherches des offres de formationNEW

Entre en contact avec les meilleurs universités du monde entier et choisis ton parcours d'étude

Communauté

Demandes à la communauté

Demandes de l'aide à la communauté et dissipes tes doutes concernant l'étude

Classement universitaire

Découvre les meilleures universités de ton pays selon les utilisateurs de Docsity

Guide gratuite

Nos e-books qui sauvent les étudiants!

Télécharges gratuitement nos guides sur les techniques d'étude, les méthodes de gestion de l'anxiété, les conseils pour la thèse réalisés par les tuteurs Docsity

Notes sur le système universel de bases lexicales - 1° partie, Notes de Langue Française

Université de Nantes Langue Française

Notes de langue sur le système universel de bases lexicales - 1° partie. Les principaux thèmes abordés sont les suivants: des dictionnaires sur papier aux bases lexicales, Dictionnaires sur support lectronique, Systmes lexicaux spéciaux.

Typologie: Notes

2013/2014

Téléchargé le 26/03/2014

Daphnee_r 🇫🇷

4.1

(64)

392 documents

1 / 68

Documents connexés

Notes sur les institutions internationales - 3° partie

Notes sur le système universel de bases lexicales - 2° partie

Notes sur le système universel de bases lexicales - 3° partie

Notes sur le système universel de bases lexicales

Notes sur les techniques génériques,d'accumulation - 2° partie

Notes sur les techniques génériques,d'accumulation - 1° partie

Notes sur les Réflexion sur la démocratie en Europe - 1° Partie

Notes sur les constantes - 1° partie

Notes sur les principes de base d'informatique - 1° partie

Notes sur les principes de base d'économie - 2° partie

Notes sur les bases de données de l'entreprise - 2° partie

Notes sur les bases scientifiques de l’´électricité - 2° partie

Notes sur les bases scientifiques de l’´électricité - 1° partie

Notes sur les bases de l'architecture de l'informatique - 2° partie

Notes sur Java et les bases de données - 3° partie

Notes sur les bases scientifiques de l’´électricité - 3° partie

Notes sur les bases de données de l'entreprise - 3° partie

Notes sur Java et les bases de données - 1° partie

Notes sur les bases du traitement du signal - 3° partie

Notes sur les bases du traitement du signal - 2° partie

Notes sur les bases du traitement du signal - 1° partie

Notes sur les bases de l'architecture de l'informatique - 1° partie

Notes sur les bases de l'architecture de l'informatique - 3° partie

Notes sur Java et les bases de données - 2° partie

Notes sur les bases de données de l'entreprise - 1° partie

Notes sur les principes de la dynamique d’un point - 2° partie

Abbaye de Saint-Gall Déclaration de valeur universelle ...

Système d'unités de mesure universel

Notes sur les relations sémantiques lexicales

Notes sur la modélisation des relations lexicales

Aperçu partiel du texte

Télécharge Notes sur le système universel de bases lexicales - 1° partie et plus Notes au format PDF de Langue Française sur Docsity uniquement! Table des matières INTRODUCTION 1 TAT DE LÕART ET PROBLéMES INTRESSANTS 3 I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 1. Dictionnaires sur papier............................................................................................ 6 1.1. Dictionnaires monolingues ....................................................................................... 6 1.2. Thesaurii.................................................................................................................... 8 1.3. Dictionnaires bilingues ............................................................................................. 9 1.4. Dictionnaires multilinguesÊ ...................................................................................... 10 2. Dictionnaires sur support lectronique .................................................................. 11 2.1. Un format de codageÊ: SGML/TEI............................................................................ 12 2.2. Dictionnaires en ligne: le Collins On-Line ............................................................. 13 2.3. Gestionnaires de dictionnaires terminologiquesÊ: MTX Termex ............................ 14 2.4. Un environnement originalÊ: le Dicologique .......................................................... 14 3. Systmes lexicaux spcialiss ................................................................................. 16 3.1. BDLex ...................................................................................................................... 16 3.2. Dictionnaires du LADL............................................................................................ 17 3.3. Ariane ...................................................................................................................... 17 3.4. BDTAO.................................................................................................................... 19 3.5. METAL ..................................................................................................................... 19 II. EFFORTS EN COURS 21 1. Le Lexicaliste ........................................................................................................... 22 ii Table des matires 1.1. Vue gnrale du systme ........................................................................................ 22 1.2. Rseau lexical et smantique.................................................................................. 23 1.3. Vrifications de cohrence et valeurs par dfaut ................................................... 23 2. EDR ......................................................................................................................... 24 2.1. Architecture lexicale ............................................................................................... 24 2.2. Architecture linguistique......................................................................................... 25 2.3. Dictionnaire de concepts ........................................................................................ 27 3. GENELEX.................................................................................................................. 31 3.1. Le modle conceptuel de GENELEX ....................................................................... 32 3.2. Vue gnrale dÕune unit du lexique ..................................................................... 33 3.3. Le modle morphologique ..................................................................................... 34 3.4. Le modle syntaxique ............................................................................................. 36 3.5. Le modle smantique............................................................................................ 38 4. MULTILEX................................................................................................................. 39 4.1. Architecture lexicale ............................................................................................... 39 4.2. Architecture linguistique......................................................................................... 40 4.3. Architecture logicielle ............................................................................................. 42 III. LES PROBLéMES INTRESSANTS 45 1. Architecture lexicale ............................................................................................... 45 2. Architecture linguistique......................................................................................... 48 3. Prsentation de lÕinformation ................................................................................. 49 CONCEPTION D'UNE BASE LEXICALE MULTILINGUE MULTIAPPLICATIONS 51 INTRODUCTION 53 IV. DFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 1. Dfinition de lÕarchitecture lexicale ....................................................................... 55 1.1. Exemples ................................................................................................................. 55 1.2. Le langage de dfinition de lÕarchitecture lexicaleÊ: LEXARD .................................. 59 2. Dfinition de lÕarchitecture linguistique ................................................................. 60 2.1. Exemples ................................................................................................................. 61 2.2. Le langage de dfinition de lÕarchitecture linguistiqueÊ: LINGARD ......................... 75 2.3. Implmentation ....................................................................................................... 87 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 1. Architecture logicielle ............................................................................................. 91 2. Niveau InterneÊ: manipulation des informations linguistiques............................... 92 Liste des figures I. DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES 5 Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (dition de 1970) ............................................. 6 Figure 1.2Ê: LÕunit lexicale complexe ÒconstruireÓ..................................................................... 7 Figure 1.3Ê: Un article du RodgetÕs thesaurus .............................................................................. 8 Figure 1.4Ê: Structure hirarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. ............................................................................... 9 Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation ...................... 9 Figure 1.6Ê: Un exemple d'article du Robert & Collins.............................................................. 10 Figure 1.7Ê: Une entre du dictionnaire terminologique des sciences de lÕinformation .......... 11 Figure 1.8Ê: LÕentre ÒcomposerÓ du Collins On-line, version Macintosh ................................. 13 Figure 1.9Ê: Un exemple dÕentre dÕun dictionnaire MTX Termex ........................................... 14 Figure 1.10Ê: Exemple de la structure des lments du Dicologique ....................................... 15 Figure 1.11Ê: Un exemple dÕentres de BDLex.......................................................................... 17 Figure 1.12Ê: Automate reprsentant la forme flchie ÒpasseÓ .................................................. 17 Figure 1.13Ê: Automate reprsentant les diffrentes variantes du mot compos Òun roman policier de la srie noireÓÉ ................................................................................................................... 17 Figure 1.14Ê: Exemple dÕarticle gnr par Visulex................................................................... 18 Figure 1.15Ê: Une entre lexicale de BDTAO ............................................................................ 19 II. EFFORTS EN COURS 21 Figure 2.1Ê: Une entre de dictionnaire cre par Le Lexicaliste .............................................. 22 Figure 2.2Ê: lments de la dfinition dÕun dictionnaire ........................................................... 22 Figure 2.3Ê: Architecture lexicale du projet EDR ....................................................................... 25 vi Liste des figures Figure 2.4Ê: Structure dÕune entre de dictionnaire monolingue EDR ...................................... 25 Figure 2.5Ê: Exemple dÕentre de dictionnaire monolingue EDR ............................................. 25 Figure 2.6Ê: Un exemple dÕinformation grammaticale associe une entre .......................... 26 Figure 2.7Ê: Exemple dÕinformation smantique associe une entre ................................... 26 Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR .............................................. 26 Figure 2.9Ê: Exemple dÕentres de dictionnaire bilingue .......................................................... 26 Figure 2.10Ê: Un exemple dÕentres de dictionnaire bilingues ................................................. 27 Figure 2.11Ê: Un exemple de classification de concepts ........................................................... 30 Figure 2.12Ê: Un extrait de la hirarchie de concepts du dictionnaire EDR.............................. 30 Figure 2.13Ê: Le mcanisme dÕhritage et les relations ngatives ............................................. 31 Figure 2.14Ê: LÕarticulation globale dÕune unit du lexique....................................................... 33 Figure 2.15Ê: Un exemple dÕunit morphologique simple prsente sous forme graphique .. 35 Figure 2.16Ê: Description de base associe lÕentre ÒintressantÓ (adjectif) .......................... 37 Figure 2.17Ê: Description de lÕUSyn compose Òmettre en ÏuvreÓ .......................................... 37 Figure 2.18Ê: Un exemple de relations entre les diffrents modles GENELEX......................... 38 Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX ..................................................................... 39 Figure 2.20Ê: Vue gnrale dÕune LU (Lexical Unit) de MULTILEX ............................................ 41 Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ ..................................... 41 Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX ................................................................................................................................................... 42 III. LES PROBLéMES INTRESSANTS 45 Figure 3.1Ê: Une base lexicale base sur lÕapproche bilingue................................................... 46 Figure 3.2Ê: Une base lexicale base sur lÕapproche interlingue. ............................................. 47 IV. DFINITION DÕUNE BASE LEXICALE MULTILINGUE 55 Figure 4.1Ê: Base lexicale quintilingue fonde sur une approche bilingue unidirectionnelle . 56 Figure 4.2Ê: Base lexicale quintilingue fonde sur une approche interlingue.......................... 58 Figure 4.3Ê: Base lexicale anglais-japonais fonde sur une approche mixte ............................ 58 Figure 4.4Ê: Un exemple dÕentre de dictionnaire..................................................................... 61 Figure 4.5Ê: Table des attributs et de leurs valeurs possibles .................................................... 61 Figure 4.6Ê: Vue gnrale dÕune LU (Lexical Unit) de MULTILEX .............................................. 64 Figure 4.7Ê: Structure commune aux units morphologiques de GENELEX.............................. 66 Figure 4.8Ê: Structure de lÕUM simple ........................................................................................ 67 Figure 4.9Ê: Rgime dÕenseigner 1, sous forme dÕautomate ...................................................... 72 Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale ..... 73 Figure 4.11Ê: Vue globale du treillis (Σ,<<)................................................................................ 76 V. ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION 91 Figure 5.1Ê: Architecture logicielle du systme SUBLIM............................................................. 92 Figure 5.2Ê: Un article vu sous forme de table des matires ..................................................... 96 Figure 5.3Ê: Le mme article vu sous la forme habituelle.......................................................... 97 Figure 5.4Ê: Vue intgrale de lÕentre composer (transitif)....................................................... 99 Liste des figures vii Figure 5.5Ê: Vue intgrale de lÕentre composer (intransitif) .................................................. 100 Figure 5.6Ê: Vue ditoriale du dictionnaire bilingue ............................................................... 101 Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. ........................................................ 102 Figure 5.8Ê: Premire tape du processus dÕexport................................................................. 111 Figure 5.9Ê: Seconde tape du processus dÕexport.................................................................. 112 VI. LÕAPPROCHE PAR ACCEPTIONS 121 Figure 6.1Ê: LÕinterlingue par acception dans des conditions idales ..................................... 122 Figure 6.2Ê: Acceptions interlingues pour rivire, fleuve et river............................................ 122 Figure 6.3Ê: Acceptions interlingues pour rivire, fleuve et river, avec liens de raffinement. 122 Figure 6.4Ê: Un exemple de lien de raffinement motiv par un phnomne contrastif non smantique .............................................................................................................................. 123 Figure 6.5Ê: Un ensemble de dictionnaires monolingues........................................................ 124 Figure 6.6Ê: Une base de connaissances .................................................................................. 124 Figure 6.7Ê: Une base lexicale fonde sur la connaissance ..................................................... 124 Figure 6.8Ê: Le systme de gestion lexicale dÕULTRA ............................................................... 126 Figure 6.9Ê: Cration du dictionnaire dÕacceptions, premire tape. ...................................... 127 Figure 6.10Ê: tat de la base lexicale aprs avoir li rivire, avant dÕavoir li fleuve ............. 128 Figure 6.11Ê: Configuration illicite dtecte par le systme .................................................... 128 Figure 6.12Ê: Les diffrentes solutions aux problmes contrastifs. ......................................... 128 Figure 6.13Ê: Le dictionnaire monolingue de PARAX............................................................... 130 Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ................................................... 131 Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois ... 131 Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois ................................................................................................................................................. 132 Figure 6.17Ê: Une entre chinoise correspondant lÕacception Ò#acheter_commerceÓ......... 132 Figure 6.18Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_commerceÓ ............................................................................................................. 133 Figure 6.19Ê: Fonctions lexicales et exemples associs lÕacception monolingue Franaise Ò#acheter_corrompreÓ ............................................................................................................. 133 VII. IMPLMENTATION 137 Figure 7.1Ê: Le lien de synonymie interlingue doit se reflter dans le dictionnaire monolingue ................................................................................................................................................. 141 Figure 7.2Ê: Configuration illicite dans le sous-rseau de synonymie englobante Syn∩ ....... 142 Figure 7.3Ê: Configuration illicite dans le sous rseau lexical interdictionnaire de synonymie englobante Syn∩..................................................................................................................... 142 ANNEXE BÊ: INTRODUCTION Ë GRIF 165 Figure B.1Ê: Une instance de document de la classe Anthology ............................................ 168 2 Introduction linguistiques complexes dÕune manire naturelle. Cette approche universelle permet la cration de bases lexicales pour des usages diffrents, automatiques aussi bien quÕhumains. Lorsque lÕon veut construire des bases lexicales comportant de nombreuses langues, une approche interlingue semble sÕimposer. Cependant, les projets EDR et KBMT, fonds sur la connaissance ÒextralinguistiqueÓ du domaine du discours, ont rencontr des problmes thoriques complexes (raffinement des concepts, classification et exceptions, description des conceptsÉ), avec pour consquence un cot lev de dveloppement et des problmes de cohrence. CÕest pourquoi, comme le projet ULTRA, nous avons choisi pour nos applications de privilgier une architecture lexicale interlingue fonde sur les connaissances linguistiques plutt que sur les connaissances extralinguistiques. Le lexique ÒpivotÓ nÕest alors plus form de ÒconceptsÓ (indpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des langues en prsence. Les bases utilisant cette architecture sont appeles Òbases NADIAÓ. Nous avons dvelopp autour de SUBLIM des outils facilitant la gestion de bases NADIA. Dans une base NADIA, on dfinit deux nouvelles classes de dictionnaires hritant des classes monolingues et interlingues de SUBLIM. On introduit aussi de nouvelles mthodes pour leur gestion, ainsi que des Òunits dictionnairiquesÓ (acceptions monolingues, acceptions interlinguesÉ) dont le linguiste hrite pour dfinir son architecture linguistique. Pour que SUBLIM (et a fortiori NADIA) puisse tre utilisable pour dfinir, construire et maintenir des dictionnaires de grande taille, usage ÒmachinalÓ aussi bien quÕhumain, il doit intgrer des outils conviviaux permettant dÕditer, de parcourir et de manipuler des structures complexes dans diffrents modes, textuels et graphiques. Pour cela, nous utilisons Grif, un puissant diteur de documents structurs. LÕutilisation de diffrentes vues dÕune mme structure permet la cration et le formatage dÕun dictionnaire sous diverses formes (textes SGML, formulaires, graphiques, dictionnaires imprimablesÉ). Pour la maintenance, il est galement intressant de visualiser une structure linguistique sous diffrentes formes, avec possibilit de cacher une partie de lÕinformation. Nous dfinissons aussi dÕautres outils facilitant la gestion et lÕexploitation des dictionnaires (vrification de cohrence, import/export, rgles de valeurs par dfautÉ). Ces outils sont organiss au sein dÕune architecture trois niveaux sparant clairement les problmes de stockage, de manipulation et de visualisation. Dans la premire partie de ce document, nous prsentons les travaux qui ont t effectus dans le domaine. Cela nous permet ensuite dÕanalyser les problmes des dictionnaires et dÕvaluer les solutions qui ont t proposs par les auteurs des diffrents systmes. La seconde partie dfinit le projet SUBLIM de systme universel de gestion de bases lexicales multilingues. Nous verrons comment on peut, avec ce systme, dfinir une base lexicale multilingue (en dfinissant lÕensemble de ses dictionnaires et leurs architectures linguistiques). Nous tudierons ensuite lÕarchitecture logicielle et les outils dfinis dans ce systme. Dans la troisime partie, nous spcialisons SUBLIM lÕapproche interlingue par acceptions. Nous exposons les principes de cette architecture lexicale interlingue fonde sur une les connaissances linguistiques. Nous montrons ensuite que cette architecture lexicale est propice lÕutilisation de fonctions lexicales Ò la MelÕcÿukÓ. Nous prsentons enfin PARAX, la maquette dÕune base lexicale utilisant cette approche, et dgageons les caractristiques gnriques de cette approche. Enfin, nous dveloppons lÕimplmentation de NADIA, un gestionnaire de bases lexicales interlingues par acceptions, qui se prsente du point de vue logique et informatique comme un spcialisation du systme SUBLIM. État de l’art et problèmes intéressants la langue que lÕutilisateur peut restituer le type dÕinformation prsent dans un article du dictionnaire. 1.1.2. Un dictionnaire dÕunits complexesÊ: le LOGOS DÕautres dictionnaires monolingues se distinguent par le fait que leur units lexicales sont diffrentes de celles des dictionnaires classiques voqus plus haut. Parmi ces dictionnaires, on peut citer le LOGOS de Bordas. Les entres du LOGOS correspondent des familles de lemmes drivs du mme lemme dÕorigine, conformment des schmas drivationnels rguliers. Cette unit lexicale est note par son lemme dÕorigine. Par exemple, lÕunit lexicale produire regroupe les lemmes produire, producteur, productif, productivit, produit. LÕentre de ce dictionnaire se fait par le lemme origine de lÕunit lexicale. Ainsi, si lÕon cherche le lemme producteur, il faut savoir quÕil appartient lÕunit lexicale produire pour trouver ses informations associes. LÕinformation dÕune unit lexicale du LOGOS est compose de deux partiesÊ: ¥ La liste des sens du lemme vedette, ¥ La liste des drivations de lÕunit lexicale. Pour chaque sens et pour chaque drivation du lemme vedette, on a les mmes informations que dans un dictionnaire classique. De plus, ces informations apparaissent sous une forme analogue. construire v. t. (latin construere, mme sens). ¶ difier ou faire difierÊ: construire une maison, un pont, une digueÉ Ñ (absolument) On construit beaucoup actuellement dans les banlieues des grandes villes; jÕai achet un terrain, car jÕai lÕintention de faire construire. Ñ (par extension) Raliser ou faire raliser (une chose qui suppose un plan pralable et un travail considrable et complexe)Ê: les chantiers navals construisent les navires; construire un alternateur, des camionsÉ · (figur) Composer, former selon un plan ou un systme plus ou moins rigoureuxÊ: construire lÕintrigue dÕun roman, le plan dÕun expos; cette dissertation nÕest pas construiteÊ: nÕa pas de plan logique et net; construire une thorie philosophique. Ñ (spcialement, grammaire) Disposer les mots ou les propositions lÕintrieur dÕune phrase, selon un ordre dterminÊ: construire une phrase, une priode oratoire. Ñ Construire une phrase latine, grecqueÉÊ: disposer les mots quÕelle contient de manire les ordonner selon lÕordre analytique (sujet, verbe, complmentsÉ), avant de la traduire. cf. btir, disposer, dresser, difier, lever, tablir, fabriquer, raliser; agencer, arranger, articulier, assembler, combiner, composer. Ñ ANT. abattre, dmolir, dtruire. u se construire v. pron. 1¡ (sens passif) ætre en cours de constructionÊ: un pont se construit actuellement la sortie du village. Ñ ætre construitÊ: un tel immeuble ne peut se construire en moins de six mois. Ñ (grammaire) Se construire avecÉ, sÕemployer avecÉÊ: le verbe apprendre peut se construire avec suivi de lÕinfinitif (jÕapprends lire). Ñ 2¡ (sens rflchi indirect) É u constructeur, trice n. m. ou adj. 1¡ n. m. Celui qui construitÊ: un constructeur de bateaux, dÕavions; un constructeur-promoteur (voir promoteur). Ñ (figur) Alexandre le Grand fut le constructeur dÕun immense empire. Ñ 2¡ adj. (nologisme) Se dit des ides dont la ralisation permettrait un progrs quelconqueÊ: une proposition constructrice. ¥ N. B.Ê: mieuxÊ: constructif. u constructif, ive adj. Qui est naturellement fait pour construireÊ: une intelligence constructive. Ñ Qui permet de raliser un progrsÊ: un programme constructif. u construction n. f. 1¡ action dÕdifier, de construireÊ: une maison en construction; construction dÕun navire; chantier de construction navale; É Ñ 2¡ Manire dont une chose est construiteÊ: la construction prfabrique permet de rduire le prix de revient des immeubles;É Ñ 3¡ dificeÊ: raser une ancienne construction. Ñ 4¡ (figur) Action de composer, de raliser selon un plan; la manire dont un ouvrage est compos, organisÊ: la construction de lÕintrigue dÕune comdie;É Ñ 5¡ (spcialement, grammaire) Ordre dans lequel les mots se prsentent dans une phraseÊ: la construction allemande diffre de la construction franaise. Ñ É Figure 1.2Ê: LÕunit lexicale complexe ÒconstruireÓ. Cette unit regroupe les lemmes construire, constructeur, constructif et construction 1.2. Thesaurii Les thesaurii sont des dictionnaires de concepts. LÕaccs ce type de dictionnaire ne se fait pas par une forme graphique. Les concepts sont classs selon leur sens dans une hirarchie de concepts utilise pour la recherche. Nous allons tudier deux de ces thesauri. 1.2.1. Le RodgetÕs Thesaurus of English Words and Phrases Le Rodget thesaurus comporte 1000 units. Ces units sont classes selon 39 catgories rparties dans 7 classes. LÕentre de ce thesaurus est un nombre (de 1 1000). Pour accder ce dictionnaire, il faut savoir quelle classe et quelle catgorie appartient lÕarticle recherch. On peut ainsi chercher lÕarticle en question grce une table organise hirarchiquement. Notons que, grce un index, on peut aussi accder un article par un mot qui le dsigne. Un article de ce lexique est reprsent par un entier et par un mot vedette. LÕarticle est ensuite dcompos en catgories linguistiques (nom, verbe, adjectifÉ). Pour chaque catgorie linguistique, on a un ensemble de mots (classs par signification) qui sont lis ce concept. Certains de ces mots apparaissent avec une rfrence un autre concept. Enfin, on a un ensemble de liens vers des concepts smantiquement lis au concept courant. Si on lit le texte dÕun article, on trouve des mots smantiquement lis. Le sens des mots trouvs volue peu peu vers des contextes diffrents. Pour rendre cette transition plus distincte, certains mots sont parfois ajouts comme pointeurs du contexte plutt que comme lments de vocabulaire. 480 Judgment: conclusion N. judgment, judging (see estimate); good judgment, discretion 463 n. discrimination; bad judgment, indiscretion 464 n. indiscrimination; power of judgment, deiscretionary judgment, arbitrement 733 n. authority; arbitration, arbitrage, umpirage; judgment of facts, verdict, finding; penal judgment, sentence 963 n. punishment; spoken judgment, pronouncement; act of judgment, decision, adjudication, award; order, ruling; order of the court 737 n. decree;É estimate, estimation, view 485 n. opinion; assessment, valuation, evaluation, calculation 465 n. measurement; consideration, ponderation; comparing, contrasting 462 n. comparison; transvaluation 147 n. conversion; appreciation, appraisal, appraisement; criticism, constructive c. 703 n. aid; destructive criticism 702 n. hindrance; critique, crit, review, notice, press n., comment, comments, observations, remarks 591 n. dissertation;É estimator, judge, adjudicator; arbitrator, umpire, referee; surveyor, valuer 465 n. appraiser; inspector, inspecting officer, referendary, reporter, examiner 459 n. enquirer; counsellor 691 n. adviser; censor, critic, reviewer, commendator 591 n. dissertator; É Adj. judicial, judicious, judgmatic 463 adj. discriminating; unbiased, dispassionate 913 adj. just; juridical, juristic,É Vb. judge, sit in judgment, hold the scales; arbitrate, referree; hear, try, hear the case, try the cause 955 vb. hold court; uphold an objection, disallow an o.;É estimate, form an e., make an e., measure, calculate, make 465 vb. gauge; value, evaluate, appraise;É Adv. sub judice, under trial, under sentence. See: 147, 438, 449, 462É Figure 1.3Ê: Un article du RodgetÕs thesaurus Les mots en italiques en dbut de paragraphe reprsentent les sous-concepts. La virgule est utilise pour sparer les mots de mme sens. Le point-virgule spare des sens lgrement diffrents. Ce thesaurus se prsente donc comme un rseau de mots, lis smantiquement, et auxquels on accde grce une classification hirarchique de concepts. 1.2.2. Le vocabulaire de traitement de lÕinformation (IFIP & ICC) Le vocabulaire de traitement de lÕinformation de lÕIFIP (International Federation for Information Processing) et lÕICC (International Computation Center) est un dictionnaire terminologique qui se prsente comme un thesaurus. Les articles de ce dictionnaire sont rangs selon 20 catgories, classes dans 6 sections principales. Chacune de ces catgories est dcompose de manire hirarchique en termesÊ: Operation Monadic operation Dyadic operation Logic operation Compare (to) Shift Arithmetical operation Overflow Underflow Binary arith op. Borrow Carry Carry (to) Boolean operation Dual operation Complementary operation Negation Dyadic B. op. Arithmetical shift Logical shift ResultOperand Figure 1.4Ê: Structure hirarchique de la section G (Arithmetical and logic operations) du vocabulaire de traitement de lÕinformation. Chaque terme est associ un symbole compos dÕune lettre (la catgorie) et dÕun chiffre (numro du terme). Les termes sont ensuite dcrits, soit par une dfinition complte, soit en apparaissant lÕintrieur de la dfinition dÕun autre terme. Ainsi, les termes result (G2) et operands (G3) apparaissent dans la dfinition de operation (G1)Ê: G1 G2 G3 OPERATION A general term for any well-defined action, especially the derivation of a unit of data (the RESULT) from one or more given units of data (the OPERANDS), according to defined rules which specify the result for any permissible combination of values of the operands. Note: The term operands is sometimes used collectively for both operands and results since the results will often be operands in subsequent operations. Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation Notons quÕun index permet de retrouver un article du dictionnaire partir dÕun terme. Un article de ce dictionnaire contient une dfinition. On peut aussi trouver des notes ou des exemples illustrant le terme dcrit. La catgorie linguistique des termes nÕest pas indique. Les dfinitions sont donnes de manire prcise plutt que concise. Les termes utiliss dans les dfinitions et dfinis par ailleurs dans le dictionnaire sont indiqus en italiques. Des alternatives au terme sont notes en soulign. 1.3. Dictionnaires bilingues Les entres des dictionnaires bilingues sont quasiment les mmes que celles des dictionnaires monolingues classiques. La diffrence provient des entres composes (pomme de terreÉ) qui ne sont plus considres comme des entres mais comme des parties dÕun article (pommeÉ). Ces entres (les lemmes) donnent accs des traductions des diffrents sens du lemme dans la langue cible. 2.1. Un format de codage : SGML/TEI La Text Encoding Initiative (TEI) tudie un standard de codage et dÕchange de documents textuels. Ce standard se prsente sous forme de recommandations et de structures de documents (pour la prose, les vers, les dictionnaire imprims, les drames, les dictionnaires terminologiquesÉ). Cette initiative est parraine par lÕAssociation for Computers and the Humanities (ACH), lÕAssociation for Computational Linguistics (ACL) et lÕAssociation for Literary and Linguistic Computing (ALLC). Le format TEI est bas sur SGML (Standard Generalized Markup Language). SGML est un standard international (ISO 8879) pour la reprsentation de textes sous une forme lectronique indpendamment de la machine et du systme1. SGML utilise des tiquettes pour structurer les diffrents lments dÕun texte. Ces tiquettes sont notes entre chevrons (exÊ: <paragraph>) et agissent comme des parenthses, lÕtiquette fermante tant note avec un Ò/Ó (exÊ: </paragraph>). Dans certaines conditions, lÕtiquette fermante peut tre omise. Parmi les types de documents qui nous intressent, la TEI a publi des standards pour le codage de dictionnaires imprims et de bases terminologiques ([Sperberg-McQueen & Burnard 1994], chapitres 12 et 13). La structure globale dÕun dictionnaire est analogue celle de textes usuels. On retiendra les lments suivantsÊ: <text>Ê: contient du texte de nÕimporte quelle sorte (structur ou non), <front>Ê: contient tout ce qui se trouve avant le dbut du dictionnaire lui mme (Enttes, page de titre, prface, ddicaceÉ), <back>Ê: contient tout ce qui se trouve aprs la fin du dictionnaire lui mme (AnnexesÉ), <body>Ê: contient lÕensemble du texte du dictionnaire, sauf les parties front et back, <div>Ê: contient une subdivision des parties front, body ou back du dictionnaire, <div0>Ê: contient une subdivision (du plus haut niveau) du dictionnaire, <div1>Ê: contient une subdivision (du niveau infrieur) du dictionnaire, <entry>Ê: contient une entre structure du dictionnaire, <entryFree>Ê: contient une entre non conforme la structure dÕune entre du dictionnaire, <superentry>Ê: groupe les entres dÕun ensemble dÕhomographes. Voici un exemple de structure de dictionnaire conforme aux recommandations de la TEIÊ: <body> <div0 type=‘dictionary’>  <entry>...</entry> <entry>...</entry>  </div0> <div0>  <entry>...</entry> <entry>...</entry>  </div0> </body> Les lments entry et entryFree partagent les attributs type (entre standard, homographe, rfrence croise, affixe, abrviationÉ) et cl (une squence de caractres refltant la position alphabtique de lÕentre dans le dictionnaire). 1 Une introduction à SGML est donnée en annexe A. Le format de codage des dictionnaires permet aussi de coder de manire structure les entres dÕun dictionnaire. La dcomposition de lÕentre est effectue grce aux lments suivantsÊ: <hom>Ê: regroupe les informations propres un homographe de lÕentre, <sense>Ê: regroupe les informations propres un sens, <form>Ê: regroupe les informations sur la forme (orthographique et phontique), <gramGrp>Ê: regroupe lÕinformation morpho-syntaxique dÕune unit du dictionnaire, <def>Ê: contient une dfinition, <trans>Ê: contient du texte traduit et les informations associes, <eg>Ê: contient un texte exemple contenant au moins une occurrence de lÕentre, <def>Ê: contient une dfinition, <usg>Ê: contient les informations sur lÕusage, <xr>Ê: contient des rfrences croises, <etym>Ê: contient lÕinformation tymologique, <re>Ê: contient une entre correspondant une unit lexicale lie lÕentre (expression, forme driveÉ), <note>Ê: contient des annotations. Le format de la TEI rend possible une dcomposition plus fine de la structure dÕune entre de dictionnaire imprim. Nous ne dtaillerons pas cette dcomposition ici. Le lecteur pourra se reporter [Sperberg-McQueen & al. 1994]. 2.2. Dictionnaires en ligne: le Collins On-Line La plupart des diteurs proposent aujourdÕhui des versions informatiques de leurs dictionnaires. Ces versions reprennent les donnes et les fonctionnalits des dictionnaires papier. Ces outils sont utiliss en complment dÕun traitement de texte comme aide la rdaction ou la traduction de textes. Leurs fonctionnalits sont assez rduites, puisquÕelles ne permettent en gnral pas dÕautre accs que lÕaccs alphabtique classique du dictionnaire papier. Le Collins On-line, avec ses dictionnaires franais-anglais et anglais-franais, en est un exemple reprsentatif. Cet outil, avec ses dictionnaires, est le reflet du Robert et Collins, prsent plus haut. Figure 1.8Ê: LÕentre ÒcomposerÓ du Collins On-line, version Macintosh La dcomposition en sens et les quivalents sont les mmes. Par contre, la forme est assez diffrente. Les contextes sont nots de manire plus succincte et les informations sont rendues sous forme de liste. En effet, les contraintes sont diffrentes. La prsentation du dictionnaire papier est motive par des contraintes de place, alors que la prsentation du dictionnaire lectronique est motive par des contraintes de lisibilit lÕcran. Des contraintes dÕinterface ont oblig les concepteurs changer lgrement lÕentre du dictionnaire. En effet, le dictionnaire papier utilise le lemme et sa catgorie pour crer une entre, alors que le dictionnaire lectronique nÕutilise que le lemme, les diffrentes catgories tant regroupes dans le mme article. Il est possible dÕaccder rapidement lÕun des mots de la langue source apparaissant dans lÕarticle, en le slectionnant et en appuyant sur une combinaison de touches. Par contre, il nÕest pas possible de faire la recherche rapide dÕun mot de la langue cible dans le dictionnaire inverse. 2.3. Gestionnaires de dictionnaires terminologiques : MTX Termex Le travail des traducteurs professionnels sÕeffectue maintenant en majorit sur support informatique. Il est donc crucial quÕils disposent dÕoutils leur permettant dÕavoir accs aux donnes lexicales sur leur machine, de manire intgre leur environnement de travail. Ces traducteurs tant bien souvent spcialiss dans un domaine ou employs par des entreprises spcialises, ils possdent gnralement leur propre terminologie. Des outils de gestion de dictionnaires terminologiques sont ncessaires, en plus des outils de consultation de dictionnaires classiques. MTX Termex est un outil de ce genre. Il permet de consulter des dictionnaires du commerce, et aussi de crer son propre dictionnaire terminologique ou de modifier certaines entres des dictionnaires du commerce. Avec cet outil, une entre est simplement une chane de caractres. Cette chane peut comporter des blancs et des symboles de ponctuation. LÕinformation associe cette entre est un texte simple. On peut utiliser ce texte comme une structure Òattributs-valeursÓ en notant les attributs entre accolades. Ainsi, on est libre de crer un dictionnaire ayant une structure quelconque. <F1>: Help Choose a command (or <esc>)===> {1} Europe {cap} Sofia {pop} 8 944 000 {lan} Bulgarian {cur} lev {gov} Republic [Bulgaria] MTX (tm) <F8>: Menu <Esc> to exit window File Name Figure 1.9Ê: Un exemple dÕentre dÕun dictionnaire MTX Termex Avec MTX 2, un traducteur peut trs facilement crer un petit dictionnaire terminologique multilingue. Il paut aussi grer les variantes orthographiques dÕune entre en les liant lÕentre vedette. La consultation et la navigation sont elles aussi assez simples (possibilit de crer des rfrences croises, de revenir aux fiches prcdentesÉ). De plus, cet outil est intgr aux traitements de texte usuels (appel et consultation automatique de la slection). 2.4. Un environnement original : le Dicologique Le Dicologique est un produit commercialis par la socit MEMODATA (Caen) et fonctionnant sous DOS et Windows. Cet outil utilise vritablement les avantages de lÕinformatique pour renouveler les moyens dÕaccs au dictionnaire. En utilisant une approche ensembliste du lexique([Dutoit 1992]), il permet un accs par thmes, analogies, idesÉ Le Dicologique regroupe 120Ê000 entres, 25Ê000 concepts et 350Ê000 relations. Les relations se font principalement au travers deÊ: Les informations contenues dans BDLex sont morphologiques et phonologiques. LÕunit lexicale de cette base est le lemme. lemme HG PHON FPH HP CL_PHON NS F CS GN CF nabab 11 /nA/bAb 11 /NA/DAD 2 N Mn 01 nabi 11 /nA/bi 11 /NA/DI 2 N Mn 01 nabot 11 /nA/bo t" 11 /NA/DE 2 N gn 01 nacelle 11 /nA/s&l e 11 /NA/SEL 2 N Fn 81 Figure 1.11Ê: Un exemple dÕentres de BDLex ; (HGÊ: numro dÕhomographe, PHONÊ: phontique, FPHÊ: terminaison phontique, HPÊ: numro dÕhomophone, CL_PHONÊ: classe phontique, NSÊ: nombre de syllabes, FÊ:Êfrquence, CSÊ: classe syntaxique, GNÊ: variation en genre et nombre et CFÊ: classe flexionnelle) Ce dictionnaire est typiquement usage informatique. Les informations telles que le numro dÕhomographe ou dÕhomophone sont particulirement utiles pour grer les problmes dÕambigut lexicale, qui sont cruciaux lors du traitement automatique dÕune langue. De plus, les informations de ce dictionnaire sont codes et difficilement utilisables par un humain. On notera nanmoins que ce codage est relativement simple (structure en colonne, codes mnmotechniques), ce qui explique son succs auprs de nombreux laboratoires. 3.2. Dictionnaires du LADL Le LADL ( lÕUniversit Paris VII) a dvelopp le dictionnaire DELAF, un dictionnaire contenant 600Ê000 formes flchies du franais. Ce laboratoire a aussi dvelopp le dictionnaire DELACF, contenant 150Ê000 formes flchies de mots composs franais. Outre leur taille (qui les place parmi les plus importants dictionnaires franais), le DELAF et le DELACF prsentent un aspect remarquableÊ: leurs entres sont reprsentes par des automates dÕtats finis. Cette structure dÕautomate est utilise diffrents niveaux. Applique au codage des informations morphologiques et syntaxiques dÕune forme flchie, elle permet de reprsenter les diffrentes ambiguts des formes flchies. Y 3 m f P S 1 2 s s passe nom verbe Figure 1.12Ê: Automate reprsentant la forme flchie ÒpasseÓ. Les abrviations utilises sontÊ: m pour masculin, f pour fminin, s pour singulier, 1,2 et 3 pour dnoter la personne, P pour prsent, S pour subjonctif, Y pour impratif. Enfin, elle est utilise pour reprsenter les diffrentes variantes dÕun mot compos. noiresrieladepolicierromanun policier Figure 1.13Ê: Automate reprsentant les diffrentes variantes du mot compos Òun roman policier de la srie noireÓ qui peut se trouver sous les formes Òun srie noireÓ, Òun policier de srie noireÓÉ 3.3. Ariane Le laboratoire GETA (Groupe dÕtude pour la Traduction Automatique) a dvelopp un gnrateur dÕapplications de traduction automatique nomm ARIANE. En dveloppant des applications de traduction, les chercheurs du GETA se sont vite rendu compte que le problme de la gestion des dictionnaires lectroniques tait un problme crucial. Aussi, des outils ont t dvelopps pour faciliter cette gestion. Chaque application de traduction automatique dveloppe sous ARIANE a son propre dictionnaire, clat en divers composants (pour lÕanalyse morphologique ou syntaxique, le transfert lexical ou structural, la gnration syntaxique ou morphologiqueÉ). Chacun de ces composants est exprim dans un format spcialis du langage en charge de la phase de traitement en question. LÕclatement du dictionnaire introduit des problmes de cohrence des informations lexicales rparties dans les divers composants. Aussi, un outil (Visulex) a t dvelopp pour runir et visualiser les diffrentes informations lexicales dÕune application de traduction automatique. Cet outil ne permet de manipuler quÕun couple de langues la fois. Dans une telle base, lÕunit lexicale est une famille de lemmes lis par certaines fonctions lexico-smantiques. Par exemple, les lemmes ÒconstructionÓ, ÒconstructifÓ, ÒconstruireÓ, ÒreconstruireÓ appartiennent tous une mme unit lexicale note Òconstruire-VÓ. Visulex gnre deux niveaux de fichiers pour le linguiste. Le premier niveau donne lÕensemble des commentaires associs une unit lexicale. Le second niveau donne le dtail des informations linguistiques associes une unit lexicale, sous la forme o on les trouve dans les dictionnaires dÕapplications. Commentaires et informations dtailles sont donns de manire structure. Un article de Visulex contient notamment un contexte, une morphologie, des dtails sur les lments du contexte et une liste dÕquivalents (avec des conditions de choix). -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' --cmt?-- --morphologie-- --cmt?-- FORME COMPLETE DE PARTICIPE PASSE FLECHISSABLE GEGANGEN- PARADIGME 09 INCLUS DANS 01(LEG) SAUF POUR -T QUI NE ... PEUT FAIRE LE PARTICIPE PASSE GEH- PARADIGME 29, DESINENCES -0, -E, -EN, -EST, -ET, -ST, -T GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' --cmt?-- 0:'GEHEN' --cmt?-- … --equivalents-- --------------- 'ALLER' 'ALLER' VERBE SANS AUCUNE RECTION DONNEE, EX: 'MARCHER' --cmt?-- --si: --cmt?-- '''AILL' BASE ACCEPTANT LES DESINENCES DE L'IMPARFAIT,DU... PRESENT SUB --si: --cmt?-- '''IR' --cmt?-- --si: --cmt?-- 'VAIS' --si: --cmt?-- 'VAS' --si: --cmt?-- 'VA' --si: --cmt?-- 'VONT' --si: --cmt?-- '''ALLER' TABLE+S --sinon: '''ALL' COUP+ER,E,EUR,ANT -------------------------------------------------------------- -------------------------------------------------------------- 'GEHEN' ------- --contextes-- 'GEHEN' --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) 0:'GEHEN' IST:SUBV:=SEIN --morphologie-- VIDE: FCPPA:KMS-E-VB-U-ADJ,MT-E-PPA,SUBADJ-E-RSTA GEGANGEN- WSING:KMS-E-VB GEH- WFIEL:KMS-E-VB GING- --expansions-- --arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4)) X:'VBPSP' VID: 0:'GEHEN' IST:SUBV:=SEIN … --equivalents-- --------------- 'ALLER' 'ALLER' VB: R3:AX:=ETR,RFRUS:=SUPPR --si: SUBJ3:MOD-E-SUB-ET-TF-E-PRE-ET-NUM-E-SIN-OU-MOD... -E-SUB-ET-TF-E-PRE-ET-P-E-3 '''AILL' VERBE:PGMV-E-VERBE --si: FUT:TF-E-FUT-OU-MOD-E-CDL '''IR' AUR:PGMV-E-FUTUR --si: SUIS:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-SIN-ET-P-E-1 'VAIS' --si: DUEPRE:P-E-2-ET-TF-E-PRE-ET-NUM-E-SIN 'VAS' --si: SAI:NUM-E-SIN-ET-TF-E-PRE-ET-MOD-E-IND-OU-MOD-E... -IMP-ET-NUM-E-SIN 'VA' --si: SONT:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-PLU-ET-P-E-3 'VONT' --si: NVBMAS:CPRD-E-VBACT-ET-CAT-E-CATN-ET-GNR-E-MAS '''ALLER' MOT:FLXN-E-MOT --sinon: '''ALL' V1AFE1:FLXV-E-AIMER,DRNV-E-FEME1 -------------------------------------------------------------- Figure 1.14Ê: Exemple dÕarticle gnr par Visulex Visulex rassemble des informations disperses dans les nombreux dictionnaires des diffrents composants dÕune application linguistique. Il est ainsi possible de consulter les informations lies une unit lexicale pour retrouver la source dÕventuelles erreurs de traduction. Par contre, la modification des dictionnaires ne peut se faire quÕau travers dÕARIANE, composant par composant. Nanmoins, lÕoutil Visulex est un premier pas vers la cration dÕune base lexicale spcialise pour la Traduction Automatique. 3.4. BDTAO BÕVITAL utilise le systme ARIANE pour construire des applications de traduction automatique industrielles. Pour cela, cette entreprise a dvelopp une base lexicale rutilisable (BDTAO) partir de laquelle il est possible de gnrer des composants du dictionnaire de lÕapplication, au format ARIANE. Cette base lexicale est spcialise pour la traduction automatique, mais elle est indpendante dÕune application de traduction particulire. Une mme base peut tre utilise pour lÕanalyse et la gnration. De plus, les entres terminologiques sont rversibles en transfert. BDTAO contient des dictionnaires Òen fourcheÓ (1 langue source -> n langues cibles). Comme dans les bases Visulex, lÕunit lexicale est une famille de lemmes lis par certaines fonctions lexico-smantiques. Les informations linguistiques sont codes dans une structure Òattribut-valeurÓ plate. Cette structure est spare en deux sections. La premire contient lÕinformation monolingue, la seconde contient diffrentes traductions de lÕentre dans diffrentes langues, avec ventuellement des conditions guidant le choix. *ADJECTIF 001 prochain 002 COU 101 S 103 ES 105 E 107 O 504 SXA 990 - prochainement = bientôt, dans un 990 proche avenir 99D 22/03/88 99A IM $CODE $UL PROCHAIN -A $PH AM 1 29/09/88 $AM PROCHAIN ADJ1 Z000154 Figure 1.15Ê: Une entre lexicale de BDTAO BDTAO est une vritable base lexicale spcialise. En effet, toute modification ou cration dÕinformation lexicale se fera dans ce format. On peut ensuite gnrer des dictionnaires spcialiss pour chacun des composants dÕune application linguistique sous ARIANE. Un tel outil simplifie grandement la gestion des dictionnaires dÕapplication puisque la consultation et la modification se font un mme endroit et dans un format simple. Les noms des attributs ne dpendent pas des noms des variables utilises dans les grammaires des applications lexicales envisages. Cette indpendance de BDTAO vis--vis dÕune application particulire permet dÕutiliser une base lexicale pour plusieurs applications diffrentes. LÕindexage de cette base lexicale est fait en utilisant des bordereaux dÕindexage o le lexicographe rpond des questions simples sur lÕentre en question. De plus, BÕVITAL a construit un outil permettant de rcuprer les informations lexicales des applications de traduction dveloppes antrieurement BDTAO. 3.5. METAL Pour son gnrateur de systmes de Traduction Automatique (METAL 3.0), SIEMENS a dvelopp des outils pour faciliter la manipulation des dictionnaires. Il y a deux types de dictionnaires sous METAL 3.0Ê: les dictionnaires monolingues et les dictionnaires de transfert. Les structures des entres de ces dictionnaires sont des structures de traits plates. Les traits des dictionnaires de transfert sont fixs pour chaque paire de langues. Les traits des dictionnaires monolingues sont dfinis pour chaque langue par un fichier de description. Une entre de dictionnaire METAL est un ensemble de traits avec leurs valeurs. Les valeurs de ces traits peuvent tre de lÕun des types suivantsÊ: 1. Le Lexicaliste Le Lexicaliste est un systme de gestion de bases lexicales monolingues dvelopp et commercialis par la socit SITE. 1.1. Vue générale du système Le Lexicaliste sÕappuie sur une description des entres du lexique. Un article est un arbre dcor dont la racine correspond lÕentre du dictionnaire (lemme) et les nÏuds aux diffrents sens de lÕarticle. Les dcorations sont des structures attributs-valeurs simples portes par les diffrents sens de lÕarticle. sense 0 sense 1 sense 2 sense 2.2sense 2.1sense 1.1 sense 1.2 category: verb conjugation: V27 Morphological information … Misc. information Semantic information Syntactical information 2/2 hyphen: ap-pren-dre … definition: "S'instruire" example: "Apprendre à faire du piano" … Syntactical information 1/2 auxiliary: avoir transitivity: intransitive prop.gov.: à <infinitive> Apprendre = Figure 2.1Ê: Une entre de dictionnaire cre par Le Lexicaliste Le linguiste dfinit les attributs (et les valeurs) qui sont utiliss dans une base lexicale particulire. Cette description est appele ÒrfrentielÓ. Il peut aussi donner des proprits (attributs monovalus, multivalus, relations acycliquesÉ) sur les attributs de la base. Ces proprits sont contenues dans le Òmta-rfrentielÓ. Meta-rfrentiel Rfrentiel Dcrit les proprits des attributs dfinis dans le rfrentiel Base lexicale Dcrit la structure des articles de la base lexicale Figure 2.2Ê: lments de la dfinition dÕun dictionnaire Les attributs sont spars en 5 catgories distinctes: - attributs des lemmes (exÊ: catégorie), - attributs des sens (exÊ: transitivité, définition), - attributs des rgles flexionnelles (exÊ: nombre, genre), - relations lexicales (exÊ: abréviation, dérivation), - relations smantiques (exÊ: hyperonymie, synonymie). Lorsque ce travail de dfinition a t accompli, les tables SQL et lÕinterface sont automatiquement gnres par le systme. 1.2. Réseau lexical et sémantique Le systme gre deux types de relations, qui dfinissent deux rseaux diffrents lÕintrieur du dictionnaireÊ: - les relations lexicales, dfinies sur un ensemble de sens de mots, - les relations smantiques, dfinies sur un ensemble de concepts. Une relation lexicale relie deux sens de mots au niveau lexical. Par exempleÊ: - ÒapptÓ est-abreviation-de ÒappartementÓ, - ÒclefÓ est-variante-orthographique-de ÒclÓ - ÒapprentissageÓ est-nominalisation-de ÒapprendreÓ. Les relations lexicales relient les diffrents sens des lemmes, et non diffrents lemmes. Cela permet par exemple de relier les deux sens diffrents de ÒblanchirÓ leur nominalisation ÒblanchissageÓ et ÒblanchimentÓ). On aura doncÊ: - ÒblanchissageÓ est-nominalisation-de Òblanchir-1Ó, - ÒblanchimentÓ est-nominalisation-de Òblanchir-2Ó. Une relation smantique relie deux concepts au niveau smantique (au sens de la rfrence au monde rel)Ê: - ÒchaiseÓ est-un ÒmeubleÓ, - ÒpoissonÓ a-connotation-avec ÒmerÓ, - ÒmalariaÓ est-synonyme-de ÒpaludismeÓ. Chaque sens de mot peut tre associ un concept par un attribut particulierÊ: le prdicat smantique. Rciproquement, chaque concept peut tre associ un ou plusieurs sens de mot. 1.3. Vérifications de cohérence et valeurs par défaut Pour simplifier la maintenance et lÕindexage dÕun dictionnaire, le linguiste dispose dÕun langage spcialis avec lequel il peut dfinir des contraintes sur certains des attributs dÕun article. Ces contraintes sont utilises de deux manires pourÊ: - Vrifier la cohrence dÕun article (dj index dans le dictionnaire), - Attribuer des valeurs par dfaut certains attributs dÕun article en cours de cration. Avec ce langage, le linguiste peut par exemple exprimer les contraintes suivantesÊ: - un verbe pronominal prend lÕauxiliaire ÒtreÓ, - un verbe impersonnel nÕa pas de forme passive, - lÕattribut transitivité prend la valeur directe pour les verbes se terminant en ÒiserÓ (cette valeur par dfaut sera propose), - lÕattribut conjugaison dÕun verbe se terminant par ÒgerÓ prend la valeur V1 ou V2. Voici un exemple de ces contraintesÊ: DECL-MESSAGES msg-aux "l'attribut auxiliaire n'est pas défini" msg-transit "l'attribut transitif n'est pas défini" msg-transObj2 "l'attribut transObj2 doit être défini" msg-frmPassif "l'attribut frmPassif doit être défini" DECL-CONTRAINTES // Syntactic attributes for verbs SI cat = verb ALORS // the default auxilary is “avoir” (to have) aux DEFINI DEFAUT {avoir} MESSAGE msg-aux // if the verb ends with “ter”, the conjugation is // V3 or V3H or V3Q (default V3). si cle = "*ter" alors mm dans { V3, V3H, V3Q } defaut V3 FSI // An intransitive verb does not admit passive (by default) SI transit = intrans ALORS passiv DEFAUT non FSI FSI 2. EDR Le plus grand projet mondial de construction dÕune base lexicale multilingue a dbut Tokyo le 26 avril 1986. DÕune dure de 9 ans, ce projet a impliqu 1200 hommes-annes pour un cot total de 14 milliard de Yens (environ 750 MF). Au terme de son contrat, EDR a atteint ses objectifsÊ: la construction dÕune base lexicale anglais-japonais utilisable par des systmes de traduction automatique. Les dictionnaires anglais et japonais comportent 300Ê000 entres chacun (200Ê000 en vocabulaire gnral et 100Ê000 en vocabulaire terminologique). EDR a aussi dcrit 640Ê000 concepts correspondant ces entres. La base lexicale comporte enfin deux dictionnaires bilingues (1 par sens) de 300Ê000 entres et deux corpus (anglais et japonais) de 250Ê000 phrases analyse. Ces corpus comportent aussi 20 millions de phrase Japonaises et 10 millions de phrases anglaises. EDR est avant tout un projet industriel visant la construction dÕune base lexicale de grande taille. Cet objectif nÕa pu tre atteint quÕau prix dÕune simplification des structures linguistiques prsentes dans les dictionnaires. Nanmoins, ces dictionnaires sont suffisamment complets pour tre utiliss comme une source de donnes lexicales par de nombreux systmes de traduction dvelopps au Japon. 2.1. Architecture lexicale Le projet EDR a dlibrment adopt une approche mixte o lÕon trouve un dictionnaire interlingue et des dictionnaires bilingues. Les dictionnaires de mots (anglais et japonais) sont diviss en deux parties. La premire contient environ 200Ê000 termes gnraux, et la seconde contient environ 100Ê000 termes techniques (dans le domaine du traitement de lÕinformation). Ces dictionnaires contiennent les informations grammaticales sur les entres et les concepts auxquels elles sont associes. Le dictionnaire de concepts regroupe 640Ê000 concepts, parmi lesquels, 100Ê000 proviennent des entres terminologiques et sont communs aux deux langues. Par ailleurs, 60Ê000 concepts sur environ 300Ê000 concepts issus de chaque dictionnaire gnral sont communs aux deux langues (Ch. Boitet, communication personnelle). Le correspondant en langue cible dÕune entre en langue source est une liste dÕentres du dictionnaire de langue cible, moins quÕune flexion particulire ne soit ncessaire lors de la traduction. Les quivalences entre langues nÕtant gnralement pas parfaites (nuances entre les concepts recouverts par un mot et sa traductionÉ), on donne la relation de correspondance qui existe entre lÕentre et son quivalent. Il existe 5 relations de correspondanceÊ: ¥ quivalenceÊ: les concepts recouverts par lÕentre et sa traduction sont quivalents, ¥ sous-relationÊ: le concept de lÕentre est plus large que le concept de sa traduction, ¥ super-relationÊ: le concept de lÕentre est un sous-concept de celui de la traduction, ¥ synonymieÊ: la diffrence entre les concepts est minime, ¥ remarqueÊ: le correspondant est une transcription de lÕentre. Dans ce cas, une explication est donne en information supplmentaire. Entres Relations de correspondance Correspondances quivalence dog left quivalence annihilation sous-relation sous-relation <explanation> circuitous allege super-relation super-relation (in) other words abbey synonymie ameer remarque remarque ebosikago [bamboo hand-basket]Ê? Figure 2.10Ê: Un exemple dÕentres de dictionnaire bilingues LÕexplication supplmentaire est indique entre chevrons(<>), parenthses (()) ou crochets ([]) suivant que lÕon a affaire (respectivement) une sous-relation, une super-relation ou une remarque. 2.3. Dictionnaire de concepts Dans les trois phrases suivantesÊ: ¥ Un lphant apparat, ¥ Un lphant nÕoublie jamais, ¥ LÕlphant est une espce en danger, le mot lphant renvoie tour tour un individu de lÕespce des lphants, un prototype dÕlphant ou lÕespce des lphants. Nanmoins, ce mot rfre quelque chose de commun chacun de ces usages. Ce quelque chose est le contenu smantique du mot lphant. La mme remarque sÕapplique au mot japonais z., qui a le mme contenu smantique que le mot lphant. Le contenu smantique dÕun mot, ainsi dfini, est reprsent par un lment du dictionnaire de concepts (un concept). Un concept (correspondant un mot) a une identificateur unique. Ainsi, le concept correspondant lphant a lÕidentificateur <3bf246>. Nanmoins, comme il nÕy a pas de possibilits de confusion (polysmieÉ), ce concept est aussi appel Òconcept lphantÓ et not ÇlphantÈ. Dans le dictionnaire de concepts, lÕidentificateur est accompagn dÕune illustration (une phrase en anglais et en japonais) qui permet lÕutilisateur de connatre le concept quÕil manipule. Le plus important travail de recherche, dÕindexage et de maintenance a t effectu sur le dictionnaire de concepts. Ce dictionnaire est dcompos en deux parties. Dans la premire partie, les concepts sont dcrits par un ensemble de relations quÕils entretiennent entre eux. Dans la seconde partie, les concepts sont classifis hirarchiquement. 2.3.1. Description des concepts EDR a rejet lÕapproche consistant dcrire un concept lÕaide de concepts de base plus simples. Aussi, chaque unit smantique, correspondant un mot ou une expression complexe, sÕexprime par un concept (que lÕon peut identifier et manipuler), et ce, mme si la smantique de ce concept peut se traduire par une description base de concepts plus simples. La description des concepts se base sur un ensemble de relations quÕils entretiennent entre eux. EDR a retenu 24 relations et 50 attributs (relations unaires) pour cette descriptionÊ: agent sujet dÕune action volontaire. Les entits conscientes ou automatises peuvent tre de tels sujets. Òun animal mangeÓ ÇmangerÈ ÑÊagentÊ→ ÇanimalÈ a-object attribut dÕun objet Òles tomates sont rougesÓ ÇrougeÈ ÑÊa-objectÊ→ ÇtomateÈ object objet affect par une action ou un changement Òmanger de la viandeÓ ÇmangerÈ ÑÊobjectÊ→ ÇviandeÈ cause la cause Òmort de froidÓ ÇmortÈ ÑÊcauseÊ→ ÇfroidÈ implement instrument ou moyen dans une action volontaire Òcouper avec un couteauÓ ÇcouperÈ ÑÊimplementÊ→ ÇcouteauÈ material composant matriel ou structurel Òfait avec du laitÓ ÇfaireÈ ÑÊmaterialÊ→ ÇlaitÈ source sujet dÕun vnement ou position ou condition initial dÕun objet Òvenir de TokyoÓ ÇvenirÈ ÑÊsourceÊ→ ÇTokyoÈ goal sujet dÕun vnement ou position ou condition finale dÕun objet Òaller TokyoÓ ÇallerÈ ÑÊgoalÊ→ ÇTokyoÈ place lieu o se tient un vnement Òjouer dans la chambreÓ ÇjouerÈ ÑÊplaceÊ→ ÇchambreÈ scene contexte dans lequel un vnement a lieu Òjouer dans un drameÓ ÇjouerÈ ÑÊsceneÊ→ ÇdrameÈ manner manire dont se passe une action ou un changement Òparler lentementÓ ÇparlerÈ ÑÊmannerÊ→ ÇlentementÈ time instant o se passe un vnement Òse lever lÕheureÓ Çse leverÈ ÑÊtimeÊ→ Ç lÕheureÈ time-from instant o dbute un vnement Òje travaille depuis le matinÓ ÇtravaillerÈ ÑÊtime-fromÊ→ ÇmatinÈ time-to instant o se termine un vnement Òje travaille jusquÕau soirÓ ÇtravaillerÈ ÑÊtime-toÊ→ ÇsoirÈ quantity quantit de chose, dÕaction ou de changement Òun kilo de pommesÓ ÇpommesÈ ÑÊquantityÊ→ ÇkiloÈ number nombre Ò3 kilosÓ ÇkiloÈ ÑÊnumberÊ→ Ç3È condition relation de condition entre vnements ou circonstances Òaller pleurerÓ ÇallerÈ ÑÊconditionÊ→ ÇpleurerÈ cooccurrence relation simultane entre vnements ou circonstances Òpartir en pleurantÓ ÇpartirÈ ÑÊcooccurrenceÊ→ ÇpleurerÈ purpose but dÕune action Òaller voirÓ ÇallerÈ ÑÊpurposeÊ→ ÇvoirÈ sequence relation temporelle squentielle entre vnements ou circonstances Òsauter et frapperÓ ÇsauterÈ ÑÊsequenceÊ→ ÇfrapperÈ basis base de comparaison Òles roses plus belles que les lilasÓ ÇrosesÈ ←Êa-objectÊÑ ÇbeauÈ ←ÊobjectÊÑ ÇplusÈ ÑÊbasisÊ→ ÇbeauÈ ÑÊa-objectÊ→ ÇlilaÈ and relation de conjonction entre concepts Òvisiter Rome et VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇRomeÈ ÑÊandÊ→ ÇVeniseÈ) or relation de disjonction entre concepts Òvisiter Rome ou VeniseÓ ÇvisiterÈ ÑÊgoalÊ→ (ÇÇRomeÈ ÑÊorÊ→ ÇVeniseÈ) modifier autres relations Ë ces 24 relations sÕajoutent 4 Òpseudo-relationsÓ, qui sont des relations dfinies en fonction des autres relations. Ainsi, la pseudo-relation possessor est dfinie comme suitÊ: possessor ÑÊpossessorÊ→ ≡ ←ÊobjectÊÑÊÇownÈÊÑÊagentÊ→ Les pseudo-relations sontÊ: possessor relation de possession Òle chien de TomÓ ÇchienÈ ÑÊpossessorÊ→ ÇTomÈ beneficiary bnficiaire dÕun vnement ou dÕune circonstance Òutile aux personnesÓ ÇutileÈ ÑÊbeneficiaryÊ→ ÇpersonnesÈ from-to porte, chemin,ÊÉ Òun tiquet dÕOsaka TokyoÓ ÇtiquetÈ ÑÊmodifierÊ→ (ÇÇOsakaÈ ÑÊfrom-toÊ→ ÇTokyoÈ) unit lÕunit Ò500 yens pour une douzaineÓ ( Ç1È ←ÊnumberÊÑ ÇdouzaineÈ ) ←ÊunitÊÑ (Ç yensÈ ÑÊnumberÊ→ Ç500È ) Les attributs sont dfinis comme des relations unaires sur les concepts. EDR a dfini 50 attributs rpartis comme suitÊ: Attributs qualifiant lÕobjetÊ: all Tous les objets some Un nombre non spcifi dÕobjets specific Des objets spcifis generic Objets avec des caractristiques gnrales Attributs indicateur de tempsÊ: past Le point de vue est dans le pass present Le point de vue est dans le prsent future Le point de vue est dans lÕavenir Attributs de relativitÊ: begin Dbut dÕune action ou dÕun vnement end Fin dÕune action ou dÕun vnement progress Une action ou un vnement est en cours continue Une action rptitive ou un vnement rptitif est en cours state Une action ou un vnement est termin et un tat ou rsultat est atteint complete Toutes les actions ou tous les vnements sont termins yet NÕa pas encore eu lieu already A dj eu lieu soon Aura lieu bientt just Vient dÕavoir lieu come On approche du moment auquel pense le locuteur go On sÕloigne du moment auquel pense le locuteur Attributs dnotant lÕintention du locuteurÊ: imperative Un ordre interrogation Une question exclamation Une exclamation invite Une invitation rumor Une rumeur respect Avec respect polite Avec politesse require-agreement Demande agrment ou confirmation thought Une pense conclude Une conclusion sure Infrence partir dÕune situation maybe Infrence dÕune ventualit seem Infrence ou supposition recommend Une recommandation grant Une permission grant-not Un refus de permission underestimate Une sous-estimation duty Une obligation should Une quasi-obligation sufficiency Suffisance consent Un consentement pity Dsappoint be-sorry Avec remords appearance Circonstance ou comparaison natural-result Rsultat naturel dÕun vnement ou dÕune circonstance advise Avis ou recommandation donne par lÕauteur natural-thing Forme idale, ce qui devrait tre blame Un blme if Spculation sur quelque chose dÕincertain reality La ralit unexpected Inattendu, imprvisible GENELEX a choisi de coder ses dictionnaires dans un format entits-attributs-relations. Ce choix permet de visualiser un unit lexicale comme un graphe. Cela permet aussi de placer chaque lment dÕinformation sur un pied dÕgalit (i.e. aucun nÏud nÕest privilgi lors des recherches, alors quÕune structure en arbre privilgierait la racine). GENELEX a produit un dictionnaire public dÕenviron 3000 termes. Par ailleurs, les participants au projet ont transform leurs dictionnaires privs au format dfini par le consortiumÊ: Hachette 55Ê000 termes Notre temps 60Ê000 termes + 25Ê000 noms propres SEMA Group 70Ê000 units morphologiques IBM 50Ê000 units morphologiques GSI-ERLI 68Ê000 units morphologiques simples et 15Ê000 units morphologiques composes 3.1. Le modèle conceptuel de GENELEX Le modle conceptuel de GENELEX dfinit le formalisme de haut niveau dans lequel un linguiste peut exprimer sa thorie linguistique. Ce formalisme de haut niveau doit tre indpendant du stockage effectif des donnes. GENELEX doit reprsenter les diverses descriptions existantes, compte tenu de ce quÕelles dpendront du modle thorique, du degr de finesse et des critres discriminants retenus par le lexicographe, et ce, quelle que soit son cole. Cela aura des rpercutionsÊ: - au niveau morphologique, - au niveau du comportement syntaxique des units lexicales, - au niveau smantique, - au niveau des inter-relations entre les diffrentes informations codes. Ces diverses descriptions apparatront soit dans plusieurs instances de dictionnaires, soit dans une seule et mme instance construite par fusion de toutes les autres. Le formalisme descriptif de Genelex est donc dvelopp pour pouvoir contenir chacune des thories en usage. Il fonctionne donc comme un pont entre les diffrentes thories linguistiques. Le modle conceptuel GENELEX a t largement exprim au travers de modles entits- attributs-relations (Merise). Beaucoup de contraintes dÕintgrit sont exprimes dans ce formalismeÊ: typage des objets, typage des relations, cardinalit des relations, etc. Cependant, ce modle nÕest pas fait pour exprimer des rgles. Aussi, certaines contraintes ont d tre exprimes dans le document dÕaccompagnement (restriction sur les combinaisons de valeurs). Il sÕensuit que le modle conceptuel de GENELEX combine lÕutilisation du formalisme entits-attributs-relations et de commentaires en langage naturel. Comme nous lÕavons dj mentionn, le formalisme de GENELEX se veut indpendant du stockage effectif des donnes. Cela permet chaque membre du consortium GENELEX de construire ses propres outils sur la plate-forme de son choix. Un format dÕchange est donc ncessaire pour assurer la compatibilit des diffrents outils. Le consortium GENELEX a choisi SGML (Standard Generalized Markup Language) comme format dÕchange. SGML est un langage de description de documents (cf. annexe A) qui permet de dcrire la structure et le contenu dÕun ensemble de documents. La structure dÕun document est donne par une DTD (Document Type Definition). GENELEX a donc traduit son modle conceptuel en un modle physique en construisant une DTD. Certaines des contraintes alors exprimes en langage naturel ont pu tre exprimes formellement dans la DTD. Les autres contraintes apparaissent sous forme de commentaires. 3.2. Vue générale d’une unité du lexique Comme lÕensemble des informations dÕun dictionnaire Genelex, chaque unit du lexique peut tre vue sous forme de graphe. Les units sont organises selon trois couchesÊ: units morphologiques (UM), units syntaxiques (USyn) et units smantique (USm). Nous donnons en figure 2.14. lÕarticulation globale dÕune unit du lexique. Graphie UMG MFG Phonie UMP MFP se prononce Unit Morphologique UMS, UMC, UM_AFF drivation, forme brve, autonomie, composition forme graphique forme phonique syntaxe 0,n 1,1 Unit syntaxique simple USynt smantique 0,n 1,n Unit smantique USm, traits componentiels, relations Abstraction Concept Structure prdicative Prdicat smantique Structure syntaxique self, construction, position, É correspondance d'arguments Unit syntaxique compose composition Description de base transformation transformation Description de base struct. interne struct. transf. smantique Figure 2.14Ê: LÕarticulation globale dÕune unit du lexique Une unit du lexique comprend donc une unit morphologique. Cette unit morphologique est relis 0, 1 ou plusieurs units syntaxiques simples. LÕunit syntaxique, par contre, nÕest relie quÕ une et une seule unit morphologique. Dans le cas dÕexpressions composes, lÕunit morphologique est relie plusieurs units syntaxiques simples (celles des composants), elles-mmes lies une unit syntaxique complexe (dcrivant le comportement syntaxique global du compos). Une unit syntaxique simple est relie 0, 1 ou plusieurs units smantiques. LÕunit smantique est lie de manire biunivoque un concept et une structure prdicative. On connat aussi la correspondance entre les arguments du prdicat et les lments syntaxiques de lÕunit. LorsquÕune unit smantique est associe plusieurs units syntaxiques, celle-ci sont simples et proviennent de la mme unit morphologique. Avec ce schma, il est possible de crer des dictionnaires nÕayant que des informations morphologiques, nÕayant que des informations morphologiques et syntaxiques ou ayant des informations morphologiques, syntaxiques et smantiques. 3.3. Le modèle morphologique Le modle morphologique dfinit une unit morphologique (UM) et donne sa structure. Une unit morphologique est le point dÕentre de la couche morphologique et le point de passage vers les autres couches. Une unit morphologique est un regroupement de mots bas sur des proprits morphologiques. Elle est identifie par son lemme graphique et/ou par son lemme phontique. La forme lemmatise est la forme singulier sÕil y a variation en nombre, masculin sÕil y a variation en genre, et infinitif pour les verbes. Dans certains cas, il est difficile de savoir si lÕon a affaire plusieurs units morphologiques ou une seule. Pour cela, GENELEX a dfini des critres formels dÕclatementÊ: - si deux catgorie grammaticales peuvent tre associes une forme lemmatise, on considre quÕon est en prsence de deux lemmes distincts. Par exempleÊ: autiste (nom) et autiste (adjectif). On note cependant la difficult distinguer certaines catgorieÊ: nom/adjectif, participe pass/adjectif, participe prsent/adjectif. - si la variation en genre dÕun nom reflte une variation smantique (mise part le changement de sexe), on considre que lÕon est en prsence de deux units morphologiques distinctes. Par exempleÊ: un page/une page, un colonel/une colonelle (la colonelle est la femme du colonel, pas un colonel fminin). - si deux significations trs distinctes (sans lien tymologique ou rhtorique) peuvent tre associes une forme lemmatise, on considre que lÕon est en prsence de deux lemmes distincts. Par exempleÊ: fraise, pole. LÕapplication de ce critre est laisse au lexicographe. On ne peut malheureusement pas toujours dterminer si certains de ces critres sÕappliquent ou non. GENELEX a dfini cinq types dÕunits morphologiquesÊ: - UM simpleÊ: une UM simple est associe une graphie (plusieurs en cas de variantes) constitue dÕune suite de caractres alphabtiques, de sparateurs (tiret, apostrophe, point) et de la marque ventuelle dÕhyphnation. Par exempleÊ: demain, aprs-demain, aujourdÕhui. - UM affixesÊ: une UM affixe peut tre de type prfixe, infixe ou suffixe, ou encore sans type dans le cas o elle ne prend son statut quÕen contexte de drivation ou composition. Par exemple, -tion (suffixe), re- (prfixe), et gyne (sans type dÕaffixe), qui donne androgyne et gyncologue. - UM drivesÊ: une UM drive est une unit morphologique simple qui entretient des liens de drivation avec dÕautres units morphologiques (simples ou affixes). Ces units grand dam, dans le but de P[mode: infinitif] -> dans ce but). De plus, on peut mentionner les processus dÕeffacementÊ: fil de fer barbelé -> fil barbelé -> barbelé. P P0 P1 P2 P3 C = PRO [lex : il] [sscat : impersonnel] V [ssCatSyn : copule] SADJ P (P0) SELFsyntagme rcritÊ: SADJÊ: ou P P P0 P1 PPrep [lex: de] P0: vide P1 SV[mode: infinitif] P0 P1 P [mode: subjonctif]CONJ [sscat: subord.] [lex: que] SELF = intressant (adjectif) Figure 2.16Ê: Description de base associe lÕentre ÒintressantÓ (adjectif) La figure 2.17. donne un exemple de construction syntaxique pour une USyn compose. LÕinteraction entre composants et arguments ou modifieur y est dcrite (insertion dÕun argument entre les composants, par exemple). CB: P P0 SELF P1 SN SN SELF: IntervConst: V Syntagme NT S: SV P0 IO P1 V [RefLex: mettre] SP [prep: en] [RefLex: Ïuvre] cb.P1 SN mettre SN en Ïuvre Figure 2.17Ê: Description de lÕUSyn compose Òmettre en ÏuvreÓ 3.5. Le modèle sémantique Vu le faible niveau de consensus dans la communaut scientifique en ce qui concerne la formalisation des connaissances smantiques, GENELEX propose un mta-modle instancier plutt quÕun modle implmenter directement sur les donnes lexicales. Dans cet esprit, Genelex a clairement spar la smantique en deux niveauxÊ: - un niveau de reprsentation smantique linguistiqueÊ: cette reprsentation, trs proche de la langue, est construite principalement partir de lÕobservation du lexique en contexte et des relations smantiques entre lments du lexique. Ce niveau regroupe les informations smantiques fines ncessaires la traduction automatique de qualit ou la gnration, la comprhension automatique de texte pour gnration de rsumÉ). - un niveau de reprsentation smantique conceptuelleÊ: cette reprsentation, issue des courants de lÕintelligence artificielle, est dÕune plus grande ÒabstractionÓ. elle sÕappuiera sur des primitives, associes un formalisme de reprsentation des connaissances. La profusion de thories que GENELEX souhaite pouvoir coder dans son modle lÕa men choisir une approche plus multi-thorique que a-thorique. LÕunit smantique permet dÕaccder lÕensemble des informations smantiques correspondant une certaine acception dÕune entre. LÕunit smantique dcrit donc le sens dÕune unit morphologique dans un contexte syntaxique donn. DÕautre part, une unit syntaxique, et donc implicitement lÕunit morphologique dont elle est issue, peut tre associe plusieurs units smantiques. Les relations entre les diffrents modles de GENELEX nous donnent donc une structure illustre par lÕexemple de la figure 2.18. Unit morphologique Unit syntaxique Unit smantique Unit syntaxique Unit syntaxique Unit syntaxique Unit smantique Unit smantique Unit smantique Unit smantique Unit smantique Figure 2.18Ê: Un exemple de relations entre les diffrents modles GENELEX Pour tablir la correspondance entre syntaxe et smantique, Genelex introduit la notion de prdicat. Toute unit smantique peut-tre associe un prdicat. Il est ainsi possible de noter les liens entre les diffrentes positions (en syntaxe) et les arguments du prdicat (en smantique). Ë chaque argument dÕun prdicat est associe une information smantique en terme de traits ou de rle smantique. On peut aussi lui associer une valeur par dfaut, afin de traiter les cas o lÕargument est absent en surface. Enfin, il est possible dÕtablir des relations entre les diffrentes units smantiques du dictionnaire. Cette possibilit permet donc de coder un thesaurus, voire dÕautres liens plus fins, comme les fonctions dÕIgor MelÕcÿuk. 4. MULTILEX MULTILEX est un projet ESPRIT (DG XIII), qui a dbut en dcembre 1990 et sÕest achev en dcembre 1993. Son but tait de proposer des standards pour les bases lexicales multilingues. Les 3 annes du projet ont t rparties en deux phases. La premire phase, axe vers la recherche, a consist en la dfinition des standards adopter. La seconde, axe vers les applications, a expriment, corrig et dvelopp les standards ainsi proposs. MULTILEX a propos diffrents types de standards, portantÊ: - sur les informations linguistiquesÊ: quelles sont les informations que lÕon met dans la base, sous quelle formeÉ)Ê? - sur lÕarchitecture linguistiqueÊ: comment les entres sont-elles organisesÊ? - sur lÕarchitecture lexicaleÊ: comment les dictionnaires sont-ils organissÊ? - sur lÕarchitecture informatiquesÊ: comment sont organiss les diffrents outilsÊ? Enfin, MULTILEX a dvelopp un prototype de dictionnaire quadrilingue (anglais, franais, allemand et italien) selon ces standards. LÕarchitecture dÕune base lexicale MULTILEX est base sur des dictionnaires monolingues et bilingues. Les units lexicales sont reprsentes avec un formalisme bas sur les structures de traits typs. Un langage a t dfini pour dcrire la structure dÕune unit lexicale. Un autre, dfini par nos soins, permet de coder des rgles de cohrence et dÕintgrit. Chaque manipulation de lÕinformation linguistique est faite dans ce formalisme. Ensuite, les entres sont stockes dans une base de donnes relationnelle. MULTILEX a aussi dvelopp un standard linguistique pour la reprsentation dÕunits lexicales de langues europennes. Ce standard code lÕensemble maximal dÕinformations linguistiques commun aux langues europennes. 4.1. Architecture lexicale Une base de donnes lexicales MULTILEX est un ensemble de dictionnaires monolingues et bilingues. LÕarchitecture lexicale prvoit un dictionnaire monolingue par langue, et deux dictionnaires bilingues unidirectionnels par couple de langues (voir figure 2.19.). Language 1 Language 2 Language 3 Monolingual dictionary Transfer dictionary Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX Les quivalences bilingues contiennent des informations contrastives entre la LU source et la LU cible. Ces informations contiennent notamment des indications sur les diffrence de sens entres les LUs, des conditions syntaxiques sur lÕapplication de la correspondance et des transformations appliquer pour effectuer le transfert. 4.2.2.3. Approche unidirectionnelle Une relation bilingue est principalement constitue de deux partiesÊ: une condition syntaxique dÕapplication et une transformation appliquer aux informations de la langue source pour obtenir une structure valide en langue cible. Il nÕest pas possible, dans le cas gnral, dÕinverser cette relation. En effet, sÕil est possible (dans certains cas) dÕinverser la transformation donne, on ne peut dduire des informations prsentes les conditions syntaxiques appliquer lÕentre en langue cible pour slectionner le transfert inverse. Le modle de MULTILEX est donc fortement unidirectionnel. 4.3. Architecture logicielle Paralllement aux standards linguistiques, Multilex a dvelopp des standards informatiques pour lÕimplmentation de bases lexicales multilingues. Ces standards rgissent le format dÕchange des donnes, lÕarchitecture lexicale adopter et lÕensemble des outils construire pour la maintenance dÕune base lexicale multilingue. Les outils se conformant ces standards peuvent le faire selon plusieurs niveaux, le minimum requis tant lÕutilisation du format dÕchange des donnesÊ: MLEXd. Cette architecture logicielle ressemble lÕarchitecture logicielle dfinie plus avant dans cette thse, car, lors de ma premire anne de thse, jÕai collabor au projet MULTILEX. LÕarchitecture logicielle que jÕai propose a t retenue par le consortium. Celle propose dans ce travail en est la version suivante. <item> <word-sens> <lu> <gr-canon> ballast <homograph-number> 0 <meaning-number> 1 <gpmu-id> <gr-canon> ballast <meaning-number> 1 <syntactic-description> … Niveau base de données Niveau interne Niveau présentation Système de Gestion de Bases de Données Manipulation de l'information linguistique Visualisation de l'information linguistique Stockage des informations Figure 2.22Ê: Architecture logicielle dÕun systme de gestion de bases lexicales selon MULTILEX LÕarchitecture logicielle MULTILEX distingue fortement les problmes de stockage, de manipulation, et de visualisation des donnes. Elle est base sur trois niveauxÊ: - niveau base de donnesÊ: ce niveau est en charge du stockage effectif des donnes. Diffrents systmes relationnels de gestion de bases de donnes peuvent tre utiliss ce niveau, qui est invisible pour lÕutilisateur. - niveau interneÊ: ce niveau est en charge des diffrentes manipulations sur les donnes des entres de dictionnaires. CÕest ce niveau que les diffrents outils dÕun systme de gestion de bases lexicales oprent. Pour ce niveau, MULTILEX conseille dÕutiliser des structures de traits typs. - niveau prsentationÊ: ce niveau est en charge de la prsentation des informations lÕutilisateur. Cette prsentation nÕest pas ncessairement proche de la structure interne utilise. De plus, il peut tre possible de proposer diffrentes prsentation dÕune mme information pour diffrents utilisateurs ou diffrents buts. Cette architecture est illustre par la figure 2.22. Multilex a aussi dfini un ensemble dÕoutils standard pour un systme de gestion de bases lexicales multilingues. Ces diffrents outils manipulent les donnes linguistiques au niveau interne et interagissent avec lÕutilisateur au niveau externe. Les outils ainsi dfinis sont les suivantsÊ: - diteurÊ: lÕditeur permet dÕditer ou de modifier des entres du dictionnaire. Pour cela, il doit offrir des fonction de navigation lÕintrieur de la base lexicale. Afin de permettre lÕdition et la modification des entres, lÕensemble des informations linguistiques doit tre prsent lÕutilisateur. - NavigateurÊ: le navigateur permet de consulter la base lexicale. Il doit permettre diffrentes prsentations suivant les motivations de lÕutilisateur. Il nÕest pas ncessaire que les prsentations refltent la totalit des informations linguistiques associes une entre. ventuellement, lÕoutil donnera un moyen lÕutilisateur de spcifier sa propre prsentation. - Vrificateur de cohrenceÊ: cet outil permet de vrifier des rgles de cohrence dfinies par lÕutilisateur. Lorsque certaines de ces rgles sont violes, le vrificateur le signale lÕutilisateur. Cet outil permet la vrification de cohrence lÕintrieur dÕun article, la cohrences entre articles dÕun mme dictionnaire, et la cohrence entre articles de diffrents dictionnaires. - DfauteurÊ: cet outil permet de complter des entres incompltes. Cet compltion peut avoir lieu a posteriori sur des entres dj prsentes dans le dictionnaire, ou interactivement afin dÕacclrer le processus dÕdition. Cet outil utilise des rgles de valeurs par dfaut dfinies par un linguiste. - Import/exportÊ: cet outil gnre et accepte des fichiers MLEXd refltant la structure linguistique des entres du dictionnaire. Le format MLEXd est un format bas sur SGML, codant des structures de traits. L1 L2 L3 L4L5 L6 Dictionnaire monolingue Dictionnaire interlingue I Figure 3.2Ê: Une base lexicale base sur lÕapproche interlingue. La critique la plus courante de lÕapproche par transfert porte sur le nombre de dictionnaires dfinirÊ: le nombre de dictionnaires bilingues thorique est fonction du carr du nombre de dictionnaires monolingues. Si nm est le nombre de dictionnaires monolingues, et nb le nombre de dictionnaires bilingues, on a: nbÊ=Ê nmÊ(nmÊ-Ê1) 2 Ce nombre est multipli par deux lorsque lÕon utilise des dictionnaires bilingues unidirectionnels. Ce calcule se base sur lÕhypothse que tous les couples de langues doivent tre prsents et que la charge de traduction est rpartie de manire uniforme entre les langues. Or, mme lÕUnion Europenne, qui est considre comme lÕorganisme travaillant dans le contexte la plus multilingue (9 langues), lÕeffort de traduction nÕest pas rparti de manire uniforme parmi les langues, les principales tant lÕallemand, lÕanglais, et le franais. Aussi, lÕapproche par transfert est la plus utilise lÕheure actuelle. En effet, la plupart des projets ne se situent pas dans les hypothses retenues pour effectuer le calcul prcdent. Dans la plupart des cas, ces projets nÕont quÕune ou deux langues sources. Dans dÕautres cas, il est possible de passer par un ensemble de langues intermdiaires qui agissent comme des pivots. Dans ce cas, le nombre de dictionnaire augmente de manire linaire et non plus quadratique. Pour sa part, la mthode interlingue permet de rduire le nombre de liens. En effet, il suffit de construire un lien entre chaque dictionnaire monolingue et le dictionnaire interlingue. On a ainsi une connectivit beaucoup plus rduite que dans lÕapproche bilingue. Mais cet avantage se paie en complexit puisque ces liens sont beaucoup plus difficiles grer. En effet, lÕajout dÕune entre dans une langue peut remettre en cause les entres du dictionnaire interlingue (et donc certains liens allant vers les autres langues). Il est trs difficile dÕvaluer la complexit qui se rajoute lorsque lÕon utilise cette approche. De plus, on ne sait si la complexit de cration dÕune base interlingue nÕaugmente pas de manire quadratique avec le nombre de langue. Des exprimentations ont t conduites une echelle suffisante au CICC (environ 50Ê000 mots de base et 25Ê000 termes techniques en japonais, chinois, malais, indonsien et thai [Yaoliang & zhendong 1991]), mais on nÕen trouve pas les rsultats en termes de difficults de dveloppement de lÕinterlingue. En partant de lÕhypothse selon laquelle le dveloppement dÕun dictionnaire interlingue nÕaugment pas de manire quadratique avec la nombre de langue et en se plaant dans un contexte trs fortement multilingue, on considre habituellement quÕune telle approche est justifie lorsque lÕon veut construire des bases lexicales comportant plus de huit langues ([Boitet 1988a, Boitet 1990a]). Ë lÕheure actuelle, la majorit des projets utilisant lÕapproche interlingue se basent sur une connaissance du monde (ontologie). Aussi, il est assez difficile de distinguer les problmes entrans par le choix dÕune approche multilingue et ceux entrans par une reprsentation des connaissances. LÕoutil gnrique de gestion de bases lexicales multilingues (SUBLIM) dfini dans cette thse donne au linguiste le moyen de dfinir son architecture lexicale en dclarant explicitement lÕensemble des dictionnaires prsents dans sa base. La dernire partie de cette thse propose dans ce cadre une nouvelle approche interlingue ne faisant pas appel un modle par connaissances. 2. Architecture linguistique LÕarchitecture linguistique dÕune base lexicale dfinit la manire dont sont codes les entres des dictionnaires quÕelle contient. Elle rgit donc, notamment, les structures logiques qui seront utilises dans le codage des informations linguistiques. Lors de lÕtude des efforts en cours, nous avons pu constater la multitude des choix qui se posent lorsque lÕon veut reprsenter des informations linguistiques dans un dictionnaire. De plus, on ne souhaite pas forcment reprsenter les mmes informations. Une base lexicale voudra reprsenter toutes les informations morphologiques, syntaxiques et smantiques alors quÕune autre se contentera de reprsenter la morphologie. Les difficults linguistiques ne sÕarrtent pas l. Ds le niveau morphologique, que lÕon considre comme le plus simple et le plus mr, on est confront des problmes dus lÕorganisation du dictionnaire et aux difficult inhrentes de la langue (quÕest-ce quÕune entre, puis-je avoir un espace dans une entre, puis-je coder des expressions compltes, vais-je utiliser des tables pour coder la morphologie, ou bien un automateÉ). Ces mmes problmes se retrouvent tous les niveaux. Ë ces difficults linguistiques sÕajoutent les problmes dus lÕoutil choisi pour grer la base lexicale. En effet, si lÕon souhaite rutiliser les outils de MULTILEX, il faut coder toutes les structures linguistiques avec la seule structure logique que propose MULTILEXÊ: les structures de traits. De la mme manire, lÕutilisation des outils de Genelex oblige lÕadoption dÕune structure entits-attributs-relations. Certes, ces structures sont adaptes certaines thories linguistiques, mais un outil ne doit pas prjuger des thories qui seront retenues par les linguistes. Il existe une trs importante varit de structures logiques utilises dans certains dictionnaires. Parmi ces structures, on peut citer les ensembles dÕattributs (EDR), les automates dÕtats finis (LADL), les graphes (GENELEX), les structures de traits (MULTILEX), les arbres tiquets (Le Lexicaliste), les termes Prolog (ULTRA)É Stuart M. Shieber [Shieber 1986] a dfini trois critres dÕvaluation des formalismes grammaticaux. LÕun de ces critres est pertinent dans le contexte des bases lexicalesÊ: - Flicit linguistiqueÊ: le degr auquel les descriptions de phnomnes linguistiques peuvent tre exprimes, directement ou indirectement, de la manire o le linguiste voudrait les exprimer. Il est possible de coder une structure linguistique en utilisant nÕimporte quelle structure logique particulire. Nanmoins, ce codage nÕest, bien souvent, ni naturel, ni pratique. De plus, il est souvent difficile de trouver une structure logique qui permette un codage naturel de la totalit des phnomnes linguistiques que lÕon veut coder dans le dictionnaire. Aussi, il est difficile de satisfaire au critre de Shieber avec un systme ne proposant quÕun type de structure logique. LÕoutil gnrique de gestion de bases lexicales multilingues (SUBLIM) dcrit dans cette thse propose donc au linguiste une grande varit de structures logiques. Ainsi, il peut choisir la structure logique quÕil juge la plus adapte sa thorie linguistique. Il peut mme coder des units lexicales en utilisant diffrentes structures logiques. 3. Présentation de l’information Les informations lexicales ont certaines particularitsÊ: - cette information (parfois trs complexe) est spcifie, rentre et utilise par des linguistes non spcialiss en informatique, - elle peut tre utilise des buts trs varis comme lÕapprentissage dÕune langue, la consultation dÕune dfinition, la synthse de parole, la Traduction AutomatiqueÉ - les performances des systmes automatiques sont directement relies aux informations lexicales quÕils utilisent, ce qui rend cruciales les problmes de maintenance et de correction, - la taille dÕune base lexicale est telle quÕelle ncessite plusieurs personnes pour lÕindexage et la maintenance de cette information, Tous ces facteurs demandent donc une prsentation de cette information qui la rende facile dÕaccs des fins de maintenance, alors que cette information est, en gnral, structure pour un usage automatique. Ce problme est crucial lorsquÕon laisse le linguiste libre dans le choix de ses structures. En effet, certaines structures, trs appropries pour une utilisation informatique, sont trs difficiles prsenter, lire et comprendre. Ainsi, sÕil est ais de manipuler une structure dÕautomate reprsente sous forme graphique, cela est beaucoup plus complexe si on souhaite la reprsenter sous une forme textuelle, en donnant par exemple la liste de ses arcs ou de ses nÏuds. Cet tat de fait rend difficile le reprage dÕerreurs ventuelles et leur correction. Il faut donc trouver un moyen de contrler la manire dont est prsente lÕinformation. De plus, le mcanisme de prsentation doit tre suffisamment gnral pour permettre de masquer la structure interne de lÕinformation lexicale. Enfin, cette information peut tre accde pour diffrents usages. Dans certains cas, le lexicographe veut consulter lÕensemble des informations dÕune entre pour en vrifier la cohrence. Dans dÕautre cas, il veut avoir une liste des entres qui satisfont un critre ou qui ont t classes par un tri. Dans ce cas, le lemme et la catgorie sont les seules informations qui lÕintressent. Il est donc important de pouvoir dfinir diffrentes prsentations de lÕinformation. Introduction Comme nous lÕavons constat dans la partie prcdente, la diversit des solutions envisageables pour structurer une base lexicale, pour structurer une entre du lexique ou pour prsenter les informations linguistiques lÕutilisateur rend impossible le choix a priori dÕune solution linguistique satisfaisant lÕensemble des utilisateurs. Pourtant, les projets tudis on souvent fait des choix restrictifs pour lÕutilisation de leurs outils dans lÕimplmentation de bases lexicales varies. Le projet MULTILEX a pourtant donn au linguiste un langage lui permettant de dfinir les traits quÕil souhaite coder dans son dictionnaire. Nanmoins, il ne peut utiliser que des structures de traits pour coder une thorie linguistique. Or, nous avons vu que de nombreuses autres structures logiques sont effectivement utilisesÊ: graphes (GENELEX), automates (LADL), arbres (Le Lexicaliste)É Certains diront quÕil est tout fait possible de coder ces structures logiques avec des structures de traits. Cet argument est techniquement exact, mais ergonomiquement non fond. En effet, ce type dÕoutil doit offrir au linguiste un niveau suffisant dÕabstraction pour quÕil nÕait pas se proccuper dÕun codage supplmentaire de lÕinformation. De plus, les projets existants ont fig lÕarchitecture lexicale considre. Il nÕest donc pas possible dÕutiliser leurs rsultats pour exprimenter de nouvelles architectures lexicales. Enfin, rares sont les projets qui se sont attachs au problmes de la visualisation de lÕinformation. Le langage de dfinition des traits linguistiques de MULTILEX, par exemple, permet de paramtrer le placement des lments de la structures dans les crans de saisie, mais il ne permet pas de visualiser la structure linguistique en faisant abstraction de sa reprsentation interne (structure de traits). On veut donc construire un outil gnrique permettant de crer de nombreuses instances de bases lexicales qui ne seront pas forcment bases sur une mme architecture lexicale, qui ne se fonderont pas sur la mme thorie linguistique, qui nÕutiliseront pas les mmes structures logiques et o les informations ne seront pas visualises de la mme manire. Aussi, nous avons choisi de travailler la cration de SUBLIM, un outil qui permettra au linguiste de crer et de grer une base lexicale pour laquelle il a, au pralable, dclarÊ: - les dictionnaires quÕelle contientÊ: ces dictionnaires peuvent tre monolingues, bilingues ou interlingues, - pour chaque dictionnaire, quelles sont les structures quÕil contientÊ: ces structures linguistiques peuvent tre exprimes en utilisant diffrentes structures logiques de base (arbres, graphes, structures de traits, automatesÉ) que lÕon peut composer. - pour chaque dictionnaire et pour chaque structure, la (ou les) manire(s) de les prsenter. Dans cette partie, nous prsentons les principes et lÕimplmentation de cet outil. Nous commencerons par la partie concernant la dfinition des architectures lexicales, pousuivrons par celle concernant la dfinition de lÕarchitecture linguistique, et finirons par lÕarchitecture logicielle et les outils de gestion de la base lexicale. Ainsi, la dfinition du dictionnaire franais-anglais se fera de la manire suivante (en admettant que le dictionnaire monolingue anglais a t nomm english)Ê: (define-bilingual-dictionary french-english :type unidirectionnal :source french :target english :owner "GETA") Ainsi, le dictionnaire bilingue franais-anglais sera nomm de manire univoque par le symbole french-english dans lÕensemble de la base. LÕattribut :type dfinit le type du dictionnaire bilingue. Le dictionnaire bilingue peut tre unidirectionnel ou bidirectionnel. Les attributs :source et :target ne sont pertinents que dans le cas de dictionnaires bilingues unidirectionnels. Ils sont obligatoires dans ce cas. En effet, les structures linguistiques dfinies dans ce dictionnaire pourront utiliser ou se rfrer des structures utilises dans les dictionnaires source et cible. Dans le cas dÕun dictionnaire bidirectionnel, ces attributs sont remplacs par lÕattribut :links qui prend pour valeur une liste de dictionnaires. Finalement, la dfinition de ces diffrents dictionnaires se fait dans le cadre de la dfinition dÕune base lexicale multilingue particulire. Cette base lexicale est dfinie grce la fonctionÊ: define-lexical-database name Keywords* o name est un symbole dfinissant de manire unique la base lexicale. Ainsi, notre base lexicale multilingue se dfinit parÊ: (define-lexical-database MULTILEX-like-database :owner "GETA" :comment "Une base lexicale fondée sur une approche bilingue" :dictionaries (french english german dutch italian french-english french-german french-italian french-dutch ... )) Notre base lexicale se nomme donc MULTILEX-like-database. Nous lui avons attribu un commentaire (une chane de caractres) et une liste de dictionnaires (ceux que nous avions dfinis auparavant). 1.1.2. Une architecture interlingue Notre deuxime exemple montre comment dfinir lÕarchitecture lexicale dÕune base lexicale base sur lÕapproche interlingue. Cette architecture lexicale est inspire de lÕarchitecture lexicale du systme ULTRA [Farwell, Guthrie & Wilks 1993]. La base lexicale que nous souhaitons dfinir comprend 5 dictionnaires monolingues (anglais, chinois, japonais, espagnol et allemand). Ces 5 dictionnaires sont relis par un dictionnaire interlingue (voir figure 4.2). Les units lexicales des dictionnaires monolingues sont des units smantiques. Le dictionnaire interlingue contient un ensemble dÕunits interlingues appeles IR. La dfinition des dictionnaires monolingues se fait exactement de la mme manire que dans lÕexemple prcdentÊ: (define-monolingual-dictionary english :language "English" :owner "CRL-NMSU") La dfinition du dictionnaire interlingue se fait grce la fonctionÊ: define-interlingual-dictionary name Keywords* o name est un symbole dfinissant de manire unique le dictionnaire pour lÕensemble de la base. Ainsi, la dfinition du dictionnaire interlingue se fera de la manire suivanteÊ: (define-interlingual-dictionary IR :owner "CRL-NMSU" :links (english chinese japanese german spanish)) Chinese English GermanJapanese Spanish Dictionnaire monolingue Dictionnaire interlingue IR Figure 4.2Ê: Base lexicale quintilingue fonde sur une approche interlingue Le dictionnaire interlingue sera nomm de manire univoque par le symbole IR dans lÕensemble de la base. LÕattribut :links dfinit lÕensemble des dictionnaires monolingues relis par le dictionnaire interlingue IR. La structure linguistique porte par les units des dictionnaires interlingues peut donc utiliser ou se rfrer des structures dfinies dans chacun des dictionnaires monolingues. La base lexicale elle-mme se dfinit comme auparavantÊ: (define-lexical-database ULTRA :owner "CRL-NMSU" :comment "Une base lexicale fondée sur une approche interlingue" :dictionaries (english german spanish japanese chinese IR)) 1.1.3. Une architecture mixte Notre dernier exemple montre comment dfinir lÕarchitecture lexicale dÕune base lexicale base la fois sur une approche bilingue et sur une approche interlingue. Cette architecture lexicale est inspire de lÕarchitecture lexicale du projet EDR [EDR 1993]. Dictionnaire monolingue Dictionnaire interlingue Dictionnaire bilingue unidirectionnel japonais anglais Concept Dictionary Figure 4.3Ê: Base lexicale anglais-japonais fonde sur une approche mixte La base lexicale que nous souhaitons dfinir comprend 2 dictionnaires monolingues (anglais et japonais). Ces 2 dictionnaires sont relis la fois par deux dictionnaires monolingues unidirectionnels et par un dictionnaire interlingue (voir figure 4.3.). Les units lexicales des dictionnaires monolingues sont des units smantiques. Le dictionnaires interlingue contient un ensemble dÕunits interlingues appeles concepts. Les dictionnaires bilingues contiennent un ensemble de liens reliant les units du dictionnaire source des units du dictionnaire cible. La dfinition des dictionnaires monolingues se fait exactement de la mme manire que dans les exemples prcdentsÊ: (define-monolingual-dictionary english :language "English" :owner "EDR") Le dictionnaire interlingue se dfinit exactement comme dans lÕexemple prcdentÊ: (define-interlingual-dictionary concept-dictionary :owner "EDR" :links (english japanese)) Les dictionnaires bilingues se dfinissent exactement comme les dictionnaires du premier exemple : (define-bilingual-dictionary japanese-english :type unidirectionnal :source japanese :target english :owner "EDR") Et la base elle-mme se dfinit comme dans les exemples prcdentsÊ: (define-lexical-database EDR :owner "EDR" :comment "Une base lexicale fondée sur une approche mixte" :dictionaries (english japanese concept-dictionary)) 1.2. Le langage de définition de l’architecture lexicale : LEXARD Le langage LEXARD permet de dfinir une base lexicale. La dfinition dÕune base lexicale passe par la cration de ses lmentsÊ: les dictionnaires. LEXARD offre trois types de dictionnairesÊ: - dictionnaires monolingues, - dictionnaires bilingues, - dictionnaires interlingues. La dfinition des dictionnaires monolingues se fait grce la fonctionÊ: define-monolingual-dictionary name Keywords* o name est un symbole dfinissant de manire unique le dictionnaire pour lÕensemble de la base. Les Keywords dfinissent des renseignements indispensables pour la gestion du dictionnaireÊ: :owner string spcifie le propritaire du dictionnaire. :language string spcifie la langue du dictionnaire. La dfinition des dictionnaires bilingues se fait grce la fonctionÊ: define-bilingual-dictionnary name Keywords* o name est un symbole dfinissant le dictionnaire de manire unique lÕintrieur de la base. :owner string spcifie le propritaire du dictionnaire. :type type spcifie le type (soit unidirectionnel, soit bidirectionnel) du dictionnaire. :source symbol spcifie le dictionnaire source (seulement si unidirectionnel).