thesaurus

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Résumé
Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.