indexation

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Résumé
Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.

Les méthodes et les spécificités de l’indexation de la presse écrite et de la vidéo pour la télévision ( étude du cas de la chaîne de l’information TF1)

Résumé
La Gestion de l’Information dans le domaine des média audiovisuels est le pilier de la fabrication du Journal Télévisé. Dans la chaîne documentaire (de l’étape de l’acquisition de l’information jusqu’à sa recherche par les journalistes) il y a différents systèmes qui doivent fonctionner de façon cohérente et homogène. Pour d’avantage de performances du fonctionnement de la chaîne documentaire, les méthodes et les spécificités d’indexation doivent être en harmonie et en correspondance avec les outils de traitement de fiches et de recherche dans la base de données. L’objectif de notre étude est d’analyser la méthodologie d’indexation des documents textuels et vidéo, de détecter les failles dans la chaîne et/ou d’établire les incohérences, et par la suite de faire des propositions d’améliorations en application à la recherche.

Evaluation d'un outil de veille à travers la mise en place de thématiques de veillée

Résumé
Ce travail a pour but d’évaluer un outil de veille multilingue déployé au sein d’une entreprise industrielle multinationale.

A travers les différentes étapes de la mise en place de profils de veille (enrichissement de la base de connaissances, collecte des documents, surveillance, traitement et analyse) sur différents thèmes, nous découvriront les principales fonctionnalités de l’outil et les résultats obtenus.

Nous montrerons en quoi les ontologies, la terminologie, les méthodes d’extraction utilisées dans le domaine du traitement automatique du langage naturel (TALN) peuvent contribuer à l’amélioration de la qualité de l’exploration des sources, la pertinence des documents récupérés, et faciliter la recherche de l’information, améliorer la pertinence des résultats, réduire le bruit et donner satisfaction aussi bien aux documentalistes qu’aux utilisateurs finaux.

Les utilisateurs finaux peuvent soit recevoir leur commande sous forme d’alerte dans leur boite à lettre électronique, soit consulter le forum dédié ou encore le effectuer leur requête sur le portail dédié à cet effet, qui se présente sous forme de moteur de recherche.

Quelques axes méthodologiques pour le développement d'un outil de recherche

Résumé
La recherche d'informations opérant sur des données privées constitue un besoin important dans de multiples domaines. Elle est particulièrement utile pour les organisations ou les entreprises qui souhaitent exploiter une base de connaissances. Si l'on souhaite disposer de services comparables à ceux proposés par les moteurs que l'on utilise pour faire des recherches sur le Web, le contrôle des différents processus impliqués dans la mise en œuvre ("page ranking", stratégie d'indexation, méthodes de recherche, etc..) garantit que les spécificités de l'organisation et du corpus seront effectivement prises en compte. Nous proposons ici de faire l'inventaire des différentes problématiques impliquées dans la mise en oeuvre d'un moteur de recherche au sein d'une organisation souhaitant exploiter un corpus de données spécifiques. Nous étudions en outre comment cette mise en œuvre peut se faire à partir de solutions Open source, celles ci proposant à la fois le matériel adéquat et le niveau de qualité requis pour mener à bien ce type de projet. Cet inventaire est abordé sous deux aspects. Le premier concerne les phénomènes linguistiques à traiter, le second, le cadre dans lequel on peut effectivement les mettre en œuvre, c'est à dire à la fois les programmer, les faire évoluer et en assurer une exploitation efficace.