extraction d'information

Exploitation de reformulations pour l'acquisition d'un vocabulaire expert/non expert

Résumé
Ce mémoire explique les différentes tâches accomplies durant mon stage de fin d'étude. Celui-ci s'inscrit dans un projet qui concerne la communication patient/médecin. Nous avons utilisé des corpus médicaux écrits monolingues simples, rédigés par des spécialistes, afin d'extraire différents types de reformulations : abréviations et leur signification, reformulations avec marqueurs (c'est-à-dire, autrement dit, encore appelé), reformulations avec parenthèses. Les extractions ont été alignés avec des terminologies médicales, afin de garder uniquement celles évoquant un concept médical. L'exploitation de ces reformulations permettra d'enrichir un lexique de vocabulaire profane et son équivalent en vocabulaire médical, afin d'aider les patients à mieux comprendre les informations médicales.

Évaluation d'analyseurs syntaxiques

Résumé
Grammaire de dépendances ou grammaire de constituants? Quel type d'analyseur syntaxique choisir pour la création de classes sémantiques dans le cadre d'un projet d'extraction d'information appliqué à des textes scientifiques de langue anglaise?Les analyseurs les plus connus et les plus utilisés jusqu'alors pour l'anglais sont ceux développés à partir de grammaires syntagmatiques (dites de constituants).Nous verrons en quoi les analyseurs basés sur des grammaires de dépendances permettent d'obtenir de très bons résultats et s'adaptent particulièrement bien à une tâche de classification sémantique.Après avoir fait un état de l'art des deux familles d'analyseurs, nous ferons une présentation plus détaillée d'un analyseur à grammaire de dépendances appelé Link Parser. Nous verrons enfin de quelle manière il a été intégré à un système d'extraction d'information. 

Extraction d'entités nommées en allemand : impact des spécificités linguistiques

Résumé
Les entités nommées correspondent traditionnellement à tous les noms propres présents dans un texte, soit les noms de personnes, de lieux et d’organisations ainsi que d’autres syntagmes tels que les dates ou les expressions numériques (pourcentages, sommes d’argent, etc.).

L’extraction d’entités nommées est souvent évoquée en relation avec l’extraction d’information dont elle est par ailleurs issue. Cependant, bien d’autres applications en linguistique computationnelle peuvent faire usage des entités nommées en tant qu’elles constituent des indicateurs fondamentaux pour un accès pertinent au contenu des textes : moteurs de recherche, systèmes de questions-réponses, traduction automatique, entre autres.

Ce mémoire a pour but d’étudier les problématiques liées à l’extraction d’entités nommées, notamment en langue allemande.

A ce titre, nous proposons dans les Chapitres I et II un état des lieux sur le statut théorique des entités nommées et un état de l’art sur l’extraction d’entités nommées. Le Chapitre III introduit les problématiques liées à l’allemand au travers des propriétés linguistiques de cette langue, propriétés dont nous nous attachons à démontrer l’impact sur l’extraction d’entités nommées dans le Chapitre IV. Enfin, dans le Chapitre V, nous présentons la mise en œuvre dans la pratique de ressources linguistiques pour l’extraction d’entités nommées en allemand.

Passage de données non structurées à des données structurées : les relations entre entités nommées

Résumé
Les études et méthodes qui assurent une cohérence entre textes et modèles de représentation du contenu textuel relèvent un enjeu de plus en plus important. Le nombre de travaux en industrie et en Recherche et Développement sur ce sujet en atteste. Avec l'explosion de la numérisation des documents et de leur diffusion avec Internet au sein d'une société désormais dite de l'information ou de la connaissance, la necéssité de répondre à une demande de plus en plus forte dans l'industrie et chez les particuliers se fait sentir.

Le travail présenté ici est d'ordre technique et méthodologique. Il s'agit de détecter les relations sémantiques entre entités nommées par des traitements issus du Traitement Automatique des Langues, sur de larges corpus plus ou moins techniques et de les organiser sous une représentation formelle structurée. Sans exclure les phénomènes linguistiques qui peuvent être génériques à tout type de texte, nous nous appuyons sur une méthodologie qui permet de trouver la réalisation des relations dans un corpus spécifique à un domaine, notamment en se concentrant sur la recherche de marqueurs discriminants. Nous considérons donc qu'il existe une forte dépendance entre les membres du triplets corpus/relation/marqueur.