extraction d’information

Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues

Le but de cette étude est de créer une représentation visuelle, sous la forme de frise narrative, des épisodes de la première saison de Game of Thrones (Le trône de fer). Ce type de représentation permet de clarifier les interactions entre les personnages et la chronologie des événements dans une fiction au récit particulièrement complexe. Pour réaliser cette tâche, nous utilisons différentes méthodes d’alignement et d’extraction sur des corpus comparables liés à Game of Thrones. Au fur et à mesure, nous retenons les résultats les plus pertinents pour améliorer notre frise. La frise finale contient les personnages alignés par scènes (qu’ils aient des dialogues ou non), les informations de lieu pour les situer, et des listes de termes caractéristiques qui décrivent les personnages et concepts clé de chaque épisode. .

En savoir plus sur Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues

Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques

Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.

En savoir plus sur Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques

Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l'extraction, le traitement des rapports d'intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d'améliorer l'effet de levier et de réduire les coûts de traduction.

En savoir plus sur Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Étude des forums de santé pour la détection d’événements secondaires

De nombreux travaux sur l’état de l’art biomédical ont porté sur la détection d’événements secondaires à partir des rapports médicaux ou des réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce mémoire consiste à construire, en s’appuyant sur certains de ces travaux, un système à base d’apprentissage statistique pour l’extraction des événements secondaires à partir des messages déposés par les patients sur les forums de santé. La méthode implémentée à cet égard repose sur deux grandes étapes, la première est consacrée à l’annotation d’une sous-partie du corpus choisie aléatoirement pour constituer une référence. Cette annotation est en effet effectuée selon un guide élaboré et une grammaire d’annotation définie. Elle comporte deux phases, une sans pré-annotation et une autre avec pré-annotation automatique, et est suivie d’une phase d’adjudication puis d’évaluation. La deuxième étape de la méthode mise en oeuvre est dédiée à la création d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont choisies selon leurs pertinences par rapport au corpus étudié et conformément aux types d’entités qui se rapportent aux catégories traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs hypothèses de travail et tester la validité de la méthode adoptée. Les résultats de ces expériences varient selon la taille du corpus, la qualité des annotations de la référence ainsi que le sujet du forum traité. Les meilleurs résultats sont obtenus par un modèle global appris sur les deux forums étudiés (51.6 de F-mesure pour le corpus antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).

En savoir plus sur Étude des forums de santé pour la détection d’événements secondaires

Etude des assertions dans les textes medicaux centree sur la relation

Les textes scientifiques regorgent d'assertions (hypothèses, conditions, possibilités) qui nuancent le discours et donnent plus ou moins de poids aux informations. Nous nous intéressons à l'identification des assertions portant sur la relation patient - problème médical dans les dossiers patients. Notre objectif est d'identifier automatiquement la certitude et les degrés de certitude contenus dans les énoncés des textes médicaux, ainsi que la polarité de ces énoncés (positive / négative). Nous avons travaillé dans le cadre du challenge i2b2. Pour ce faire, nous partons d'observations en corpus à partir desquelles nous définissons les ressources à utiliser. Nous avons choisi de constituer des listes de marqueurs morphologiques et lexicaux, ainsi que des patrons lexico-syntaxiques et sémantico-syntaxiques. L'application de notre méthode sur un corpus de test montre que les marqueurs permettent d'obtenir les meilleurs résultats en termes de rappel et précision. La contribution des patrons est faible. La condition et Yhypothèse s'avèrent être les deux catégories d'assertion les plus difficiles à identifier. La condition semble représentée essentiellement par des propositions subordonnées, et nous pensons que l'utilisation des fonctions syntaxiques permettrait d'améliorer les résultats pour cette catégorie. Vhypothèse en bénéficierait également, car ce type d'assertion est marqué en partie par des propositions subordonnées. Enfin, les listes de marqueurs doivent être enrichies à l'aide de synonymes.

En savoir plus sur Etude des assertions dans les textes medicaux centree sur la relation

Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative

Comment exploiter les résultats d’une enquête marketing de type qualitative ?

Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.

Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.

La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.

En savoir plus sur Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative

S'abonner à extraction d’information