Mémoires 2014-2015

Détection de contenu utile depuis des sites d’actualité

Année : 2015

Mots clés : internet, structure, contenu, information, détection

Résumé : Dans un contexte de veille sur des sites d’actualité, la détection automatique du contenu rédigé par les journalistes est nécessaire au bon déroulement de traitements linguistiques automatisés. Nous adressons ce sujet en partant du constat que sur un même site d’actualité c’est principalement le contenu textuel porteur d’information qui change d’une page à l’autre. Plus généralement, nous définissons le contenu utile comme le contenu textuel qui diffère entre deux pages internet du même site. Nous utilisons différentes heuristiques et une comparaison par distance d’édition entre arbres HTML de mêmes structures pour déterminer ce contenu utile. Nous montrons que notre approche améliore les résultats par rapport à un outil de référence sur un corpus composé de pages récentes issues de différents sites d’actualité.

Télécharger le mémoire

Pratique de la lecture en L2 : classification automatique de textes en thaï par progression lexicale

Année : 2015

Mots clés : alao, aide à la lecture, thaï, langue étrangère, lisibilité, textladder

Résumé : La création automatique de ressources pour l’apprentissage de langues étrangères peu enseignées et peu dotées en matériels pédagogiques est particulièrement séduisante. Or, le développement de méthodes spécifiques à une langue étant souvent problématique en termes de rentabilité quand les effectifs d’apprenants sont restreints, il est intéressant de considérer comment adapter des ressources existantes ou de développer des méthodes génériques adaptables pour la création de matériel pédagogique. Cette étude concerne l’adaptation à la langue thaïe du logiciel TextLadder, qui classifie l es textes d’un corpus dans un ordre qui maximise la facilité de lecture pour l’apprenant, en calculant la similarité lexicale entre les textes. Cette classification automatique de textes par la progression lexicale constitue une méthode intéressante pour proposer une séquence de textes appropriée au niveau d’un lecteur en L2, surtout en ce qui concerne les textes qui portent sur une thématique particulière, que ce soit pour proposer des textes à des lecteurs autonomes, ou pour la création de matériel pédagogique destiné à être utilisé en classe.

Télécharger le mémoire

Apports de la catégorisation automatique à la veille collaborative

Année : 2015

Mots clés : fouille de texte, catégorisation automatique, apprentissage automatique, hiérarchie de concepts, thésaurus

Résumé : Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.

Télécharger le mémoire

Dé-identification cohérente de l’ensemble des documents cliniques d’un patient

Année : 2015

Mots clés : fouille de texte, dé-identification, système symbolique, données médicales, reconnaissance des entités nommées

Résumé : Ce travail propose une méthode de dé-identification pour les documents médicaux, permettant de traiter des ensembles de documents rattachés à un même patient. L'objectif est de conserver la cohérence entre les documents traitant d'un même patient, mais pas entre des documents traitant de patients différents. Notre méthode est basée sur un système symbolique, et se concentre sur la cohérence des dates et des noms de personne. Nous obtenons une F-mesure de 0.75, dont 0.77 pour les noms de famille et 0.91 pour les dates.

Télécharger le mémoire

Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Année : 2015

Mots clés : traduction automatique, optimisation de la traduction automatique, traduction automatique statistique, extraction d’information, extraction de données, prétraitement, normalisation de textes.

Résumé : Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l'extraction, le traitement des rapports d'intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d'améliorer l'effet de levier et de réduire les coûts de traduction.

Télécharger le mémoire

Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques

Année : 2015

Mots clés : fouille de texte, extraction d’information, extraction terminologique, analyse distributionnelle, constitution de terminologie

Résumé : Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.

Télécharger le mémoire

Approches pour une numérisation de qualité d’un dictionnaire vietnamien-français comprenant des caractères Nôm

Année : 2015

Mots clés : ocr, vietnamien, chữ nôm, automate fini déterministe

Résumé : la numérisation d’un dictionnaire ancien de vietnamien-français (Bonet 1899) qui fait usage de caractères anciens forgés sur le modèles de caractères chinois pose plusieurs problèmes : le support des dits caractères et la gestion du multilinguisme en particulier. Une architecture logicielle pour adresser le problème est décrite, ainsi que différentes techniques visant à augmenter la qualité de la reconnaissance en sortie.

Télécharger le mémoire

Exploitation de reformulations pour l'acquisition d'un vocabulaire expert/non expert

Année : 2015

Mots clés : reformulation, extraction d'information, analyse syntaxique, terminologie médicale, paraphrase

Résumé : Ce mémoire explique les différentes tâches accomplies durant mon stage de fin d'étude. Celui-ci s'inscrit dans un projet qui concerne la communication patient/médecin. Nous avons utilisé des corpus médicaux écrits monolingues simples, rédigés par des spécialistes, afin d'extraire différents types de reformulations : abréviations et leur signification, reformulations avec marqueurs (c'est-à-dire, autrement dit, encore appelé), reformulations avec parenthèses. Les extractions ont été alignés avec des terminologies médicales, afin de garder uniquement celles évoquant un concept médical. L'exploitation de ces reformulations permettra d'enrichir un lexique de vocabulaire profane et son équivalent en vocabulaire médical, afin d'aider les patients à mieux comprendre les informations médicales.

Télécharger le mémoire

Filtrage sémantique et visualisation de données textuelles

Année : 2015

Mots clés : détection de thème, visualisation thématique, entités nommées, recherche d’information, visualisation de données

Résumé : Ce travail porte sur la question de la visualisation thématique en recherche d’informations. Dans un contexte de plus en plus prégnant de circulation d’informations et face à d’importants flux de données il convient de synthétiser l’information. A plus forte raison garantir un accès rapide et pertinent à l’information peut devenir délicat lorsque c’est un utilisateur qui définit le thème recherché. Nous proposons une approche par croisement de thèmes "simples" pour définir une thématique "complexe". Nous abordons ensuite un système d’enrichissement thématique basé sur des coefficients de similarité. Enfin nous traitons de la visualisation de données en nous appuyant sur les entités nommées contenues dans la thématique détectée . On considérera ici qu’un utilisateur peut obtenir une réponse à une information recherchée grâce à la synthèse visuelle d’entités nommées issues de la détection de thème.

Télécharger le mémoire

L’analyse textuelle de corpus de discours écologiques relatifs au smog épais en Chine au moyen d’outils informatiques de text mining

Année : 2015

Mots clés : détection de thème, visualisation thématique, entités nommées, recherche d’information, visualisation de données

Résumé : La dégradation de l’environnement surtout celle atmosphérique, qui résulte du développement industriel rapide de Chine, suscite l’attention générale de la société chinoise. Du fait que cette pollution de l’air est au détriment de tous les côtés de la vie quotidienne, et qu’elle affecte une zone très étendue en Chine, toute la société y prête leur attention, du milieu gouvernemental au peuple chinois. Dès lors, l’expression «雾wù霾 maí»(le brouillard de pollution) est devenu un mot-clé qui apparaît fréquemment sur les sites web de types divers. On discute de l’origine du smog épais en Chine à ses nocivités de cet air polluant sur la santé humaine et sur différents aspects de la vie courante. Ayant pour objectif de comparer et d’extraire les attitudes et les réactions différentes du gouvernement chinois et du grand public, à l’aide des outils informatiques, notre recherche vise à recueillir d’abord en grande quantité les textes publiés sur deux types de sites web chinois [1]: institutionnel et médiatique, puis catégoriser les textes en fonction de leur nature [2] et subdiviser ces textes encore à l’intérieur de chaque catégorie : les sous-type selon les rubriques que les textes subordonnent. Dans un second temps, à partir du corpus classé et basé sur le wù maí comme mot-clé, on analyse et compare entre les sous-corpus et entre les sous-types homogènes, les deux types de discours au niveau de la fréquence, de la cooccurrence et de la concordance du mot-clé. Quant à la conclusion, les caractéristiques manifestées par les trois sous-corpus montrent les différences des attitudes et des réactions du milieu gouvernemental et du grand public en Chine : le gouvernement met l’accent sur ses actions et mesures prises sur le problème wù maí, alors que le peuple chinois s’intéresse plutôt « D’où vient le smog épais ? » « Quelles sont les nocivités liées au smog épais dans la vie courante ? » « Comment se protéger contre le brouillard quotidiennement ? ».

Télécharger le mémoire