Mémoires 2013-2014

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Année : 2014

Mots clés : traduction automatique, rbmt, ariane, héloïse, robra, grammaires statiques, gscs, stcg, sstc, geta, getalp, inalco, langues peu dotées, grammaires d'unification, langage de spécification, xml, bidirectional correspondence grammar (bcg)

Résumé : Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles. L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.

Télécharger le mémoire

Collecte et analyse exploratoire de données issues de Twitter sur le thème de la mobilité

Année : 2014

Mots clés : Twitter, mobilité, textométrie, analyse qualitative, transports

Résumé : L'étude des pratiques de mobilité des voyageurs se fait majoritairement au travers d'enquêtes ou de données quantitatives. Or, les utilisateurs des réseaux sociaux, et notamment de Twitter, sont prompts à partager sur le web leurs habitudes de déplacement et leurs itinéraires ponctuels ou quotidiens. Quels types d'informations peut-on repérer sur Twitter afin de mieux connaître la mobilité, d'un point de vue à la fois géographique et socio-économique ? Ce mémoire, réalisé dans le cadre d'un stage à la Direction de l'Innovation et de la Recherche de la SNCF, présente une stratégie de collecte de tweets en rapport avec la mobilité, ainsi que des analyses thématiques sur le corpus obtenu qui montrent le potentiel de ces données. Ces analyses ont également servi de base pour établir une typologie des tweets "Expérience Voyageur" qui nous permet d'organiser les différents types d'informations que partagent les utilisateurs à travers leurs messages ; à partir de cette typologie, nous avons pu amorcer un travail de classification automatique des tweets. A terme, ce projet pourra être couplé à d'autres travaux d'analyse de données hétérogènes afin de produire de nouveaux indicateurs de l'évolution des pratiques de mobilité.

Télécharger le mémoire

La pertinence des termes filtrants

Année : 2014

Mots clés : base de connaissance, classement automatique, moteur de recherche sémantique, gestion des connaissances, mémoire d'entreprise

Résumé : Lors d'un stage au CNES sur l'enrichissement d'une base de connaissance à partir de textes, j'ai eu l'occasion de travailler sur toutes les étapes de la gestion de connaissances. En étudiant deux domaines "Ballon, Nacelles pointées" et "Radar" j'ai été amené à travailler sur la création de corpus, leurs nettoyages pré-traitement, le découpage taxinomique des domaines lors d'interviews et avec le logiciel Alsceste. J'ai été amené à proposer des solutions pour la réduction de sorties Talismane mal-formées. J'ai effectué des études contrastives avec les concordanciers AntConc et Lexico3. J'ai également travaillé sur les techniques de présentation des listes à l'expert en vue de la validation de la qualité de nos extractions. Ce tour d'horizon des différentes étapes de la gestion des connaissances m'a permis de proposer diverses solutions méthodologiques à plusieurs niveaux et notamment lors du classement automatique des documents au niveau des termes filtrants.

Télécharger le mémoire

Traduire la parole émotionnelle. Étude contrastive de l'arabe et du français

Année : 2014

Mots clés : traduction, lexique, parole émotionnelle, locutions, procédés de traduction.

Résumé : Ce travail s’inscrit dans le cadre d’une étude contrastive entre les locutions et collocations exprimant les sentiments dans un contexte bilingue arabe et français et leur traduction dans les deux langues. Il s’agit une analyse descriptive du lexique des sentiments dans la langue française et une tentative de transposition de la parole émotionnelle en arabe tout en prenant en considération les spécificités inhérentes à chaque langue, avec ses convergences et ses divergences.

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Année : 2014

Mots clés : traduction automatique, langues peu dotées, segmentation, méthodologie, khmer

Résumé : Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

Télécharger le mémoire

Études contextuelles des émissions avant les publicités de la télé (DRTV) pour augmenter la performance des plans d'achat

Année : 2014

Mots clés : campagne publicitaire, ecran publicitaire, spot télé, drtv, réseaux de neurones, perceptron, textométrie

Résumé : Au cours du projet de ce mémoire, nous allons étudier l’impact des écrans publicitaires sur le trafic des sites e-commerces. À ces écrans sont associés certains types d’information, comme les émissions avant et après le passage de l’écran publicitaire. Chacune de ces informations peut impacter la performance de ces écrans. Dans un premier temps, le but de ce mémoire est de présenter un modèle prédictif de la performance des écrans publicitaires par le biais des émissions, avant ou après le passage de ceux-ci. Dans un second temps, nous nous pencherons sur la description de ces émissions pour mettre l’accent sur l’analyse des mots utilisés. Enfin, nous verrons s’il existe un lien établi entre le contexte de l’émission et la réussite de ces écrans.

Télécharger le mémoire

La reconnaissance des entités nommées chinoises basée sur une combinaison de règles et de statistique

Année : 2014

Mots clés : reconnaissance des entités nommées, noms de personnes, unitex, étiquettes grammaticales, post-traitement statistique

Résumé : La réussite de la reconnaissance des entités nommées (REN) intéresse à la fois les chercheurs et les entreprises. À partir d'un état de l’art, ce mémoire utilise les principes de différentes approches en combinant les règles, les dictionnaires et aussi la statistique pour reconnaître les entités nommées de personnes dans un corpus chinois. L’objectif du mémoire est de trouver une meilleure approche face à toutes les difficultés particulières du chinois. Dans la première phase Le travail consiste à utiliser l’outil Unitex, à construire les graphes et les dictionnaires et dans la deuxième phase à ajouter un post-traitement statistique. À travers des expérimentations variées et des analyses apportées sur les doubles sous-catégories de personne, le meilleur résultat est obtenu par une approche hybride avec F-mesure de 0.769.

Télécharger le mémoire

La segmentation pour la recherche d'information et/ou l'extraction d'information en langue chinoise avec l'outil Mecab

Année : 2014

Mots clés : traitement automatique de la langue chinoise, mecab, segmentation, recherche d’information

Résumé : La segmentation reste toujours un défi pour le traitement automatique du chinois. Cette tâche est également le point de départ d' autres traitements sophistiqués. Dans cette recherche, nous aborderons la question de la meilleure segmentation à l’aide de modèles divers. Ensuite, nous utiliserons ce modèle de la meilleure segmentation pour entraîner le Sinequa ES (moteur de recherche). Puis, nous évaluerons la pertinence de la recherche d’information. Enfin, nous effectuerons une comparaison de ce résultat avec la pertinence de la recherche d’information basée sur un modèle précédent.

Télécharger le mémoire

L’intégration du thésaurus dans le traitement de la catégorisation automatique

Année : 2014

Mots clés : machine learning, clustering, catégorisation automatique, thésaurus

Résumé : Ce mémoire étudie le projet « catégorisation automatique » sur la plateforme LEOnard du département Etudes économiques de BNP Paribas. Ainsi il étudie le schéma du site LEOnard afin de comprendre les caractéristiques du corpus à catégoriser et afin de trouver la meilleure stratégie. Cependant, la richesse et la variété d’information rendent la catégorisation automatique plus complexe. Après avoir examiné l’approche de l’apprentissage automatique, nous nous rendons compte que cette approche n’est plus suffisante. Nous avons introduit le thésaurus dans la chaîne de traitement afin d’affiner l’extraction de termes dans le corpus. En calculant le score de termes dans le thésaurus, nous avons réussi à obtenir un résultat très satisfaisant.

Télécharger le mémoire

Définition d'un modèle d'émotions pour la catégorisation de textes narratifs courts

Année : 2014

Mots clés : emotions, textes littéraires, édition numérique, textométrie, modèle émotionnel, processus d'annotation

Résumé : Les plates-formes communautaires relatives à l'industrie culturelle sont aujourd'hui largement répandues. Si les plus connues d'entre elles concernent la musique ou les vidéos, certaines innovent et cherchent à exploiter le domaine de la littérature. Ainsi, Short Edition se présente comme l'éditeur communautaire de la littérature courte. Bien que le domaine soit novateur et les acteurs présents peu nombreux, la concurrence est déjà forte et la course à l'innovation fait rage. Dans ce contexte, Short Edition cherche à explorer de nouvelles voies, comme celle qui nous intéresse : la classification automatique des textes du site selon les émotions. Afin d'atteindre cet objectif, il est nécessaire de mettre en place un processus d'annotation manuelle des textes d'après un modèle original et encadré par des directives spécialement conçues. Les enjeux et les contraintes de ce projet sont multiples et complexes : projet novateur ne pouvant donc pas s'appuyer entièrement sur des travaux antérieurs, recours à des annotateurs bénévoles ayant pour effet de limiter les possibilités d'action, pluridisciplinarité de la problématique. Ce mémoire présente le travail réalisé dans le cadre de ce projet. Après avoir réalisé un état de l'art, nous présentons Short Edition et les données d'étude. Nous définissons ensuite un nouveau modèle et ses paramètres, ainsi que les documents et interfaces nécessaires au processus d'annotation. Enfin, nous procédons à la validation du modèle construit par une étude textométrique.

Télécharger le mémoire

Étude des forums de santé pour la détection d’événements secondaires

Année : 2014

Mots clés : extraction d’information, champs aléatoires conditionnels (crf), forums de santé, pharmacovigilance, événements secondaires

Résumé : De nombreux travaux sur l’état de l’art biomédical ont porté sur la détection d’événements secondaires à partir des rapports médicaux ou des réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce mémoire consiste à construire, en s’appuyant sur certains de ces travaux, un système à base d’apprentissage statistique pour l’extraction des événements secondaires à partir des messages déposés par les patients sur les forums de santé. La méthode implémentée à cet égard repose sur deux grandes étapes, la première est consacrée à l’annotation d’une sous-partie du corpus choisie aléatoirement pour constituer une référence. Cette annotation est en effet effectuée selon un guide élaboré et une grammaire d’annotation définie. Elle comporte deux phases, une sans pré-annotation et une autre avec pré-annotation automatique, et est suivie d’une phase d’adjudication puis d’évaluation. La deuxième étape de la méthode mise en oeuvre est dédiée à la création d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont choisies selon leurs pertinences par rapport au corpus étudié et conformément aux types d’entités qui se rapportent aux catégories traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs hypothèses de travail et tester la validité de la méthode adoptée. Les résultats de ces expériences varient selon la taille du corpus, la qualité des annotations de la référence ainsi que le sujet du forum traité. Les meilleurs résultats sont obtenus par un modèle global appris sur les deux forums étudiés (51.6 de F-mesure pour le corpus antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).

Télécharger le mémoire

La détection des prédicats complexes hindi dans le cadre d’un outil d’aide à la lecture

Année : 2014

Mots clés : prédicats complexes, hindi, alao, aide à la lecture, elearning, dejalu

Résumé : L’apprentissage des Langues Assisté par Ordinateur est en plein essor, la mise au point de programme à ce propos nécessite en amont l’analyse et la résolution de problèmes, l’intégration de paramètres propres à chaque langue. Le traitement automatique du hindi et l’Apprentissage des Langues Assisté par Ordinateur sont les deux principaux domaines d’études abordés dans ce mémoire. Celui-ci est composé de plusieurs parties, exploration des outils d’aide à la lecture existants, description détaillée du système verbal hindi, proposition d’une méthode permettant d’intégrer la détection des prédicats complexes hindi dans un dispositif d’aide à la lecture, ce en vue de les annoter et de les mettre en valeur. Un état de l’art sur la détection des prédicats complexes hindi, jouant un rôle clé dans cette étude, est également présent.

Télécharger le mémoire

Evolution et visualisation des émotions dans les forums de santé

Année : 2014

Mots clés : traitement automatique de la langue, forum de santé, émotions, évolution, visualisation

Résumé : Les forums médicaux permettent aux patients d'exprimer leurs ressentis par rapport à leur maladie ou leur traitement, et sont souvent teintés d'émotions. De ce fait, ils constituent une source précieuse d'informations pour les professionnels de la santé car offrent des indications sur la vie et le comportement des patients. Les discussions sur les forums sont souvent nuancées par la présence de marqueurs linguistiques comme des modifieurs d'intensité, des indicateurs d'incertitude ou encore la présence de négation. Grâce à des traitements automatiques dédiés à ces caractéristiques sémantiques, nous proposons différentes visualisations des émotions et des incertitudes afin d'en étudier leur évolution dans les interactions entre patients/professionnels et patients/patients.

Télécharger le mémoire