Mémoires 2015-2016

Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues

Année : 2016

Mots clés : alignement des corpus, extraction d’information, corpus comparables, frise narrative, dynamic time warping, game of thrones

Résumé : Le but de cette étude est de créer une représentation visuelle, sous la forme de frise narrative, des épisodes de la première saison de Game of Thrones (Le trône de fer). Ce type de représentation permet de clarifier les interactions entre les personnages et la chronologie des événements dans une fiction au récit particulièrement complexe. Pour réaliser cette tâche, nous utilisons différentes méthodes d’alignement et d’extraction sur des corpus comparables liés à Game of Thrones. Au fur et à mesure, nous retenons les résultats les plus pertinents pour améliorer notre frise. La frise finale contient les personnages alignés par scènes (qu’ils aient des dialogues ou non), les informations de lieu pour les situer, et des listes de termes caractéristiques qui décrivent les personnages et concepts clé de chaque épisode. .

Télécharger le mémoire

Étude sur l’apport de la sélection des caractéristiques dans la classification multi-classe des textes

Année : 2016

Mots clés : classification multi-classe des textes, sélection de caractéristiques, apprentissage supervisé, validation croisée, régularisation

Résumé : Ce travail porte sur l’étude de l’apport de la sélection de caractéristiques pour la classification multi-classe de textes. Quatre méthodes de sélection ont été comparées : la spécificité lexicale, le TF-IDF, l’information mutuelle, et la différence proportionnelle catégorique. Pour éviter l’effet du sur-apprentissage, la sélection des caractéristiques a été intégrée à la validation croisée pour chaque sous-échantillon d’apprentissage. L’évaluation est réalisée principalement par un algorithme Bayésien Naïf Multinomial, et des tests sur les Machines à Vecteurs de Support ont été menés pour étudier l’effet de la régularisation. Selon des résultats expérimentaux, la spécificité lexicale, qui a obtenu une micro-moyenne F-mesure de 72.14% avec une réduction de 57% de caractéristiques, est la méthode la plus performante. .

Télécharger le mémoire

Extraction de citations dans le domaine de la presse avec la résolution d’anaphores

Année : 2016

Mots clés : extraction d’informations, fouille de texte, citations, anaphores, presse

Résumé : L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.

Télécharger le mémoire

Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète

Année : 2016

Mots clés : comparaison, segmentation, chinois, mandarin, forum, diabète, hoix outil de tal, démarche pragmatique

Résumé : Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L'intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d'un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L'analyse de quelques exemples linguistiquement représentatifs montre qu'aucun des outils de segmentation n'est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d'un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.

Télécharger le mémoire

Création semi-automatique d'un thésaurus du domaine bancaire et application à la fouille d'opinion

Année : 2016

Mots clés : opinion mining, fouille d’opinion, thésaurus, banque, polarité, relations

Résumé : La fouille d’opinion devient une approche de plus en plus intéressante pour les entreprises qui souhaitent évaluer la qualité de leurs produits auprès de leurs clients. Notre travail consiste à évaluer des relations, c’est-à-dire des opinions émises précisément sur des objets appelés cibles. Nous créons un thésaurus sur le domaine bancaire afin d’avoir des cibles prédéfinies. Nous nous basons sur un corpus composé d’avis clients récupérés sur internet. Nous abordons deux approches, une à base d’un module d’extraction déjà existant et une autre à base de règles que nous allons développer nous-mêmes. Nous ne pouvons présenter de résultats pour l’approche à base de règles pour cause d’incompatibilité des sorties des différents outils. Nous obtenons un rappel plus faible par rapport à l’état de l’art sur une problématique similaire avec l’approche utilisant le thésaurus. Mais nos résultats globaux sont supérieurs, avec une F-mesure de 70,1%.

Télécharger le mémoire

Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux

Année : 2016

Mots clés : translittération, langue arabe, arabizi, analyse des sentiments, distance de levenshtein, apprentissage automatique.

Résumé : Ce travail aborde le sujet de la translittération et la lemmatisation de la langue arabe pour l’analyse des sentiments des messages issues du web social. Nous avons développé un système de translittération à base de règles et contribué à l’amélioration du système de lemmatisation. Les règles morphologiques et grammaticales ont été implémentées sous forme d’une chaîne de traitement. Pour la translittération on s’est intéressé à l’arabizi, un arabe dialectal écrit en lettres latines, vers l’arabe en caractères standards. Pour pouvoir transcrire l’arabizi, on a besoin d’abord de l’identifier,ceci étant réalisé par un algorithme d’apprentissage automatique, à l’aide de l’outil Keras. La translittération et la lemmatisation sont des structures interconnectées qui sont exploitées pour le but final du projet, la détection des sentiments dans les documents issues de médias sociaux. L’approche de l’analyse des sentiments est réalisée par une méthode hybride reposant sur un lexique et de l’apprentissage automatique. La mesure d’évaluation des systèmes de translittération et de lemmatisation a été effectué avec la distance de Levenshtein. La performance du système est améliorée après chaque évaluation en définissant des règles plus précises et plus puissantes. Après toutes les expérimentations, nous avons atteint une de F-mesure de 75,23% pour la translitération, 93% pour la lemmatisation et 92% pour la détection des sentiments.

Télécharger le mémoire

Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique

Année : 2016

Mots clés : catégorisation de textes, fouille de texte, plan d’annotation, text mining, thésaurus, hiérarchie de concepts, ingénierie des connaissances

Résumé : Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).

Modèle de reconnaissance statistique pour le turc oral

Année : 2016

Mots clés : traitement de la parole, reconnaissance automatique de la parole, modèle de langage, recherche de l'information, turc, polonais

Résumé : Kristina est un agent social capable d'interagir avec les humains. Le système ASR a besoin de trois modèles: modèle de langage modèle acoustique et lexique de prononciation. Le but du travail est de collecter des données en ligne et de trouver les meilleures données pour KRISTINA. Nous utilisons deux façons différentes de comparaison: selection par perplexité et par recherche de l'information.