Mémoires 2017-2018

’Infant Directed Speech’ serait-il la clé d’une meilleure segmentation ?

Auteur : Yousef Abusalha

Année : 2018

Mots clés : segmentation, modèles non-supervisé, phonotactiques, aquisition du langage, syntaxe, statistique

Résumé : Bien que de nombreux modèles computationnels aient été créés pour explorer la manière dont les enfants pourraient apprendre à segmenter un discours continu en mots, l’accent a été principalement mis sur l’amélioration des performances et l’exploration des indices suggérés par des expériences d’apprentissage artificiel. Ce mémoire explore le rôle d’un registre spécialisé de la parole ’Infant Directed Speech : discours adressé aux enfant IDS’ dans la tâche de segmentation en mots. Étant donné que ce registre est censé jouer un rôle important dans l’acquisition pré- coce du langage, nous visons à évaluer sa contribution à cette tâche. Nous étudions un corpus français authentique qui contient un registre IDS et ADS (Adult Direc- ted Speech : Discours adressé aux adultes) et appliquons sept modèles différents de segmentation en mots.

Response Generation in a Dialogue System: Bouncing Back with Word Embeddings

Auteur : Noor Alkhadhar

Année : 2018

Mots clés : agent conversationnel, plongements lexicaux, génération automatique de texte, sémantique lexicale et textuelle, apprentissage automatique

Résumé : Nous nous proposons de réaliser un système de dialogue expérimental robuste doté d'un mécanisme de génération de réponses sans règles linguistiques prédéfinies ni base de connaissances associée. Pour cela, nous nous inspirons d’études mettant en évidence la capacité des plongements lexicaux à encoder des propriétés morphologiques et sémantiques dans la composition de leurs vecteurs (Mikolov et al., 2013 ; Gladkova et al., 2016 ; Drozd et al., 2016 ; Finley et al., 2017). Notre hypothèse est qu’il est possible de générer une réponse sémantiquement pertinente à partir de l'énoncé précédant dans un dialogue. Les plongements lexicaux peuvent alors être considérés comme une modélisation de l'expérience sémantique du chatbot. Aussi avons-nous réalisé un système qui, lorsqu'il reçoit un input humain, analyse la phrase et en extrait les éléments pertinents. Ils sont utilisés pour extraire des plongements lexicaux des unités lexicales sémantiquement liées. Puis, un générateur de phrase prend le relais en prenant deux paramètres : la longueur maximale de la phrase et le mot du début, qui correspond à un des mots extraits des plongements lexicaux. Il en résulte un chatbot poétique, aux réponses parfois surréalistes, qui a toujours son mot à dire.

Télécharger le mémoire

Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées

Auteur : Sotiria Bampatzani

Année : 2018

Mots clés : reconnaissance des entités nommées, règles d’annotation, apprentissage automatique, réseau de neurones récurrents, lstm

Résumé : La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.

Développement d’un chatbot pour la relation client en domaine de spécialité

Auteur : Abdenour Bareche

Année : 2018

Mots clés : chatbot, système de dialogue, dialogflow, nodejs, extraction de termes

Résumé : La création d’un système de dialogue prend en compte en premier lieu le domaine d’application. Il existe des systèmes qui sont conçus pour traiter un domaine ouvert (généraliste), d’autres pour traiter un domaine fermé (spécialisé). Nous trouvons plusieurs termes qui représentent les systèmes de dialogue, parmi eux, l’agent conversationnel, l’assistant intelligent ou le chatbot. Le point commun entre ces termes est l’interaction entre l’homme et la machine en langage naturel. Nous présentons dans ce mémoire la méthode que nous avons mis en place pour créer le prototype d’une application de chatbot à domaine fermé pour l’entreprise Yves-Rocher. Le rôle de ce chatbot est d’aider les clients à chercher des soins et des produits cosmétiques. Nous avons utilisé la plateforme Dialogflow de Google pour créer notre agent qui gère les conversations. Nous avons créé une application en nodejs qui gère la recherche des produits. Cependant, la base de données des produits que nous avons utilisée pour implémenter notre agent, ne contient pas de synonymes ou de variations de termes pour chaque produit. Pour cela, nous avons créé une méthode pour simplifier et générer des termes pour chaque produit afin d’enrichir notre base de données.

Traduire des adverbiaux de localisation temporelle français en langue des signes française

Auteur : Sandra Bellato

Année : 2018

Mots clés : temporalité; adverbiaux de localisation temporelle; langue des signes française; traduire

Résumé : La LSF est une langue encore très peu outillée, en particulier dans le domaine de la traduction automatique. Dans ce mémoire, il est question d'essayer de trouver des règles pouvant permettre de traduire automatiquement des adverbiaux de localisation temporelle du français vers la langue des signes française en partant d'un corpus composé de 40 brèves journalistiques en français traduit ensuite par trois signeurs natifs. Les adverbiaux de localisation temporelle du corpus, ainsi que leurs traductions, seront ensuite formalisés à l'aide de deux formalisme (un formalisme pour les adverbiaux de localisation temporelle en français et un formalisme pour la langue des signes française) afin de pouvoir être comparés et de trouver des règles de traduction automatique.

Télécharger le mémoire

Analyse sémantique des commentaires et conversations des clients d'Orange Bank

Auteur : Audrey Cornu

Année : 2018

Mots clés : classification de texte, analyse de sentiments, approche symbolique, annotation

Résumé : L’analyse des produits et services mis sur le marché est déterminante pour une entreprise. Les demandes clients, les retours d’enquêtes de satisfaction ou bien les requêtes faites pour une souscription sont des données internes qui demandent un traitement rapide et une analyse fine pour s’adresser au service adéquat. De même, les réseaux sociaux donnent un grand nombre de données utiles à l’image de l’entreprise. La classification de texte permet de gérer ces flux d’informations en les catégorisant à l’aide de modèles d’apprentissage automatique: le Support Vector Machine et le MultiLayer Perceptron. Ces travaux portent, dans un premier temps, sur la catégorisation des données en classes liées au domaine bancaire et les résultats des modèles expérimentés. Dans un second temps, les performances d’une autre forme de classification, l’analyse de sentiments, sont évaluées afin de mettre en avant le meilleur modèle à utiliser pour ces données.

Extraction de termes complexes à partir de bases de connaissances

Auteur : Andréa De Sousa

Année : 2018

Mots clés : extraction terminologique, termes complexes, bases de connaissances, crf, patrons morphosyntaxiques, grammaires locales

Résumé : L'acquisition, à partir de larges collections de textes, d'unités lexicales multi-mots pertinentes du point de vue de la terminologie est un enjeu fondamental dans le contexte de la recherche d’information. En effet, leur identification conduit à une amélioration du processus d’indexation de documents, et permet de guider l'utilisateur dans sa quête d'information. Notre travail propose ainsi deux méthodes d'extraction de ces unités, aussi appelées termes complexes. La première se base sur un modèle CRF supervisé pour l'étiquetage de données séquentielles. Notre seconde méthode exploite la puissance des patrons morphosyntaxiques et des grammaires locales.

Correction orthographique de corpus bruités pour l'amélioration d'un agent conversationnel dans le domaine bancaire

Auteur : Morgane Dehareng

Année : 2018

Mots clés : agent conversationnel, ibm watson assistant, correction orthographique, hunspell, word embeddings

Résumé : Ce mémoire porte sur l'étude de l'impact de la correction orthographique sur le taux de compréhension d'un agent conversationnel à domaine fermé en milieu bancaire. L'objectif de ce travail est de développer une solution capable de corriger les erreurs d'orthographe des conversations clients avant que celles-ci ne soient traitées par l'agent conversationnel. Nous avons utilisé le logiciel Hunspell pour générer des candidats à la correction. Dans un premier temps, nous avons centré notre approche sur la correction mot par mot. Par la suite, nous avons utilisé les contextes et les plongements lexicaux afin de sélectionner le meilleur candidat. Enfin, une analyse des résultats obtenus permet de conclure à une amélioration de la compréhension de l'agent conversationnel.

Variations Phonétiques des Accents de la Langue Italienne

Auteur : Giovanna Favia

Année : 2018

Mots clés : variation phonétique, accents, langue italienne, grand corpus, classification automatique, système consonantique, système vocalique

Résumé : Ce mémoire de recherche vise à analyser les variations phonétiques des accents de l’italien contemporain, divisés en trois grandes zones (Nord, Centre et Sud) au sein d’un grand corpus de parole continue et semi-spontanée de journaux radiodiffusés. Les analyses acoustiques étant fondées sur la durée des phonèmes consonantiques d’une part et sur les valeurs des formants des voyelles de l’autre. Pour ce qui concerne la durée des phonèmes consonantiques, l’attention est posée sur les phénomènes de renforcement phono syntaxique et redoublement intervocalique qui se produisent sur toute classe de consonne, à l’exception des fricatives, chez les locuteurs des trois zones considérées. Pour les phonèmes vocaliques, une analyse des triangles vocaliques est menée d’abord, suivie d’une classification automatique des accents des locuteurs. Une dernière étude portera l’attention sur l’importance du genre du locuteur dans un contexte de détection automatique de l’origine.

Télécharger le mémoire

Création de ressources linguistiques multilingues ACG pour la génération de rapports

Auteur : Agathe Helman

Année : 2018

Mots clés : génération automatique de textes, ontologie, grammaires catégorielles abstraites, tag, multilingue

Résumé : Yseop est une entreprise française spécialisée dans l’Intelligence Artificielle et la Génération Automatique de Textes en Langage Naturel. Présente en France (Paris, Lyon), en Angleterre, aux États-Unis, ainsi qu’en Colombie, l’entreprise commercialise un logiciel de génération automatique de textes, permettant de créer différents types de documents, comme des rapports d’activités, des FAQ intelligentes... Ce mémoire porte sur les travaux effectués lors de mon stage chez Yseop, dans le cadre d’un nouveau projet visant à créer un système de génération automatique de textes standardisé, flexible et facilement réutilisable. Les travaux et recherches effectués porteront principalement sur la création de ressources linguistiques multilingues dans le formalisme des Grammaires Catégorielles Abstraites (ACG). Le projet portant notamment la génération de rapports, la partie sémantique de la bibliothèque créée sera organisée sous forme d’une ontologie comprenant les principaux concepts relatifs à ce domaine.

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue

Auteur : Karolina Krygier

Année : 2018

Mots clés : acquisition de connaissances, extraction terminologique, variation terminologique, méthode hybride, patrons morphosyntaxiques, distance de levenshtein, corpus multilingue

Résumé : L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.

Télécharger le mémoire

Anonymisation des adresses postales dans des documents non-structurés : comparaison des méthodes symboliques et statistiques

Auteur : Chloé Lecointe

Année : 2018

Mots clés : anonymisation, reconnaissance d'entité nommée, apprentissage automatique, transducteurs, adresse physique

Résumé : Le règlement général sur la protection des données est applicable dans l'ensemble des États membres de l'Union européenne depuis le 25 mai 2018. Le principal objectif de ce règlement est d'accroître la protection des personnes concernées par un traitement de leurs données à caractère personnel. Afin de les protéger, il convient donc d'anonymiser toutes données sensibles. La tâche d'anonymisation, qui est souvent liée à la tâche de reconnaissance des entités nommées, est le fil conducteur de ce mémoire. Notre travail se concentre essentiellement sur la comparaison de deux méthodes, une méthode symbolique et une méthode statistique, pour améliorer l'anonymisation des adresses physiques dans des courriels rédigés en anglais.

Télécharger le mémoire

Pertinence de deux types d'analyse syntaxique dans le cadre d'un outil didactique d'aide à la lecture pour les apprenants serbes de FLE

Auteur : Neda Lestarevic

Année : 2018

Mots clés : aide à la lecture, langue seconde, fle, traitement automatique des langues, analyse syntaxique automatique, dépendances

Résumé : Dans cette étude nous cherchons à comparer l’apport didactique de deux analyseurs syntaxiques du français : TALISMANE, qui suit la norme d’annotation du French Treebank adaptée à la syntaxe du français et le Stanford Parser intégrant les dépendances universelles – une forme d’annotation universelle applicable à des langues éventuellement distantes syntaxiquement. L’enjeu consiste à découvrir quel type d’annotation est meilleur du point de vue de l’apprenant de FLE : celui proche de la langue cible ou celui, plus universel, se rapprochant potentiellement de sa langue maternelle ? Nous avons décidé d’évaluer cet apport didactique avec des locuteurs d’une langue syntaxiquement éloignée du français : une langue slave, le serbe, dont l’ordre des mots est libre et les cas expriment les fonctions syntaxiques. Nous avons choisi un groupe de 11 apprenants de FLE de langue maternelle serbe. Chaque apprenant a lu, via un dispositif d'aide à la lecture appelé Déjà Lu, un jeu de textes adaptés à son niveau : textes sans aucune analyse syntaxique, juste annotés en parties du discours; textes analysés par Talismane; textes analysés par Stanford Parser. Il a répondu ensuite à un questionnaire portant sur sa compréhension des textes et ses préférences vis-à-vis des trois types d’annotation proposés. Les résultats nous ont permis d'estimer : l’utilité d’un analyseur syntaxique intégré à notre dispositif d’aide à la lecture ; le type d’analyse le mieux adapté pour des apprenants slaves de FLE.

Télécharger le mémoire

Implementation of a new language into a rule-based Spoken Dialogue System

Auteur : Jielei Li

Année : 2018

Mots clés : dialogue vocal, chatbot, localisation, traduction automatique, portabilité linguistique

Résumé : Le but de cette étude est de fournir une solution pour implémenter une nouvelle langue dans un système de dialogue vocal basé sur des règles. Notre approche repose sur l’hypothèse selon laquelle la traduction automatique peut aider à résoudre le problème de la portabilité vers une nouvelle langue. Nous procédons à la traduction automatique du système de dialogue de l’anglais vers le mandarin et évaluons ses performances. Les résultats indiquent que cette approche est efficace pour concevoir un système de dialogue multilingue.

Télécharger le mémoire

Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique

Auteur : Arthur Provenier

Année : 2018

Mots clés : lisibilité, coréen langue étrangère, classification, apprentissage automatique, variable lexicale, variable syntaxique

Résumé : Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.

Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine

Auteur : Xi Rong

Année : 2018

Mots clés : classification multi-classe des textes, apprentissage supervisé, système de classification, classification automatique, open source, mesure d’évaluation, validation croisée, leo-score

Résumé : Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.

Télécharger le mémoire

Comparaison entre la méthode symbolique et la méthode par apprentissage dans l'efficacité de la détection thématique d'articles de presse

Auteur : Nicolas Scarcella

Année : 2018

Mots clés : machine learning, clusterisation, classification, etiquetage, ngrams, matching

Résumé : Ce mémoire porte sur l’étude de la détection thématique d’articles de presse pour une recherche sur la néologie. L’objet du travail réside dans la confrontation de la méthode symbolique, appuyée sur des listes et un vocabulaire contrôlé, avec la méthode d’apprentissage automatique, basée sur des algorithmes et calculs mathématiques. Ces deux procédures offrent l’analyse binaire visant à doter la machine d’une intelligence artificielle capable de détecter correctement les sujets abordés dans un texte dans le but de localiser les contextes qui aideront, dans un projet de détection de néologismes, à s’approcher de leur sens sémantique. Dans un premier temps, le travail consiste en une réflexion sur le moteur de détection déjà existant puis, dans un second temps, en l’exploration de nouvelles techniques permettant d’optimiser la détection thématique.

Télécharger le mémoire

Un prototype de FAQ interactive sous forme de chatbot basé sur des méthodes symboliques et de similarité textuelle

Auteur : Guanhua Wang

Année : 2018

Mots clés : faq interactif, chatbot, question-réponse, similarité textuelle, méthode symbolique

Résumé : Notre étude consiste à concevoir un prototype du chatbot FAQ interactif basé aux états-des-arts des agents conversationnels. Par rapport au FAQ inflexible, notre FAQ interactive a intégré le concept de la conversation humaine, et est plus conviviale que les chatbots traditionnels du type domaine fermé. Nous avons aussi comparé des méthodes différentes pour la correspondance de questions, y compris la méthode « rule-based » et les méthodes de similarité textuelle. Les résultats ont montré que, pour notre corpus limité mais homogène, la meilleure méthode est celle de la similarité Jaccard.

Intégration de l’Universal Sentence Encoder dans la catégorisation multi-étiquettes des verbatims de sondage

Auteur : Mingqiang Wang

Année : 2018

Mots clés : universal sentence encoder, classification multi-étiquettes, classification ascendante hiérarchique (cah)

Résumé : La classification de textes fait l’objet de recherches depuis de nombreuses années, avec le développement de la technologie et la conjoncture actuelle du marketing, les entreprises cherchent à découvrir plus de valeurs cachées dans les textes afin de mieux comprendre les options et les besoins de leurs clients et de prendre les meilleures décisions d’affaires. Elles attendent plus qu’une simple détection d’opinion positive ou négative mais des appréciations détaillées, comme la préférence pour les produits, la fidélité à la marque, les différences par rapport à d’autres entreprises. Pour réaliser ce travail, nous avons essayé d’intégrer une technique émergente « Universal Sentence Encoder » dans notre processus de classification. Sous l’hypothèse que chaque sous-segmentation de phrases soit associée à un thème, nous avons segmenté nos textes en plusieurs sous-segmentations pour transformer le problème de classification multi-étiquettes en classification binaire. A travers nos expérimentations, nous cherchons à regrouper nos textes de façon non supervisée avec la méthode de Classification Ascendante Hiérarchique, qui nous permet non seulement d’éviter l’annotation de corpus, mais aussi de découvrir de nouvelles classes pour nos textes. Nous avons essayé plusieurs paramètres de CAH, et différentes techniques d’extractions de caractéristiques ont été comparées. Selon les résultats expérimentaux, segmenter des phrases en mots et choisir 120 clusters, qui nous permettent d’obtenir notre meilleure F-mesure 62,77% nous donnent la meilleure performance.

Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés

Auteur : Yunbei Zhang

Année : 2018

Mots clés : adaptation des domaines, traduction automatique neuronale, méthode hybride, classification multi-classe, ngramme, naïve bayes, perplexité, valeur pondérée, traduction synthétique, f-mesure, bleu

Résumé : La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l'algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.

Télécharger le mémoire