Mémoires 2017-2018
’Infant Directed Speech’ serait-il la clé d’une meilleure segmentation ?
Auteur : Yousef Abusalha
Année : 2018
Résumé : Bien que de nombreux modèles computationnels aient été créés pour explorer la manière dont les enfants pourraient apprendre à segmenter un discours continu en mots, l’accent a été principalement mis sur l’amélioration des performances et l’exploration des indices suggérés par des expériences d’apprentissage artificiel. Ce mémoire explore le rôle d’un registre spécialisé de la parole ’Infant Directed Speech : discours adressé aux enfant IDS’ dans la tâche de segmentation en mots. Étant donné que ce registre est censé jouer un rôle important dans l’acquisition pré- coce du langage, nous visons à évaluer sa contribution à cette tâche. Nous étudions un corpus français authentique qui contient un registre IDS et ADS (Adult Direc- ted Speech : Discours adressé aux adultes) et appliquons sept modèles différents de segmentation en mots.
Response Generation in a Dialogue System: Bouncing Back with Word Embeddings
Auteur : Noor Alkhadhar
Année : 2018
Résumé : Nous nous proposons de réaliser un système de dialogue expérimental robuste doté d'un mécanisme de génération de réponses sans règles linguistiques prédéfinies ni base de connaissances associée. Pour cela, nous nous inspirons d’études mettant en évidence la capacité des plongements lexicaux à encoder des propriétés morphologiques et sémantiques dans la composition de leurs vecteurs (Mikolov et al., 2013 ; Gladkova et al., 2016 ; Drozd et al., 2016 ; Finley et al., 2017). Notre hypothèse est qu’il est possible de générer une réponse sémantiquement pertinente à partir de l'énoncé précédant dans un dialogue. Les plongements lexicaux peuvent alors être considérés comme une modélisation de l'expérience sémantique du chatbot. Aussi avons-nous réalisé un système qui, lorsqu'il reçoit un input humain, analyse la phrase et en extrait les éléments pertinents. Ils sont utilisés pour extraire des plongements lexicaux des unités lexicales sémantiquement liées. Puis, un générateur de phrase prend le relais en prenant deux paramètres : la longueur maximale de la phrase et le mot du début, qui correspond à un des mots extraits des plongements lexicaux. Il en résulte un chatbot poétique, aux réponses parfois surréalistes, qui a toujours son mot à dire.
Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées
Auteur : Sotiria Bampatzani
Année : 2018
Résumé : La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.
Développement d’un chatbot pour la relation client en domaine de spécialité
Auteur : Abdenour Bareche
Année : 2018
Résumé : La création d’un système de dialogue prend en compte en premier lieu le domaine d’application. Il existe des systèmes qui sont conçus pour traiter un domaine ouvert (généraliste), d’autres pour traiter un domaine fermé (spécialisé). Nous trouvons plusieurs termes qui représentent les systèmes de dialogue, parmi eux, l’agent conversationnel, l’assistant intelligent ou le chatbot. Le point commun entre ces termes est l’interaction entre l’homme et la machine en langage naturel. Nous présentons dans ce mémoire la méthode que nous avons mis en place pour créer le prototype d’une application de chatbot à domaine fermé pour l’entreprise Yves-Rocher. Le rôle de ce chatbot est d’aider les clients à chercher des soins et des produits cosmétiques. Nous avons utilisé la plateforme Dialogflow de Google pour créer notre agent qui gère les conversations. Nous avons créé une application en nodejs qui gère la recherche des produits. Cependant, la base de données des produits que nous avons utilisée pour implémenter notre agent, ne contient pas de synonymes ou de variations de termes pour chaque produit. Pour cela, nous avons créé une méthode pour simplifier et générer des termes pour chaque produit afin d’enrichir notre base de données.
Traduire des adverbiaux de localisation temporelle français en langue des signes française
Auteur : Sandra Bellato
Année : 2018
Résumé : La LSF est une langue encore très peu outillée, en particulier dans le domaine de la traduction automatique. Dans ce mémoire, il est question d'essayer de trouver des règles pouvant permettre de traduire automatiquement des adverbiaux de localisation temporelle du français vers la langue des signes française en partant d'un corpus composé de 40 brèves journalistiques en français traduit ensuite par trois signeurs natifs. Les adverbiaux de localisation temporelle du corpus, ainsi que leurs traductions, seront ensuite formalisés à l'aide de deux formalisme (un formalisme pour les adverbiaux de localisation temporelle en français et un formalisme pour la langue des signes française) afin de pouvoir être comparés et de trouver des règles de traduction automatique.
Analyse sémantique des commentaires et conversations des clients d'Orange Bank
Auteur : Audrey Cornu
Année : 2018
Résumé : L’analyse des produits et services mis sur le marché est déterminante pour une entreprise. Les demandes clients, les retours d’enquêtes de satisfaction ou bien les requêtes faites pour une souscription sont des données internes qui demandent un traitement rapide et une analyse fine pour s’adresser au service adéquat. De même, les réseaux sociaux donnent un grand nombre de données utiles à l’image de l’entreprise. La classification de texte permet de gérer ces flux d’informations en les catégorisant à l’aide de modèles d’apprentissage automatique: le Support Vector Machine et le MultiLayer Perceptron. Ces travaux portent, dans un premier temps, sur la catégorisation des données en classes liées au domaine bancaire et les résultats des modèles expérimentés. Dans un second temps, les performances d’une autre forme de classification, l’analyse de sentiments, sont évaluées afin de mettre en avant le meilleur modèle à utiliser pour ces données.
Extraction de termes complexes à partir de bases de connaissances
Auteur : Andréa De Sousa
Année : 2018
Résumé : L'acquisition, à partir de larges collections de textes, d'unités lexicales multi-mots pertinentes du point de vue de la terminologie est un enjeu fondamental dans le contexte de la recherche d’information. En effet, leur identification conduit à une amélioration du processus d’indexation de documents, et permet de guider l'utilisateur dans sa quête d'information. Notre travail propose ainsi deux méthodes d'extraction de ces unités, aussi appelées termes complexes. La première se base sur un modèle CRF supervisé pour l'étiquetage de données séquentielles. Notre seconde méthode exploite la puissance des patrons morphosyntaxiques et des grammaires locales.
Correction orthographique de corpus bruités pour l'amélioration d'un agent conversationnel dans le domaine bancaire
Auteur : Morgane Dehareng
Année : 2018
Résumé : Ce mémoire porte sur l'étude de l'impact de la correction orthographique sur le taux de compréhension d'un agent conversationnel à domaine fermé en milieu bancaire. L'objectif de ce travail est de développer une solution capable de corriger les erreurs d'orthographe des conversations clients avant que celles-ci ne soient traitées par l'agent conversationnel. Nous avons utilisé le logiciel Hunspell pour générer des candidats à la correction. Dans un premier temps, nous avons centré notre approche sur la correction mot par mot. Par la suite, nous avons utilisé les contextes et les plongements lexicaux afin de sélectionner le meilleur candidat. Enfin, une analyse des résultats obtenus permet de conclure à une amélioration de la compréhension de l'agent conversationnel.
Variations Phonétiques des Accents de la Langue Italienne
Auteur : Giovanna Favia
Année : 2018
Résumé : Ce mémoire de recherche vise à analyser les variations phonétiques des accents de l’italien contemporain, divisés en trois grandes zones (Nord, Centre et Sud) au sein d’un grand corpus de parole continue et semi-spontanée de journaux radiodiffusés. Les analyses acoustiques étant fondées sur la durée des phonèmes consonantiques d’une part et sur les valeurs des formants des voyelles de l’autre. Pour ce qui concerne la durée des phonèmes consonantiques, l’attention est posée sur les phénomènes de renforcement phono syntaxique et redoublement intervocalique qui se produisent sur toute classe de consonne, à l’exception des fricatives, chez les locuteurs des trois zones considérées. Pour les phonèmes vocaliques, une analyse des triangles vocaliques est menée d’abord, suivie d’une classification automatique des accents des locuteurs. Une dernière étude portera l’attention sur l’importance du genre du locuteur dans un contexte de détection automatique de l’origine.
Création de ressources linguistiques multilingues ACG pour la génération de rapports
Auteur : Agathe Helman
Année : 2018
Résumé : Yseop est une entreprise française spécialisée dans l’Intelligence Artificielle et la Génération Automatique de Textes en Langage Naturel. Présente en France (Paris, Lyon), en Angleterre, aux États-Unis, ainsi qu’en Colombie, l’entreprise commercialise un logiciel de génération automatique de textes, permettant de créer différents types de documents, comme des rapports d’activités, des FAQ intelligentes... Ce mémoire porte sur les travaux effectués lors de mon stage chez Yseop, dans le cadre d’un nouveau projet visant à créer un système de génération automatique de textes standardisé, flexible et facilement réutilisable. Les travaux et recherches effectués porteront principalement sur la création de ressources linguistiques multilingues dans le formalisme des Grammaires Catégorielles Abstraites (ACG). Le projet portant notamment la génération de rapports, la partie sémantique de la bibliothèque créée sera organisée sous forme d’une ontologie comprenant les principaux concepts relatifs à ce domaine.
Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue
Auteur : Karolina Krygier
Année : 2018
Résumé : L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.
Anonymisation des adresses postales dans des documents non-structurés : comparaison des méthodes symboliques et statistiques
Auteur : Chloé Lecointe
Année : 2018
Résumé : Le règlement général sur la protection des données est applicable dans l'ensemble des États membres de l'Union européenne depuis le 25 mai 2018. Le principal objectif de ce règlement est d'accroître la protection des personnes concernées par un traitement de leurs données à caractère personnel. Afin de les protéger, il convient donc d'anonymiser toutes données sensibles. La tâche d'anonymisation, qui est souvent liée à la tâche de reconnaissance des entités nommées, est le fil conducteur de ce mémoire. Notre travail se concentre essentiellement sur la comparaison de deux méthodes, une méthode symbolique et une méthode statistique, pour améliorer l'anonymisation des adresses physiques dans des courriels rédigés en anglais.
Pertinence de deux types d'analyse syntaxique dans le cadre d'un outil didactique d'aide à la lecture pour les apprenants serbes de FLE
Auteur : Neda Lestarevic
Année : 2018
Résumé : Dans cette étude nous cherchons à comparer l’apport didactique de deux analyseurs syntaxiques du français : TALISMANE, qui suit la norme d’annotation du French Treebank adaptée à la syntaxe du français et le Stanford Parser intégrant les dépendances universelles – une forme d’annotation universelle applicable à des langues éventuellement distantes syntaxiquement. L’enjeu consiste à découvrir quel type d’annotation est meilleur du point de vue de l’apprenant de FLE : celui proche de la langue cible ou celui, plus universel, se rapprochant potentiellement de sa langue maternelle ? Nous avons décidé d’évaluer cet apport didactique avec des locuteurs d’une langue syntaxiquement éloignée du français : une langue slave, le serbe, dont l’ordre des mots est libre et les cas expriment les fonctions syntaxiques. Nous avons choisi un groupe de 11 apprenants de FLE de langue maternelle serbe. Chaque apprenant a lu, via un dispositif d'aide à la lecture appelé Déjà Lu, un jeu de textes adaptés à son niveau : textes sans aucune analyse syntaxique, juste annotés en parties du discours; textes analysés par Talismane; textes analysés par Stanford Parser. Il a répondu ensuite à un questionnaire portant sur sa compréhension des textes et ses préférences vis-à-vis des trois types d’annotation proposés. Les résultats nous ont permis d'estimer : l’utilité d’un analyseur syntaxique intégré à notre dispositif d’aide à la lecture ; le type d’analyse le mieux adapté pour des apprenants slaves de FLE.
Implementation of a new language into a rule-based Spoken Dialogue System
Auteur : Jielei Li
Année : 2018
Résumé : Le but de cette étude est de fournir une solution pour implémenter une nouvelle langue dans un système de dialogue vocal basé sur des règles. Notre approche repose sur l’hypothèse selon laquelle la traduction automatique peut aider à résoudre le problème de la portabilité vers une nouvelle langue. Nous procédons à la traduction automatique du système de dialogue de l’anglais vers le mandarin et évaluons ses performances. Les résultats indiquent que cette approche est efficace pour concevoir un système de dialogue multilingue.
Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique
Auteur : Arthur Provenier
Année : 2018
Résumé : Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.
Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine
Auteur : Xi Rong
Année : 2018
Résumé : Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.
Comparaison entre la méthode symbolique et la méthode par apprentissage dans l'efficacité de la détection thématique d'articles de presse
Auteur : Nicolas Scarcella
Année : 2018
Résumé : Ce mémoire porte sur l’étude de la détection thématique d’articles de presse pour une recherche sur la néologie. L’objet du travail réside dans la confrontation de la méthode symbolique, appuyée sur des listes et un vocabulaire contrôlé, avec la méthode d’apprentissage automatique, basée sur des algorithmes et calculs mathématiques. Ces deux procédures offrent l’analyse binaire visant à doter la machine d’une intelligence artificielle capable de détecter correctement les sujets abordés dans un texte dans le but de localiser les contextes qui aideront, dans un projet de détection de néologismes, à s’approcher de leur sens sémantique. Dans un premier temps, le travail consiste en une réflexion sur le moteur de détection déjà existant puis, dans un second temps, en l’exploration de nouvelles techniques permettant d’optimiser la détection thématique.
Un prototype de FAQ interactive sous forme de chatbot basé sur des méthodes symboliques et de similarité textuelle
Auteur : Guanhua Wang
Année : 2018
Résumé : Notre étude consiste à concevoir un prototype du chatbot FAQ interactif basé aux états-des-arts des agents conversationnels. Par rapport au FAQ inflexible, notre FAQ interactive a intégré le concept de la conversation humaine, et est plus conviviale que les chatbots traditionnels du type domaine fermé. Nous avons aussi comparé des méthodes différentes pour la correspondance de questions, y compris la méthode « rule-based » et les méthodes de similarité textuelle. Les résultats ont montré que, pour notre corpus limité mais homogène, la meilleure méthode est celle de la similarité Jaccard.
Intégration de l’Universal Sentence Encoder dans la catégorisation multi-étiquettes des verbatims de sondage
Auteur : Mingqiang Wang
Année : 2018
Résumé : La classification de textes fait l’objet de recherches depuis de nombreuses années, avec le développement de la technologie et la conjoncture actuelle du marketing, les entreprises cherchent à découvrir plus de valeurs cachées dans les textes afin de mieux comprendre les options et les besoins de leurs clients et de prendre les meilleures décisions d’affaires. Elles attendent plus qu’une simple détection d’opinion positive ou négative mais des appréciations détaillées, comme la préférence pour les produits, la fidélité à la marque, les différences par rapport à d’autres entreprises. Pour réaliser ce travail, nous avons essayé d’intégrer une technique émergente « Universal Sentence Encoder » dans notre processus de classification. Sous l’hypothèse que chaque sous-segmentation de phrases soit associée à un thème, nous avons segmenté nos textes en plusieurs sous-segmentations pour transformer le problème de classification multi-étiquettes en classification binaire. A travers nos expérimentations, nous cherchons à regrouper nos textes de façon non supervisée avec la méthode de Classification Ascendante Hiérarchique, qui nous permet non seulement d’éviter l’annotation de corpus, mais aussi de découvrir de nouvelles classes pour nos textes. Nous avons essayé plusieurs paramètres de CAH, et différentes techniques d’extractions de caractéristiques ont été comparées. Selon les résultats expérimentaux, segmenter des phrases en mots et choisir 120 clusters, qui nous permettent d’obtenir notre meilleure F-mesure 62,77% nous donnent la meilleure performance.
Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés
Auteur : Yunbei Zhang
Année : 2018
Résumé : La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l'algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.