Mémoires 2018-2019
Génération automatique de rapports d’analyse financière. Développement et évaluation d’un système à base de règles
Auteur : Milena Chaine
Année : 2019
Résumé : Ce mémoire décrit le développement et l'évaluation d'un système de génération automatique de rapports d'analyse financière. Nous avons défini, modélisé et codé des règles de génération pour un système commercial permettant de générer régulièrement plusieurs centaines de rapports simplifiés d'analyse. Le système doit modéliser des données informatiques non-textuelles complexes afin de les utiliser dans des règles de génération définies en collaboration avec des analystes financiers. Ces règles doivent être représentatives de l'expertise d'un·e analyste et permettre de générer un texte cohérent d'un point de vue rhétorique et linguistique. Enfin, les rapports d'analyse générés doivent employer la langue spécialisée du domaine qu'est la finance de marché. Pour évaluer la qualité des textes générés, nous avons mis en place un protocole d'évaluation humaine par des spécialistes du domaine.
La lisibilité dans le contexte de l'écologie numérique
Auteur : Margaux Duhayon
Année : 2019
Résumé : La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d'applications, de logiciels et de sites web. Pourtant, l'envoi d'un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l'énergie. L'écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l'écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l'éco-conception qui vise à rendre les textes d'un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l'aide d'algorithmes de classification non supervisée.
Optimisation du processus de recrutement par utilisation de méthodes d’intelligence artificielles
Auteur : Suhaib Etarhuni
Année : 2019
Résumé : Le marché du travail a connu le développement d’un grand nombre de sites d’offres d’emploicomme par exemple LINKEDIN, MONSTER qui ont permis de développer un marché de recrutement en ligne. Notre sujet porte sur le développement d’un outil permettant d’optimiser le temps de traitement des données lors du processus de recrutement. Ceci est en automatisant la présélection et l’évaluation des profils des candidats. L’objectif est de fournir un score de compatibilité entre une offre et chaque candidat, ce score reflète à quel point son profil correspond aux spécifications du poste. Notre travail se concentre sur l’analyse de CVs ainsi que les besoins métier du service de recrutement.
Extraction d’Entités d’Aliments/Médicaments à Partir de Textes Biomédicaux en Français
Auteur : Chunyang Jiang
Année : 2019
Résumé : Ce travail s’inscrit dans le cadre du Projet ANR MIAM (Maladies, Interactions Alimentation-Médicaments) dont l'intérêt central concerne l'extraction des informations sur les interactions entre l'alimentation et les médicaments. Ces interactions peuvent conduire à un effet indésirable. Dans ce contexte, l’objectif de notre travail est d’extraire les mentions de médicaments et d'aliments dans les textes biomédicaux, qui est une étape importante voire élémentaire pour permettre une gamme de tâches de fouille de textes en aval. Le point de départ est la constitution d’un corpus français pertinent qui nous permet ensuite d’expérimenter des approches adéquates à la reconnaissances des entités aliments/médicaments. Nous nous appuyons également sur des informations extraites des ressources terminologiques.
Extraction terminologique à partir de corpus spécialisés comparable collectés sur le web: construction d'un lexique de termes économiques trilingue
Auteur : Yamina Mir
Année : 2019
Résumé : L’objectif de ce mémoire est de mettre en place une méthode qui permette d’extraire la terminologie à partir de corpus spécialisés comparables collectés sur la toile en italien, anglais et français. Les candidats-Terme extraits et validés, pourront ensuite être exploités pour la création d’un glossaire du domaine économique trilingue. Les listes de termes seront constituées en utilisant une méthode à la fois linguistique et statistique. L’extraction terminologique sera effectuée dans un premier temps à l’aide des N-grams constitués en utilisant l’outil TreeTagger. Ensuite, j’évaluerai le logiciel d’extraction terminologique TermoStat en m’appuyant sur le glossaire de référence créé au préalable. Le but est d’évaluer ces outils afin de déterminer s’ils peuvent être utilisés par un traducteur ou interprète dans la phase préparatoire des documents.
Application des méthodes de l’extraction de thématique sur un corpus homogène dans le domaine des parfums d’ambiance
Auteur : Boyu Niu
Année : 2019
Résumé : Nous avons étudié deux méthodes pour faire l’extraction automatique de thématique : la Latent semantic Indexing (LSI, ou Latent Semantic Analysis, LSA) et la Latent Dirichlet Allocation (LDA). Elles ont été appliquées sur un corpus composé des commentaires des consommateurs britanniques dans le domaine des parfums d’ambiance. Comme ces commentaires sont assez courts et homogènes dans leur contenu, nous avons pris en considération ces particularités et expérimenté des stratégies de la sélection des traits linguistiques et du paramétrage pour essayer d’améliorer la performance de ces deux méthodes. Nous avons aussi étudié une méthode pour évaluer automatiquement la cohérence des thèmes extraits. Elle a été mise en pratique pour évaluer les résultats obtenus avec la LSI/LSA et la LDA.
Hate speech detection in social media
Auteur : Yihong Ouyang
Année : 2019
Résumé : Avec la popularité des plates-formes de réseaux sociaux, de plus en plus de personnes sont connectées et partagent des informations. Bien que nous profitions de cet environnement ouvert, nous devrions également envisager l'un des dommages potentiels qu'il entraîne: le discours de haine en ligne. Détecter le discours de haine a été un défi pour le traitement du langage naturel. Ici, nous construisons et comparons 8 modèles traditionnels d’apprentissage automatique avec des réseaux de neurones. Il s’avère que notre modèle construit sur le transformateur BERT atteint la plus haute précision de 0,93. Nous analysons des méthodes détaillées et quelques problèmes actuels de la définition et de l’ensemble de données.
Prédiction d'une maladie rare : l'amyloïdose cardiaque
Auteur : Elvira Quesada
Année : 2019
Résumé : Notre projet se focalise sur la prédiction de l’amyloïdose cardiaque, une maladie rare difficile à diagnostiquer et pour laquelle il n’existe pas encore de traitement. La détection précoce de maladies permettrait de traiter les symptômes en avance en plus de réduire l’impact de celles-ci. Un des obstacles majeur que l’on trouve lorsqu’on travaille avec des données cliniques est la présence de données personnelles. Cette problématique est largement abordée dans la littérature, qui propose en majorité de traiter ce sujet à travers la reconnaissance d’entités nommées. Pour cette raison, nous effectuons une tâche de désidentification en implémentant les deux méthodologies principales : une approche basée sur les connaissances et une approche guidée par les données. Dans un deuxième temps, nous effectuons la tâche de prédiction, qui repose sur des modèles d’apprentissage automatique. Nous menons à terme deux types de classification. En premier lieu, une classification multiclasse, étant celles-ci l’amyloïdose et d’autres maladies cardiaques rares (F-mesure = 0,636), et dans un deuxième temps, une classification binaire, c’est-à-dire, amyloïdose ou non amyloïdose (F-mesure = 0,782). Les amyloïdoses, étant difficiles à diagnostiquer par les médecins, nous observons dans nos expériences que les prédictions sont aussi complexes à réaliser pour une machine, en particulier pour un apprentissage statistique dans la mesure où il faudrait savoir quels sont les éléments essentiels du diagnostic pour pouvoir fournir à la machine ces connaissances. Même si notre modèle n’atteint pas une grande performance en ce qui concerne la prédiction, le travail réalisé permet d’éclaircir les symptômes et signes les plus fréquents associés à l’amyloïdose cardiaque. Actuellement, il reste difficile de prédire cette maladie, mais les expériences menées pourraient servir comme aide aux médecins afin d’attirer leur attention sur des cas probables d’amyloïdose.
Intégration des technologies de traduction automatique neuronale à l'échelle d'une agence de traduction
Auteur : Victorien Villiers
Année : 2019
Résumé : Le présent mémoire compile deux études menées au sein de l’agence de traduction Univoice, en lien avec la traduction automatique neuronale. Dans la première, nous évaluons les traductions produites par différents outils de traduction automatique neuronale disponibles sur le marché pour la paire de langue anglais-français, dans le cadre de la sélection d’un fournisseur tiers. Nous nous aidons pour cela de deux métriques humaines, inspirées du standard MQM-DQF, et de la métrique automatique BLEU. Dans la seconde étude, nous évaluons la viabilité du développement de moteurs de traduction automatique neuronale en interne, à l’aide de la technologie OpenNMT et de corpus multilingues alignés open-source. Nous mettons en place une série de scripts permettant l’extraction de textes alignés à partir de mémoires de traduction au format TMX et l’entraînement de modèles basés sur la technologie des réseaux de neurones récurrents LSTM, et évaluons les résultats obtenus sur un échantillon de traductions générées en sortie.
Reconnaissance d’entités nommées dans les tweets
Auteur : Yizhou Xu
Année : 2019
Résumé : Ce travail porte sur la création d’un système de la reconnaissances d’entité nommées (REN) pour les tweets. La REN est un composant crucial pour de nombreuses applications du TAL, tels que traduction automatique et résumé automatique. Cette tâche est un sujet bien étudié dans la communauté du TAL. Néanmoins, la performance des systèmes de la REN conçus pour des textes standard est souvent gravement dégradée sur des tweets. Dans ce mémoire, nous avons proposé un système de la REN pour des tweets qui intègre deux modèles d’apprentissage automatique : le modèle à base d’ingénierie de caractéristiques peut traiter un grand volume de données en temps réel avec un résultat acceptabele et le modèle à base de réseaux de neurones peut produire un résultat de bonne qualité en terme de F mesure. Pour ce dernier, nous avons utiliser le plongement lexical dynamique qui est à l’origne de l’amélioration du résultat.
Évaluation de l’extraction de relations entre entités par Relation Miner et propositions d’amélioration
Auteur : Ferial Yahiaoui
Année : 2019
Résumé : L’extraction d’information représente un enjeu crucial pour la veille économique des entreprises dans un contexte de plus en plus concurrentiel, à l’instar d’une banque leader comme la BNP Paribas. Ce travail s’inscrit dans le projet de la plate-forme collaborative LEOnard du Département des Études Économiques de cette banque.