Mémoires 2020-2021

Impact de l’extraction de texte pour l’identification de la structure d’un document depuis des documents PDF du domaine financier

Auteur : Mei GAN

Année : 2021

Mots clés : pdf, outils d'extraction pdf, extraction de texte, détection de structure de document, évaluation des performances

Résumé : Le domaine de l’extraction d’informations automatisée de texte à partir de documents PDF est d’une grande importance car le format PDF est toujours l’un des plus populaires pour la représentation et l’échange d’informations, en particulier dans le monde de la finance. En outre, il est également important pour un système d’extraction d’informations à partir de documents financiers de s’assurer de la fiabilité des données extraites. Ce mémoire a donc pour objectif de comparer plusieurs outils de reconnaissance de texte afin d’identifier la structure des documents PDF financiers. Nous présenterons les différents types de documents PDF et les méthodes utilisées pour l’extraction de texte et de détection de la structure. Ensuite, nous nous attarderons sur les évaluations de l’extraction de texte, de la détection de format et de la détection de structure de documents PDF.

Télécharger le mémoire

Système de traduction automatique neuronale français-mongol Historique, technologies, mise en place et évaluations

Auteur : Shuai GAO

Année : 2021

Mots clés : traduction automatique neuronale, langue mongole, évaluation automatique, évaluation humaine, score bleu

Résumé : De nos jours, la traduction automatique (MT) est de plus en plus utilisée, surtout la traduction automatique neuronale, qui a porté la qualité des traductions à un nouveau niveau. Malgré son développement rapide, elle ne fonctionne de manière suffisante que pour des langues principales telles que l’anglais, le français, le chinois et l’espagnol, etc. En ce qui concerne les langues moins parlées ou minoritaires, il n’existe pas beaucoup de recherches sur la MT. Notamment, dans le cas de notre mémoire, pour la paire de langues français-mongol, il n’existe aucune recherche publiée dessus. Ce mémoire consiste à retracer le travail que nous avons effectué pour la mise en place d’un système de traduction automatique neuronale (NMT) pour la paire de langues français-mongol. Notre intérêt réside en premier lieu dans la traduction automatique en nous intéressant à son développement et aux dernières technologies. Deuxièmement, nous nous pencherons sur la langue mongole en présentant ses caractéristiques ainsi que les travaux précédents liés à la MT. Ensuite, nous nous emploierons à entraîner, à partir d’un corpus parallèle open-source, des modèles de NMT français-mongol avec l’outil OpenNMT. Finalement, nous effectuerons deux évaluations automatiques et proposerons une méthode d’évaluation humaine, nommée «IFF », ce qui permet de connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction à usage commercial. Ce travail entend revitaliser la langue mongole et protéger la diversité de notre ADN culturel en établissant des liens avec d’autres langues principales à l’appui de la NMT.

Télécharger le mémoire

Étude comparative des expressions polylexicales verbales en français et en chinois : éléments linguistiques, statistiques et TAL

Auteur : Jianying LIU

Année : 2021

Mots clés : expression polylexicale verbale, non-compositionnalité, coréférence, français, chinois

Résumé : Ce travail porte sur une étude comparative des expressions polylexicales verbales en français et en chinois. Nous essayons d’abord de valider l’hypothèse sur la noncompositionnalité des expressions polylexicales et les chaînes de coréférence, selon laquelle les composants d’une expression polylexicale verbale sont peu susceptibles d’être repris dans une chaîne de coréférence. Ensuite, en se basant sur les fautes observées pendant l’annotation manuelle, les analyses statistiques des traits et nos connaissances sur la langue chinoise, nous supposons que l’hypothèse se comporte de manière similaire en chinois, et proposons des points à affiner dans l’hypothèse, ainsi que des pistes possibles pour améliorer l’identification automatique des expressions polylexicales verbales en français et en chinois.

Télécharger le mémoire

Analyse de sentiments pour mesurer la perception d’ArcelorMittal sur divers sujets clés

Auteur : Shéhérazade NINEB

Année : 2021

Résumé : La réputation des entreprises impacte directement leur pouvoir d’attraction, leur capacité à attirer des talents mais aussi leur croissance. Elles se soucient donc de leur identité en ligne, cherchent à mieux connaître les attentes et critiques que les internautes leur adressent. L’analyse de sentiments met en œuvre des techniques de calculs du Traitement Automatique du Langage Naturel qui répondent à cette problématique. Les travaux de ce mémoire consistent à d’une part fournir une vue d’ensemble des méthodes et outils existants, et d’autre part à démontrer la capacité de ces méthodes à analyser la réputation d’ArcelorMittal sur divers sujets. La première partie de ces travaux à consister en une analyse du sentiment à l’échelle du document. La seconde partie à l’analyse du sentiment à l’echelle des aspects. Des approches de types lexicon-based, Deep Learning (BERT) et de Topic Modeling ont été mis en œuvre.

Télécharger le mémoire

Étude du comportement des composants d’expressions polylexicales verbales dans les chaînes de coréférence

Auteur : Anaëlle PIERREDON

Année : 2021

Mots clés : coréférence, expressions polylexicales, mwe, français

Résumé : La coréférence et les expressions polylexicales sont deux phénomènes linguistiques importants en traitement automatique des langues et notamment dans des tâches comme la traduction automatique ou encore la fouille de texte. Au cours de ce mémoire, nous chercherons à valider l’hypothèse selon laquelle les composants d’expressions polylexicales ne sont que très peu susceptibles d’être repris dans des chaînes de coréférence, et nous proposerons une façon d’utiliser ces résultats pour tenter d’améliorer les systèmes de résolution de coréférence.

Télécharger le mémoire

Détection automatique de l’innovation lexicale dans des corpus diachroniques

Auteur : Solveig PODER

Année : 2021

Mots clés : expressions polylexicales, collocations, figement lexical, lda

Résumé : Le figement lexical est un phénomène central du langage et les expressions figées représentent une importante proportion du lexique de toute langue. Leur détection demeure un des enjeux du TAL. Après avoir effectué un résumé détaillé de l’état de l’art dans ce domaine, ce mémoire présente une méthode non supervisée permettant de détecter la formation de nouvelles expressions figées au sein de corpus diachroniques d’articles de presse en français. On utilisera un modèle LDA (allocation de Dirichlet latente) pour extraire les expressions les plus représentatives du corpus que l’on considèrera comme des candidats au figement. Puis, partant du principe établi par les linguistes qu’une expression est figée si ses termes n’admettent pas d’être remplacés par des synonymes, nous utiliserons des plongements de mots pour établir une liste d’expressions synonymes pour chaque expression candidate. Enfin, nous calculerons l’évolution au fil du corpus du taux d’apparition d’une expression par rapport à ses « synonymes » (nous dresserons automatiquement pour chaque candidat une liste de potentiels synonymes en remplaçant les mots de l’expression candidate par des mots dont la représentation en vecteur est similaire).

Télécharger le mémoire

Prise en compte de la dimension collocative dans la notation automatique de productions écrites en français langue étrangère

Auteur : Fabienne AUFFRET

Année : 2021

Mots clés : collocations, apprentissage automatique, compétence linguistique, français langue étrangère

Résumé : Ce travail s’inscrit dans la continuité de celui de plusieurs personnes, qui ont déjà construit un modèle et ses caractéristiques pour classer des copies de tests de français (pour l’obtention du statut de résident ou de la naturalisation, en France ou au Canada), ceci dans un premier temps jusqu’à un niveau intermédiaire, puis sur l’ensemble des niveaux de langue A1 à C2 du Cadre européen commun de référence pour les langues (Coe, 2001).
De nombreuses études ayant démontré que les collocations au sens large, c’est-à-dire aussi sous leur aspect « collostructions » (collocations qui prennent en compte la structure grammaticale [Stefanowitsch and Gries, 2003], [Paquot, 2018]) permettent de départager entre eux les apprenants de niveau avancé (B2 à C2), nous allons donc créer des caractéristiques qui en sont issues, pour non seulement tenter d’améliorer le modèle existant, mais aussi utiliser des indicateurs pédagogiquement parlants car linguistiquement pertinents ([Valette and Eensoo, 2014] et non pas uniquement distributionnels.

Télécharger le mémoire

Modélisation d’un système de formes rythmiques pour la transcription automatique de la batterie

Auteur : Martin DIGARD

Année : 2021

Télécharger le mémoire