Mémoires 2022-2023
Caractérisation objective des catégories textuelles pour le TAL : classification non-supervisée basée sur des descripteurs linguistiques
Auteur : Marina Seghier
Année : 2023
Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye
Auteur : Katharine Jiang
Année : 2023
Résumé : Ce mémoire s’inscrit dans un contexte de valorisation des contenus du domaine de la Paye de l’entreprise Groupe Revue Fiduciaire, par le biais d’un système de questions-réponses permettant d’interroger le fonds documentaire en langage naturel. Ce travail a pour objectif d’utiliser et de comparer différentes similarités textuelles existantes, appliquées sur un domaine spécialisé, afin d’associer un fragment réponse dans un document à une question posée. Nous chercherons à appliquer des méthodes à la fois statistiques (TF-IDF [Hiemstra, 2000]), et également à base de réseaux de neurones profonds, état de l’art actuel sur les questions de similarité (SBERT « Sentence-Transformers » [Reimers and Gurevych, 2019]). Ces approches seront testées individuellement, mais également combinées de manière hybride, simultanément ou en cascade, afin d’en observer leur efficacité et d’en dégager la combinaison la plus satisfaisante. Les résultats obtenus penchent en faveur d’une approche en cascade, avec une combinaison de pré-traitement type racinisation couplé à la méthode TF-IDF, puis un basculement en modèle SBERT selon un paramètre arbitraire défini. Ces expériences soulignent également un manque de modèles adaptés pour la langue française et un besoin de fine-tuning indispensable sur le domaine traité.
Détecter les citations bibliques dans la Mekhilta de Rabbi Yishmael : un cas d’étude pour la supervision faible
Auteur : Nicolas Bontemps
Année : 2023
Résumé : La détection des citations bibliques utilisées dans les commentaires rabbiniques médiévaux constitue un défi, tant par les caractéristiques de ces textes que par la difficulté d’accès à des corpus annotés pour l’apprentissage automatique. L’ambition de ce travail est d'évaluer la capacité de la supervision faible à générer efficacement un tel type de données. Pour cela, nous étudierons un midrash daté des environs des IIe-IIIe siècles, la Mekhilta de Rabbi Yishmael. L’exploration de la Mekhilta de Rabbi Yishmael nous permettra de définir un ensemble de règles heuristiques que nous combinerons avec d’autres ressources au travers de l’utilisation de la bibliothèque Python Snorkel dédiée à la supervision faible. Nous démontrerons ici l’efficacité de cet outil pour résoudre notre problème, ainsi que ses performances dans des cas mêlant des sources plus ou moins fiables. Cette étude prépare le terrain en vue de l’élaboration d’un modèle qui généralisera la détection de citations bibliques à l’ensemble de la littérature rabbinique.