Mémoires 2022-2023

Caractérisation objective des catégories textuelles pour le TAL : classification non-supervisée basée sur des descripteurs linguistiques

Auteur : Marina Seghier

Année : 2023

Télécharger le mémoire

Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye

Auteur : Katharine Jiang

Année : 2023

Mots clés : système de questions-réponses, fouille de texte, TF-IDF, passage retrieval, SBERT, semantic textual similarity, RRF

Résumé : Ce mémoire s’inscrit dans un contexte de valorisation des contenus du domaine de la Paye de l’entreprise Groupe Revue Fiduciaire, par le biais d’un système de questions-réponses permettant d’interroger le fonds documentaire en langage naturel. Ce travail a pour objectif d’utiliser et de comparer différentes similarités textuelles existantes, appliquées sur un domaine spécialisé, afin d’associer un fragment réponse dans un document à une question posée. Nous chercherons à appliquer des méthodes à la fois statistiques (TF-IDF [Hiemstra, 2000]), et également à base de réseaux de neurones profonds, état de l’art actuel sur les questions de similarité (SBERT « Sentence-Transformers » [Reimers and Gurevych, 2019]). Ces approches seront testées individuellement, mais également combinées de manière hybride, simultanément ou en cascade, afin d’en observer leur efficacité et d’en dégager la combinaison la plus satisfaisante. Les résultats obtenus penchent en faveur d’une approche en cascade, avec une combinaison de pré-traitement type racinisation couplé à la méthode TF-IDF, puis un basculement en modèle SBERT selon un paramètre arbitraire défini. Ces expériences soulignent également un manque de modèles adaptés pour la langue française et un besoin de fine-tuning indispensable sur le domaine traité.

Télécharger le mémoire

Détecter les citations bibliques dans la Mekhilta de Rabbi Yishmael : un cas d’étude pour la supervision faible

Auteur : Nicolas Bontemps

Année : 2023

Mots clés : littérature rabbinique, hébreu, supervision faible, qualité des données, annotation automatique, Snorkel, text reuse, citations, manuscrits, midrash

Résumé : La détection des citations bibliques utilisées dans les commentaires rabbiniques médiévaux constitue un défi, tant par les caractéristiques de ces textes que par la difficulté d’accès à des corpus annotés pour l’apprentissage automatique. L’ambition de ce travail est d'évaluer la capacité de la supervision faible à générer efficacement un tel type de données. Pour cela, nous étudierons un midrash daté des environs des IIe-IIIe siècles, la Mekhilta de Rabbi Yishmael. L’exploration de la Mekhilta de Rabbi Yishmael nous permettra de définir un ensemble de règles heuristiques que nous combinerons avec d’autres ressources au travers de l’utilisation de la bibliothèque Python Snorkel dédiée à la supervision faible. Nous démontrerons ici l’efficacité de cet outil pour résoudre notre problème, ainsi que ses performances dans des cas mêlant des sources plus ou moins fiables. Cette étude prépare le terrain en vue de l’élaboration d’un modèle qui généralisera la détection de citations bibliques à l’ensemble de la littérature rabbinique.

Télécharger le mémoire