système de questions-réponses, fouille de texte, TF-IDF, passage retrieval, SBERT, semantic textual similarity, RRF

Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye

Résumé
Ce mémoire s’inscrit dans un contexte de valorisation des contenus du domaine de la Paye de l’entreprise Groupe Revue Fiduciaire, par le biais d’un système de questions-réponses permettant d’interroger le fonds documentaire en langage naturel. Ce travail a pour objectif d’utiliser et de comparer différentes similarités textuelles existantes, appliquées sur un domaine spécialisé, afin d’associer un fragment réponse dans un document à une question posée. Nous chercherons à appliquer des méthodes à la fois statistiques (TF-IDF [Hiemstra, 2000]), et également à base de réseaux de neurones profonds, état de l’art actuel sur les questions de similarité (SBERT « Sentence-Transformers » [Reimers and Gurevych, 2019]). Ces approches seront testées individuellement, mais également combinées de manière hybride, simultanément ou en cascade, afin d’en observer leur efficacité et d’en dégager la combinaison la plus satisfaisante. Les résultats obtenus penchent en faveur d’une approche en cascade, avec une combinaison de pré-traitement type racinisation couplé à la méthode TF-IDF, puis un basculement en modèle SBERT selon un paramètre arbitraire défini. Ces expériences soulignent également un manque de modèles adaptés pour la langue française et un besoin de fine-tuning indispensable sur le domaine traité.