système de questions-réponses, fouille de texte, TF-IDF, passage retrieval, SBERT, semantic textual similarity, RRF https://ertim.inalco.fr/ fr Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye https://ertim.inalco.fr/node/754 <span class="field field--name-title field--type-string field--label-hidden">Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">jeu 18/07/2024 - 19:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Katharine Jiang</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2023</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire s’inscrit dans un contexte de valorisation des contenus du domaine de la Paye de l’entreprise Groupe Revue Fiduciaire, par le biais d’un système de questions-réponses permettant d’interroger le fonds documentaire en langage naturel. Ce travail a pour objectif d’utiliser et de comparer différentes similarités textuelles existantes, appliquées sur un domaine spécialisé, afin d’associer un fragment réponse dans un document à une question posée. Nous chercherons à appliquer des méthodes à la fois statistiques (TF-IDF [Hiemstra, 2000]), et également à base de réseaux de neurones profonds, état de l’art actuel sur les questions de similarité (SBERT « Sentence-Transformers » [Reimers and Gurevych, 2019]). Ces approches seront testées individuellement, mais également combinées de manière hybride, simultanément ou en cascade, afin d’en observer leur efficacité et d’en dégager la combinaison la plus satisfaisante. Les résultats obtenus penchent en faveur d’une approche en cascade, avec une combinaison de pré-traitement type racinisation couplé à la méthode TF-IDF, puis un basculement en modèle SBERT selon un paramètre arbitraire défini. Ces expériences soulignent également un manque de modèles adaptés pour la langue française et un besoin de fine-tuning indispensable sur le domaine traité.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2688" hreflang="fr">système de questions-réponses, fouille de texte, TF-IDF, passage retrieval, SBERT, semantic textual similarity, RRF</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/M%C3%A9moire_Jiang_Katharine.pdf" type="application/pdf">Mémoire_Jiang_Katharine.pdf</a></span> </div> </div> Thu, 18 Jul 2024 17:00:12 +0000 gestionnaire 754 at https://ertim.inalco.fr