fouille de texte

Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye

gestionnaire — Thu, 18 Jul 2024 17:00:12 +0000

Étude de similarités textuelles pour un système de questions-réponses dans le domaine de la Paye gestionnaire jeu 18/07/2024 - 19:00

Auteur

Katharine Jiang

Année

2023

Résumé

Ce mémoire s’inscrit dans un contexte de valorisation des contenus du domaine de la Paye de l’entreprise Groupe Revue Fiduciaire, par le biais d’un système de questions-réponses permettant d’interroger le fonds documentaire en langage naturel. Ce travail a pour objectif d’utiliser et de comparer différentes similarités textuelles existantes, appliquées sur un domaine spécialisé, afin d’associer un fragment réponse dans un document à une question posée. Nous chercherons à appliquer des méthodes à la fois statistiques (TF-IDF [Hiemstra, 2000]), et également à base de réseaux de neurones profonds, état de l’art actuel sur les questions de similarité (SBERT « Sentence-Transformers » [Reimers and Gurevych, 2019]). Ces approches seront testées individuellement, mais également combinées de manière hybride, simultanément ou en cascade, afin d’en observer leur efficacité et d’en dégager la combinaison la plus satisfaisante. Les résultats obtenus penchent en faveur d’une approche en cascade, avec une combinaison de pré-traitement type racinisation couplé à la méthode TF-IDF, puis un basculement en modèle SBERT selon un paramètre arbitraire défini. Ces expériences soulignent également un manque de modèles adaptés pour la langue française et un besoin de fine-tuning indispensable sur le domaine traité.

Mots-clés

système de questions-réponses

fouille de texte

TF-IDF

passage retrieval

SBERT

semantic textual similarity

RRF

Fichier

Memoire_Jiang_Katharine.pdf

Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2016

Résumé

Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).

Mots-clés

catégorisation de textes

hiérarchie de concepts

ingénierie des connaissances

Extraction de citations dans le domaine de la presse avec la résolution d’anaphores

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Extraction de citations dans le domaine de la presse avec la résolution d’anaphores Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2016

Résumé

L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.

Mots-clés

extraction d’informations

Fichier

MemoireLucilleBlanchard_ExtractionCitations.pdf

Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2015

Résumé

Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.

Mots-clés

fouille de texte

extraction d’information

extraction terminologique

analyse distributionnelle

constitution de terminologie

Fichier

memoire_wu_yunhe.pdf

Dé-identification cohérente de l’ensemble des documents cliniques d’un patient

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Dé-identification cohérente de l’ensemble des documents cliniques d’un patient Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2015

Résumé

Ce travail propose une méthode de dé-identification pour les documents médicaux, permettant de traiter des ensembles de documents rattachés à un même patient. L'objectif est de conserver la cohérence entre les documents traitant d'un même patient, mais pas entre des documents traitant de patients différents. Notre méthode est basée sur un système symbolique, et se concentre sur la cohérence des dates et des noms de personne. Nous obtenons une F-mesure de 0.75, dont 0.77 pour les noms de famille et 0.91 pour les dates.

Mots-clés

reconnaissance des entités nommées

Fichier

memoire_bigeard_IM.pdf

Apports de la catégorisation automatique à la veille collaborative

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Apports de la catégorisation automatique à la veille collaborative Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2015

Résumé

Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.

Mots-clés

fouille de texte

catégorisation automatique

apprentissage automatique

hiérarchie de concepts

thésaurus

Fichier

mémoire final Aurélie Jouannet.pdf

Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining Anonyme (non vérifié) ven 06/11/2020 - 00:00

Auteur

Dutrey

Année

2011

Résumé

L'utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d'usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d'une phase de nettoyage visant à rapprocher les textes de la norme , à l'extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.

Mots-clés

fouille du contenu du Web

Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative Anonyme (non vérifié) ven 06/11/2020 - 00:00

Auteur

Baldit

Année

2008

Résumé

Comment exploiter les résultats d’une enquête marketing de type qualitative ?

Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.

Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.

La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.

Mots-clés

extraction d’information

fouille de texte

analyse d’opinion

analyse lexicométrique

enquête questions ouvertes