citations

Détecter les citations bibliques dans la Mekhilta de Rabbi Yishmael : un cas d’étude pour la supervision faible

Résumé
La détection des citations bibliques utilisées dans les commentaires rabbiniques médiévaux constitue un défi, tant par les caractéristiques de ces textes que par la difficulté d’accès à des corpus annotés pour l’apprentissage automatique. L’ambition de ce travail est d'évaluer la capacité de la supervision faible à générer efficacement un tel type de données. Pour cela, nous étudierons un midrash daté des environs des IIe-IIIe siècles, la Mekhilta de Rabbi Yishmael. L’exploration de la Mekhilta de Rabbi Yishmael nous permettra de définir un ensemble de règles heuristiques que nous combinerons avec d’autres ressources au travers de l’utilisation de la bibliothèque Python Snorkel dédiée à la supervision faible. Nous démontrerons ici l’efficacité de cet outil pour résoudre notre problème, ainsi que ses performances dans des cas mêlant des sources plus ou moins fiables. Cette étude prépare le terrain en vue de l’élaboration d’un modèle qui généralisera la détection de citations bibliques à l’ensemble de la littérature rabbinique.

Une application d’algorithmes de densité pour la détection de citations en paraphrase

Résumé
Ce travail porte sur la détection de reprises de citations d'un corpus issu de la presse française, sur le thème de la guerre en Ukraine. Nous utilisons des méthodes de clusterisation par densité afin de repérer les citations identiques et similaires. Nous avons choisi d'utiliser les algorithmes OPTICS et DBSCAN qui permettent de regrouper des formes textuelles similaires sans avoir au préalable de données annotées. Cette application permet également de questionner l'importance du traitement en amont du contenu textuel, de quantifier les performances du modèle et de comparer les résultats des différentes clusterisations. Nous constatons que l'algorithme OPTICS surpasse DBSCAN en termes de scores. La continuité de ce travail serait d'une part, de pouvoir ordonner les citations de manière temporelle, de pouvoir les suivre dans la presse et d'autre part, une aide à l'annotation manuelle.

Extraction de citations dans le domaine de la presse avec la résolution d’anaphores

Résumé
L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.