littérature rabbinique, hébreu, supervision faible, qualité de données, annotation automatique, Snorkel, text reuse, citations, manuscrits, midrash

Détecter les citations bibliques dans la Mekhilta de Rabbi Yishmael : un cas d’étude pour la supervision faible

Résumé
La détection des citations bibliques utilisées dans les commentaires rabbiniques médiévaux constitue un défi, tant par les caractéristiques de ces textes que par la difficulté d’accès à des corpus annotés pour l’apprentissage automatique. L’ambition de ce travail est d'évaluer la capacité de la supervision faible à générer efficacement un tel type de données. Pour cela, nous étudierons un midrash daté des environs des IIe-IIIe siècles, la Mekhilta de Rabbi Yishmael. L’exploration de la Mekhilta de Rabbi Yishmael nous permettra de définir un ensemble de règles heuristiques que nous combinerons avec d’autres ressources au travers de l’utilisation de la bibliothèque Python Snorkel dédiée à la supervision faible. Nous démontrerons ici l’efficacité de cet outil pour résoudre notre problème, ainsi que ses performances dans des cas mêlant des sources plus ou moins fiables. Cette étude prépare le terrain en vue de l’élaboration d’un modèle qui généralisera la détection de citations bibliques à l’ensemble de la littérature rabbinique.