topic modelling

Comparaison de Topic Models pour l'extraction de lexique et la classification de courts textes

Résumé
Cette étude fait suite à celles des précédents stagiaires du Français des affaires, qui s'articule autour de la construction d'un système de notation automatique de copies de Test d'Evaluation de Français, un examen à forts enjeux permettant l'obtention du droit de résidence ou de naturalisation en France ou au Canada. Ce système se basant sur des caractéristiques extraites des copies de l'examen, nous nous penchons sur l'automatisation de l'extraction d'une caractéristique qui était produite en partie manuellement. Cette dernière se repose sur la confection manuelle laborieuse de lexiques thématiques. De nombreuses études utilisent le topic modelling pour l'alignement de lexiques bilingues voire même l'extraction de lexiques par niveau de langue, nous nous attarderons ici sur cette technique afin d'entretenir le système de notation automatique.

Apport du calcul de similarité et du topic modelling pour l'exploration de retours d'expérience dans le domaine de la sûreté de fonctionnement des lanceurs spatiaux

Résumé
Dans le domaine de la sûreté de fonctionnement, le retour d’expérience consiste à décrire, analyser et archiver tous les incidents et anomalies survenus lors d’une procédure. La multiplicité des sources et moyens de retours d’expérience conduit à une production de plus en plus importante et hétérogènes de contenu peu ou pas structurés. Notre travail vise à mieux exploiter de tels documents dans le domaine du spatial (CNES) afin de faire émerger des thématiques principales, d'identifier des tendances et, à terme, de repérer des signaux faibles liés aux incidents lors du lancement de fusées. Nous explorons dans ce mémoire différentes techniques de traitement automatique des langues pour venir en aide aux experts en sûreté de fonctionnement du CNES dans leur exploration des bases de données de retour d’expérience. En particulier, nous nous sommes intéressés au LDA afin de faire émerger des thématiques au sein du corpus et au TF-IDF et au LSA pour calculer des similarités entre les documents. Nous montrons les avantages qu’apportent ces techniques les unes par rapport aux autres. Un logiciel a été développé qui réalise ces calculs et propos des visualisations adaptées. De manière plus générale, ce travail montre l'intérêt de traiter les documents issus de retour d'expérience afin d'améliorer le déroulement de processus industriels.