lexique thématique

Comparaison de Topic Models pour l'extraction de lexique et la classification de courts textes

Résumé
Cette étude fait suite à celles des précédents stagiaires du Français des affaires, qui s'articule autour de la construction d'un système de notation automatique de copies de Test d'Evaluation de Français, un examen à forts enjeux permettant l'obtention du droit de résidence ou de naturalisation en France ou au Canada. Ce système se basant sur des caractéristiques extraites des copies de l'examen, nous nous penchons sur l'automatisation de l'extraction d'une caractéristique qui était produite en partie manuellement. Cette dernière se repose sur la confection manuelle laborieuse de lexiques thématiques. De nombreuses études utilisent le topic modelling pour l'alignement de lexiques bilingues voire même l'extraction de lexiques par niveau de langue, nous nous attarderons ici sur cette technique afin d'entretenir le système de notation automatique.