plongements lexicaux

Comparaison de Topic Models pour l'extraction de lexique et la classification de courts textes

Résumé
Cette étude fait suite à celles des précédents stagiaires du Français des affaires, qui s'articule autour de la construction d'un système de notation automatique de copies de Test d'Evaluation de Français, un examen à forts enjeux permettant l'obtention du droit de résidence ou de naturalisation en France ou au Canada. Ce système se basant sur des caractéristiques extraites des copies de l'examen, nous nous penchons sur l'automatisation de l'extraction d'une caractéristique qui était produite en partie manuellement. Cette dernière se repose sur la confection manuelle laborieuse de lexiques thématiques. De nombreuses études utilisent le topic modelling pour l'alignement de lexiques bilingues voire même l'extraction de lexiques par niveau de langue, nous nous attarderons ici sur cette technique afin d'entretenir le système de notation automatique.

Response Generation in a Dialogue System: Bouncing Back with Word Embeddings

Résumé
Nous nous proposons de réaliser un système de dialogue expérimental robuste doté d'un mécanisme de génération de réponses sans règles linguistiques prédéfinies ni base de connaissances associée. Pour cela, nous nous inspirons d’études mettant en évidence la capacité des plongements lexicaux à encoder des propriétés morphologiques et sémantiques dans la composition de leurs vecteurs (Mikolov et al., 2013 ; Gladkova et al., 2016 ; Drozd et al., 2016 ; Finley et al., 2017). Notre hypothèse est qu’il est possible de générer une réponse sémantiquement pertinente à partir de l'énoncé précédant dans un dialogue. Les plongements lexicaux peuvent alors être considérés comme une modélisation de l'expérience sémantique du chatbot. Aussi avons-nous réalisé un système qui, lorsqu'il reçoit un input humain, analyse la phrase et en extrait les éléments pertinents. Ils sont utilisés pour extraire des plongements lexicaux des unités lexicales sémantiquement liées. Puis, un générateur de phrase prend le relais en prenant deux paramètres : la longueur maximale de la phrase et le mot du début, qui correspond à un des mots extraits des plongements lexicaux. Il en résulte un chatbot poétique, aux réponses parfois surréalistes, qui a toujours son mot à dire.