[Séminaire] Apprendre des systèmes de transcription automatique à partir de peu de données

Infos en bref

Apprendre des systèmes de transcription automatique à partir de peu de données : une application pour la linguistique documentaire computationnelle.

Par Guillaume Wisniewski (Laboratoire de Linguistique Formelle, Université Paris Cité)

Date : Jeudi 1er février à 15h
Lieu : 2 rue de Lille, 75007 Paris (Maison de la Recherche de l'Inalco)

Résumé

Les progrès spectaculaires que le TAL a récemment réalisés reposent principalement sur le développement de nouveaux modèles neuronaux capables de découvrir, sans aucune information de supervision, des représentations particulièrement pertinentes de la langue (écrite ou parlée). Ces modèles, capables de construire des représentations d'enregistrements audios ou de phrases écrites dans n'importe quelle langue, ouvrent de nombreuses nouvelles possibilités pour l'analyse et la modélisation des langues, et en particulier pour la linguistique documentaire. Dans cette présentation, nous cherchons à montrer comment les modèles pré-entraînés de la parole peuvent aider les linguistes dans leur travail de documentation des langues. Dans une première partie, nous expliquerons comment nous avons utilisé ces modèles pour développer des systèmes de transcription ne nécessitant qu'un petit corpus de données annotées. Nous détaillerons ensuite, dans une seconde partie, les nouvelles problématiques que soulève l'application de ces modèles aux scénarios où peu de ressources sont disponibles et ce que ces développements nous apprennent sur les capacités et le fonctionnement des architectures neuronales.

Biographie

Guillaume Wisniewski est maître de conférences à Université Paris Cité et membre du Laboratoire de Linguistique Formelle (LLF). Ses recherches se concentrent principalement sur l'analyse et l'interprétation des représentations apprises de manière auto-supervisée par les réseaux de neurones. Depuis plusieurs années, il s'intéresse également à l'utilisation des méthodes de TAL pour assister les linguistes dans leurs travaux d'analyse et de documentation des langues.