Kaldi

Étude de la pertinence des évaluations des systèmes de reconnaissance automatique de la parole

Résumé
La Reconnaissance Automatique de la Parole est devenue un outil incontournable dans les nouvelles technologies, et elle est de plus en plus utilisée dans des applications quotidiennes (automobile, domotique, aviation, administration, médical . . . ). Ces applications étant de plus en plus pointues, spécifiques, exigeantes, les modèles de RAP doivent s’adapter pour accompagner cette évolution. Pour les rendre plus sophistiqués et plus robustes sont utilisées des méthodes d’évaluation qui doivent elles aussi s’adapter. Ce mémoire a pour objet d’étudier la pertinence de ces méthodes d’évaluation. À travers l’état de l’art sont d’abord décrits les principaux modèles de RAP, les traditionnels et les modernes, ainsi que les principales méthodes d’évaluation correspondantes. Ensuite l’outil Kaldi a été testé sur deux corpus. Mais l’expérience a mis en évidence la complexité du processus, et ses résultats n’ont pas été probants. En conclusion, les méthodes d’évaluation présentent encore des faiblesses (formatage des chiffres, entités nommées et ponctuation ...) face aux applications
d’aujourd’hui, mais la démocratisation des processus et le développement des techniques d’optimisation contribuent à leur perfectionnement.

Mise en place d’un système robuste de reconnaissance automatique de la parole appliqué au domaine médical

Résumé
Le bon fonctionnement des systèmes de reconnaissance automatique de la parole s’avère un défi complexe dans le contexte de la traduction speech-to-speech utilisée dans le domaine médical. Ce mémoire présente un travail de recherche qui vise à construire un système robuste de reconnaissance vocale dans le cadre du projet BabelDr, un outil de traduction vocale quasi instantanée qui a été mis en place dans les Hôpitaux Universitaires de Genève (HUG) afin de favoriser l’interaction médecin-patient lorsqu’aucune langue n’est partagée. Actuellement, sa technologie de reconnaissance de la parole est issue d’un système boîte noire fourni par une société privée. Le but principal de cette étude est de rompre la dépendance à un dispositif externe en se basant sur des outils libres et qui pourront évoluer selon les besoins des HUG. Pour cela, nous proposons un système de reconnaissance vocale pour le français appuyé sur la boîte à outils Kaldi. Celle-ci permet d’effectuer une transcription automatique en temps réel, utilisant des modèles acoustiques hybrides HMM-DNN et une modélisation linguistique adaptée au discours médical caractéristique du contexte d’urgences. À la lumière des résultats globaux observés, une importante amélioration est constatée par rapport à l’approche boîte noire précédemment utilisée.