Construction de modèles grapheme-to-phoneme dans le système de reconnaissance automatique de la parole à base de ressources linguistiques accessibles sur le Web

Auteur
Hayoung SEO
Année
2022
Résumé
Le système de reconnaissance automatique de la parole d’aujourd’hui a atteint un niveau significatif avec les avancées technologiques. Cependant, les ressources linguistiques à grande échelle constituant les modèles linguistiques tels que modèle de prononciation pour améliorer la qualité de ce système ne peuvent être appréciées que par les langues les plus économiquement réalisables. Répondre à ces problèmes dépendants des ressources linguistiques est l’un des défis majeurs dans le domaine de la reconnaissance vocale. Ce mémoire a donc pour l’objectif de proposer une méthode de développement rapide et pertinent de modèle de prononciation à l’aide de Phonetisaurus, un convertisseur Grapheme to-phoneme (G2P), s’appuyant sur l’ensemble des dictionnaires accessibles sur le Web afin de capitaliser le dictionnaire de prononciation de qualité. Nous utiliserons Wiktionnaire, un dictionnaire multilingue accessible sur le Web, et Lexique4linguists, une base de données lexicale du français. Ensuite, nous comparons ces dictionnaires avec un autre dictionnaire de prononciation, qui est le résultat de la prédiction d’un modèle de phonétisation existant, et corrigeons le résultat de la prédiction avec une connaissance phonologique et un effort humain minimal. Enfin, en répartissant l’ensemble des trois dictionnaires, nous entraînons trois modèles de phonétisation et les évaluons avec notre méthode d’évaluation WPER (Weighted Phoneme Error Rate) basée sur l’algorithme de Weighted Levenshtein. Nous avons obtenu un modèle grapheme-to-phoneme avec une performance de 97,88 % d’accuracy.
Fichier