alphabet phonétique international

De la parole aux transcriptions : optimiser la transcription de l’arménien occidental avec des ressources limitées

Résumé
La transcription automatique de langues peu dotées en ressources est un défi, autant pour l’exploitation des données disponibles que pour le choix des algorithmes et l’évaluation des résultats. Dans ce mémoire, nous présentons nos travaux pour développer un modèle de transcription de l’arménien occidental vers une écriture phonologique (API). Ils ont été réalisés dans le cadre du projet de recherche DALiH (Digitizing Armenian Linguistic Heritage) qui apporte un volume de données
transcrites limitées pour l’arménien occidental. Plusieurs stratégies d’optimisation de l’apprentissage ont été explorées, qui comparent plusieurs modes de sélection des données d’entraînement. Ces recherches ont montré qu’un choix judicieux de modèle et de données améliore significativement l’apprentissage automatique, tout en montrant la sensibilité des résultats aux choix des jeux de données et des paramètres des modèles de transcription automatique.