annotation des erreurs de traduction

Évaluation de la qualité de la TAN français-chinois fondée sur une typologie des erreurs : le cas de la traduction littéraire

Résumé
La naissance de la technologie des réseaux neuronaux permet non seulement de rendre plus rapide la traduction automatique (noté TA ci-dessous), mais aussi d’en améliorer la qualité. Néanmoins, la TA souffre encore de nombreuses erreurs qui varient largement d’une paire de langues à l’autre. Pour les paires de langues qui ne sont pas apparentées (par exemple, français-chinois), la qualité de la TA souffre encore de tares importantes. L’analyse des erreurs est donc nécessaire, que ce soit pour sensibiliser les utilisateurs aux imperfections de la TA ou pour tenter d’affiner cette technologie. De ce fait, l’évaluation de la qualité et l’analyse des erreurs de traduction automatique restent des sujets de recherche importants dans le domaine du traitement automatique des langues. Dans le contexte de démocratisation des moteurs de traduction automatique neuronale et d’attention croissante accordée à l’analyse des erreurs, nous explorerons les manières de développer une typologie d’erreurs pour la TA du français vers le chinois et les modalités de construction d’un corpus parallèle d’annotations d’erreurs. Nous nous intéresserons dans un premier temps à l’histoire de la traduction automatique, aux différentes méthodes d’évaluation de la qualité de la traduction automatique, aux types d’erreurs ainsi qu’à l’annotation d’erreurs. Ensuite, nous présentons des expériences qui comprennent la préparation de jeux de donnée, l’application des pré-traitements et l’annotation des erreurs. Finalement, nous effectuerons une analyse quantitative fondée sur des statistiques des erreurs d’adéquation et de fluidité annotées. Nous discutons également des résultats sur des causes des erreurs et des difficultés d’annotation pour une analyse qualitative.