traduction automatique neuronale
Résumé
De nos jours, la traduction automatique (MT) est de plus en plus utilisée, surtout la traduction automatique neuronale, qui a porté la qualité des traductions à un nouveau niveau. Malgré son développement rapide, elle ne fonctionne de manière suffisante que pour des langues principales telles que l’anglais, le français, le chinois et l’espagnol, etc. En ce qui concerne les langues moins parlées ou minoritaires, il n’existe pas beaucoup de recherches sur la MT. Notamment, dans le cas de notre mémoire, pour la paire de langues français-mongol, il n’existe aucune recherche publiée dessus. Ce mémoire consiste à retracer le travail que nous avons effectué pour la mise en place d’un système de traduction automatique neuronale (NMT) pour la paire de langues français-mongol. Notre intérêt réside en premier lieu dans la traduction automatique en nous intéressant à son développement et aux dernières technologies. Deuxièmement, nous nous pencherons sur la langue mongole en présentant ses caractéristiques ainsi que les travaux précédents liés à la MT. Ensuite, nous nous emploierons à entraîner, à partir d’un corpus parallèle open-source, des modèles de NMT français-mongol avec l’outil OpenNMT. Finalement, nous effectuerons deux évaluations automatiques et proposerons une méthode d’évaluation humaine, nommée «IFF », ce qui permet de connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction à usage commercial. Ce travail entend revitaliser la langue mongole et protéger la diversité de notre ADN culturel en établissant des liens avec d’autres langues principales à l’appui de la NMT.
Résumé
La naissance de la technologie des réseaux neuronaux permet non seulement de rendre plus rapide la traduction automatique (noté TA ci-dessous), mais aussi d’en améliorer la qualité. Néanmoins, la TA souffre encore de nombreuses erreurs qui varient largement d’une paire de langues à l’autre. Pour les paires de langues qui ne sont pas apparentées (par exemple, français-chinois), la qualité de la TA souffre encore de tares importantes. L’analyse des erreurs est donc nécessaire, que ce soit pour sensibiliser les utilisateurs aux imperfections de la TA ou pour tenter d’affiner cette technologie. De ce fait, l’évaluation de la qualité et l’analyse des erreurs de traduction automatique restent des sujets de recherche importants dans le domaine du traitement automatique des langues. Dans le contexte de démocratisation des moteurs de traduction automatique neuronale et d’attention croissante accordée à l’analyse des erreurs, nous explorerons les manières de développer une typologie d’erreurs pour la TA du français vers le chinois et les modalités de construction d’un corpus parallèle d’annotations d’erreurs. Nous nous intéresserons dans un premier temps à l’histoire de la traduction automatique, aux différentes méthodes d’évaluation de la qualité de la traduction automatique, aux types d’erreurs ainsi qu’à l’annotation d’erreurs. Ensuite, nous présentons des expériences qui comprennent la préparation de jeux de donnée, l’application des pré-traitements et l’annotation des erreurs. Finalement, nous effectuerons une analyse quantitative fondée sur des statistiques des erreurs d’adéquation et de fluidité annotées. Nous discutons également des résultats sur des causes des erreurs et des difficultés d’annotation pour une analyse qualitative.
Résumé
Le présent mémoire compile deux études menées au sein de l’agence de traduction Univoice, en lien avec la traduction automatique neuronale. Dans la première, nous évaluons les traductions produites par différents outils de traduction automatique neuronale disponibles sur le marché pour la paire de langue anglais-français, dans le cadre de la sélection d’un fournisseur tiers. Nous nous aidons pour cela de deux métriques humaines, inspirées du standard MQM-DQF, et de la métrique automatique BLEU. Dans la seconde étude, nous évaluons la viabilité du développement de moteurs de traduction automatique neuronale en interne, à l’aide de la technologie OpenNMT et de corpus multilingues alignés open-source. Nous mettons en place une série de scripts permettant l’extraction de textes alignés à partir de mémoires de traduction au format TMX et l’entraînement de modèles basés sur la technologie des réseaux de neurones récurrents LSTM, et évaluons les résultats obtenus sur un échantillon de traductions générées en sortie.
Résumé
La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l'algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.