traduction automatique neuronale https://ertim.inalco.fr/ fr Système de traduction automatique neuronale français-mongol Historique, technologies, mise en place et évaluations https://ertim.inalco.fr/node/743 <span class="field field--name-title field--type-string field--label-hidden">Système de traduction automatique neuronale français-mongol Historique, technologies, mise en place et évaluations</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 16:03</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Shuai GAO</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2021</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">De nos jours, la traduction automatique (MT) est de plus en plus utilisée, surtout la traduction automatique neuronale, qui a porté la qualité des traductions à un nouveau niveau. Malgré son développement rapide, elle ne fonctionne de manière suffisante que pour des langues principales telles que l’anglais, le français, le chinois et l’espagnol, etc. En ce qui concerne les langues moins parlées ou minoritaires, il n’existe pas beaucoup de recherches sur la MT. Notamment, dans le cas de notre mémoire, pour la paire de langues français-mongol, il n’existe aucune recherche publiée dessus. Ce mémoire consiste à retracer le travail que nous avons effectué pour la mise en place d’un système de traduction automatique neuronale (NMT) pour la paire de langues français-mongol. Notre intérêt réside en premier lieu dans la traduction automatique en nous intéressant à son développement et aux dernières technologies. Deuxièmement, nous nous pencherons sur la langue mongole en présentant ses caractéristiques ainsi que les travaux précédents liés à la MT. Ensuite, nous nous emploierons à entraîner, à partir d’un corpus parallèle open-source, des modèles de NMT français-mongol avec l’outil OpenNMT. Finalement, nous effectuerons deux évaluations automatiques et proposerons une méthode d’évaluation humaine, nommée «IFF », ce qui permet de connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction à usage commercial. Ce travail entend revitaliser la langue mongole et protéger la diversité de notre ADN culturel en établissant des liens avec d’autres langues principales à l’appui de la NMT.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2508" hreflang="fr">traduction automatique neuronale</a></div> <div class="field__item"><a href="/taxonomy/term/2635" hreflang="fr">langue mongole</a></div> <div class="field__item"><a href="/taxonomy/term/2636" hreflang="fr">évaluation automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2523" hreflang="fr">évaluation humaine</a></div> <div class="field__item"><a href="/taxonomy/term/2637" hreflang="fr">score bleu</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/GAO_Shuai.pdf" type="application/pdf">GAO_Shuai.pdf</a></span> </div> </div> Tue, 10 Oct 2023 14:03:09 +0000 gestionnaire 743 at https://ertim.inalco.fr Évaluation de la qualité de la TAN français-chinois fondée sur une typologie des erreurs : le cas de la traduction littéraire https://ertim.inalco.fr/node/739 <span class="field field--name-title field--type-string field--label-hidden">Évaluation de la qualité de la TAN français-chinois fondée sur une typologie des erreurs : le cas de la traduction littéraire</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 15:14</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Xinyi ZHONG</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La naissance de la technologie des réseaux neuronaux permet non seulement de rendre plus rapide la traduction automatique (noté TA ci-dessous), mais aussi d’en améliorer la qualité. Néanmoins, la TA souffre encore de nombreuses erreurs qui varient largement d’une paire de langues à l’autre. Pour les paires de langues qui ne sont pas apparentées (par exemple, français-chinois), la qualité de la TA souffre encore de tares importantes. L’analyse des erreurs est donc nécessaire, que ce soit pour sensibiliser les utilisateurs aux imperfections de la TA ou pour tenter d’affiner cette technologie. De ce fait, l’évaluation de la qualité et l’analyse des erreurs de traduction automatique restent des sujets de recherche importants dans le domaine du traitement automatique des langues. Dans le contexte de démocratisation des moteurs de traduction automatique neuronale et d’attention croissante accordée à l’analyse des erreurs, nous explorerons les manières de développer une typologie d’erreurs pour la TA du français vers le chinois et les modalités de construction d’un corpus parallèle d’annotations d’erreurs. Nous nous intéresserons dans un premier temps à l’histoire de la traduction automatique, aux différentes méthodes d’évaluation de la qualité de la traduction automatique, aux types d’erreurs ainsi qu’à l’annotation d’erreurs. Ensuite, nous présentons des expériences qui comprennent la préparation de jeux de donnée, l’application des pré-traitements et l’annotation des erreurs. Finalement, nous effectuerons une analyse quantitative fondée sur des statistiques des erreurs d’adéquation et de fluidité annotées. Nous discutons également des résultats sur des causes des erreurs et des difficultés d’annotation pour une analyse qualitative.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2523" hreflang="fr">évaluation humaine</a></div> <div class="field__item"><a href="/taxonomy/term/2508" hreflang="fr">traduction automatique neuronale</a></div> <div class="field__item"><a href="/taxonomy/term/2627" hreflang="fr">typologie d&#039;erreurs</a></div> <div class="field__item"><a href="/taxonomy/term/2628" hreflang="fr">langue chinoise</a></div> <div class="field__item"><a href="/taxonomy/term/2629" hreflang="fr">annotation des erreurs de traduction</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/ZHONG_Xinyi.pdf" type="application/pdf">ZHONG_Xinyi.pdf</a></span> </div> </div> Tue, 10 Oct 2023 13:14:25 +0000 gestionnaire 739 at https://ertim.inalco.fr Intégration des technologies de traduction automatique neuronale à l'échelle d'une agence de traduction https://ertim.inalco.fr/node/634 <span class="field field--name-title field--type-string field--label-hidden">Intégration des technologies de traduction automatique neuronale à l&#039;échelle d&#039;une agence de traduction</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Victorien Villiers</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2019</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le présent mémoire compile deux études menées au sein de l’agence de traduction Univoice, en lien avec la traduction automatique neuronale. Dans la première, nous évaluons les traductions produites par différents outils de traduction automatique neuronale disponibles sur le marché pour la paire de langue anglais-français, dans le cadre de la sélection d’un fournisseur tiers. Nous nous aidons pour cela de deux métriques humaines, inspirées du standard MQM-DQF, et de la métrique automatique BLEU. Dans la seconde étude, nous évaluons la viabilité du développement de moteurs de traduction automatique neuronale en interne, à l’aide de la technologie OpenNMT et de corpus multilingues alignés open-source. Nous mettons en place une série de scripts permettant l’extraction de textes alignés à partir de mémoires de traduction au format TMX et l’entraînement de modèles basés sur la technologie des réseaux de neurones récurrents LSTM, et évaluons les résultats obtenus sur un échantillon de traductions générées en sortie.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2549" hreflang="fr">marché de la traduction</a></div> <div class="field__item"><a href="/taxonomy/term/2508" hreflang="fr">traduction automatique neuronale</a></div> <div class="field__item"><a href="/taxonomy/term/2550" hreflang="fr">métriques d’évaluation</a></div> <div class="field__item"><a href="/taxonomy/term/2551" hreflang="fr">mqm-dqf</a></div> <div class="field__item"><a href="/taxonomy/term/2552" hreflang="fr">opennmt</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/VILLIERS_Victorien_2019.pdf" type="application/pdf">VILLIERS_Victorien_2019.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 634 at https://ertim.inalco.fr Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés https://ertim.inalco.fr/node/624 <span class="field field--name-title field--type-string field--label-hidden">Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés </span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Yunbei Zhang</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l&#039;algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2507" hreflang="fr">adaptation des domaines</a></div> <div class="field__item"><a href="/taxonomy/term/2508" hreflang="fr">traduction automatique neuronale</a></div> <div class="field__item"><a href="/taxonomy/term/2428" hreflang="fr">méthode hybride</a></div> <div class="field__item"><a href="/taxonomy/term/2509" hreflang="fr">classification multi-classe</a></div> <div class="field__item"><a href="/taxonomy/term/2510" hreflang="fr">ngramme</a></div> <div class="field__item"><a href="/taxonomy/term/2511" hreflang="fr">naïve bayes</a></div> <div class="field__item"><a href="/taxonomy/term/2512" hreflang="fr">perplexité</a></div> <div class="field__item"><a href="/taxonomy/term/2513" hreflang="fr">valeur pondérée</a></div> <div class="field__item"><a href="/taxonomy/term/2514" hreflang="fr">traduction synthétique</a></div> <div class="field__item"><a href="/taxonomy/term/2515" hreflang="fr">f-mesure</a></div> <div class="field__item"><a href="/taxonomy/term/2516" hreflang="fr">bleu</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire-YunbeiZHANG.pdf" type="application/pdf">memoire-YunbeiZHANG.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 624 at https://ertim.inalco.fr