évaluation humaine

Système de traduction automatique neuronale français-mongol Historique, technologies, mise en place et évaluations

Résumé
De nos jours, la traduction automatique (MT) est de plus en plus utilisée, surtout la traduction automatique neuronale, qui a porté la qualité des traductions à un nouveau niveau. Malgré son développement rapide, elle ne fonctionne de manière suffisante que pour des langues principales telles que l’anglais, le français, le chinois et l’espagnol, etc. En ce qui concerne les langues moins parlées ou minoritaires, il n’existe pas beaucoup de recherches sur la MT. Notamment, dans le cas de notre mémoire, pour la paire de langues français-mongol, il n’existe aucune recherche publiée dessus. Ce mémoire consiste à retracer le travail que nous avons effectué pour la mise en place d’un système de traduction automatique neuronale (NMT) pour la paire de langues français-mongol. Notre intérêt réside en premier lieu dans la traduction automatique en nous intéressant à son développement et aux dernières technologies. Deuxièmement, nous nous pencherons sur la langue mongole en présentant ses caractéristiques ainsi que les travaux précédents liés à la MT. Ensuite, nous nous emploierons à entraîner, à partir d’un corpus parallèle open-source, des modèles de NMT français-mongol avec l’outil OpenNMT. Finalement, nous effectuerons deux évaluations automatiques et proposerons une méthode d’évaluation humaine, nommée «IFF », ce qui permet de connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction à usage commercial. Ce travail entend revitaliser la langue mongole et protéger la diversité de notre ADN culturel en établissant des liens avec d’autres langues principales à l’appui de la NMT.

Évaluation de la qualité de la TAN français-chinois fondée sur une typologie des erreurs : le cas de la traduction littéraire

Résumé
La naissance de la technologie des réseaux neuronaux permet non seulement de rendre plus rapide la traduction automatique (noté TA ci-dessous), mais aussi d’en améliorer la qualité. Néanmoins, la TA souffre encore de nombreuses erreurs qui varient largement d’une paire de langues à l’autre. Pour les paires de langues qui ne sont pas apparentées (par exemple, français-chinois), la qualité de la TA souffre encore de tares importantes. L’analyse des erreurs est donc nécessaire, que ce soit pour sensibiliser les utilisateurs aux imperfections de la TA ou pour tenter d’affiner cette technologie. De ce fait, l’évaluation de la qualité et l’analyse des erreurs de traduction automatique restent des sujets de recherche importants dans le domaine du traitement automatique des langues. Dans le contexte de démocratisation des moteurs de traduction automatique neuronale et d’attention croissante accordée à l’analyse des erreurs, nous explorerons les manières de développer une typologie d’erreurs pour la TA du français vers le chinois et les modalités de construction d’un corpus parallèle d’annotations d’erreurs. Nous nous intéresserons dans un premier temps à l’histoire de la traduction automatique, aux différentes méthodes d’évaluation de la qualité de la traduction automatique, aux types d’erreurs ainsi qu’à l’annotation d’erreurs. Ensuite, nous présentons des expériences qui comprennent la préparation de jeux de donnée, l’application des pré-traitements et l’annotation des erreurs. Finalement, nous effectuerons une analyse quantitative fondée sur des statistiques des erreurs d’adéquation et de fluidité annotées. Nous discutons également des résultats sur des causes des erreurs et des difficultés d’annotation pour une analyse qualitative.

Comparaison de systèmes de génération automatisée de textes

Résumé
Ce mémoire décrit la procédure d'un projet de génération de textes automatisée avec deux systèmes différents. Nous avons mis en place un corpus de modèles, de données d'entrée, rédigé les règles prises en compte dans le projet et programmé un système à base de réseau neuronal. Les deux systèmes doivent générer des textes à partir de données immobilières sur des villes et leur département. Ces textes doivent être compréhensibles et factuels, dans un but informatif. Nous comparerons les résultats obtenus par les deux systèmes de génération automatique de texte, ainsi que les notations obtenues pendant leur évaluation humaine. Nous détaillerons ainsi les spécificités des systèmes, ainsi que les avantages et inconvénients de chacun.

Génération automatique de rapports d’analyse financière. Développement et évaluation d’un système à base de règles

Résumé
Ce mémoire décrit le développement et l'évaluation d'un système de génération automatique de rapports d'analyse financière. Nous avons défini, modélisé et codé des règles de génération pour un système commercial permettant de générer régulièrement plusieurs centaines de rapports simplifiés d'analyse. Le système doit modéliser des données informatiques non-textuelles complexes afin de les utiliser dans des règles de génération définies en collaboration avec des analystes financiers. Ces règles doivent être représentatives de l'expertise d'un·e analyste et permettre de générer un texte cohérent d'un point de vue rhétorique et linguistique. Enfin, les rapports d'analyse générés doivent employer la langue spécialisée du domaine qu'est la finance de marché. Pour évaluer la qualité des textes générés, nous avons mis en place un protocole d'évaluation humaine par des spécialistes du domaine.