traduction automatique

La lexicographie bilingue en traduction automatique d’une langue peu dotée : une chaîne opératoire pour l’amharique

La traduction automatique, en tant que champ de recherche scientifique et de développement technique, témoignait – au tournant des années 2020 – d’un intérêt croissant pour les applications de son objet d’étude aux langues dites "peu dotées", langues pour lesquelles les données nécessaires au développement de systèmes de traduction automatique neuronaux n’existent qu’en quantités infimes, les approches communément employées pour pallier ce déficit consistant à tenter d’obtenir ces données depuis le Web où les langues peu dotées souffrent pourtant d’un défaut notable de représentation. La présente étude s’est proposé d’extraire les données nécessaires à la compilation d’un corpus parallèle au départ de ressources alternatives – les seules images des pages de documents relevant de la lexicographie bilingue – et d’étudier, en les comparant, l’impact de telles données sur les performances de systèmes de traduction automatique, à la faveur d’une suite d’expériences appliquées à la paire de langue amharique-anglais.

En savoir plus sur La lexicographie bilingue en traduction automatique d’une langue peu dotée : une chaîne opératoire pour l’amharique

Correction post-OCR à base de SMT pour un corpus juridique

La reconnaissance optique des caractères (OCR) est une méthode d'extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l'image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l'une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d'OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).

En savoir plus sur Correction post-OCR à base de SMT pour un corpus juridique

Implementation of a new language into a rule-based Spoken Dialogue System

Le but de cette étude est de fournir une solution pour implémenter une nouvelle langue dans un système de dialogue vocal basé sur des règles. Notre approche repose sur l’hypothèse selon laquelle la traduction automatique peut aider à résoudre le problème de la portabilité vers une nouvelle langue. Nous procédons à la traduction automatique du système de dialogue de l’anglais vers le mandarin et évaluons ses performances. Les résultats indiquent que cette approche est efficace pour concevoir un système de dialogue multilingue.

En savoir plus sur Implementation of a new language into a rule-based Spoken Dialogue System

Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l'extraction, le traitement des rapports d'intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d'améliorer l'effet de levier et de réduire les coûts de traduction.

En savoir plus sur Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

En savoir plus sur Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles. L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.

En savoir plus sur Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

En savoir plus sur Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.

Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

En savoir plus sur Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Traduction automatique, traduction humaine : évaluation, avantages, complémentarité

Dans ce mémoire, nous visons à évaluer la traduction automatique, afin de permettre de proposer des critères en vue de son amélioration. Mais nous comparons d’abord la traduction automatique à la traduction humaine (qu’on a a priori pensé devoir être son modèle), après avoir présenté une méthode d’évaluation des traductions humaines.

En savoir plus sur Traduction automatique, traduction humaine : évaluation, avantages, complémentarité

Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d'aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l'aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général.

En savoir plus sur Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

S'abonner à traduction automatique