rule-based | Textes, Informatique, Multilinguisme

Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

En savoir plus sur Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)