La lexicographie bilingue en traduction automatique d’une langue peu dotée : une chaîne opératoire pour l’amharique
Résumé
La traduction automatique, en tant que champ de recherche scientifique et de développement technique, témoignait – au tournant des années 2020 – d’un intérêt croissant pour les applications de son objet d’étude aux langues dites "peu dotées", langues pour lesquelles les données nécessaires au développement de systèmes de traduction automatique neuronaux n’existent qu’en quantités infimes, les approches communément employées pour pallier ce déficit consistant à tenter d’obtenir ces données depuis le Web où les langues peu dotées souffrent pourtant d’un défaut notable de représentation. La présente étude s’est proposé d’extraire les données nécessaires à la compilation d’un corpus parallèle au départ de ressources alternatives – les seules images des pages de documents relevant de la lexicographie bilingue – et d’étudier, en les comparant, l’impact de telles données sur les performances de systèmes de traduction automatique, à la faveur d’une suite d’expériences appliquées à la paire de langue amharique-anglais.