corpus parallèle

La lexicographie bilingue en traduction automatique d’une langue peu dotée : une chaîne opératoire pour l’amharique

Résumé
La traduction automatique, en tant que champ de recherche scientifique et de développement technique, témoignait – au tournant des années 2020 – d’un intérêt croissant pour les applications de son objet d’étude aux langues dites "peu dotées", langues pour lesquelles les données nécessaires au développement de systèmes de traduction automatique neuronaux n’existent qu’en quantités infimes, les approches communément employées pour pallier ce déficit consistant à tenter d’obtenir ces données depuis le Web où les langues peu dotées souffrent pourtant d’un défaut notable de représentation. La présente étude s’est proposé d’extraire les données nécessaires à la compilation d’un corpus parallèle au départ de ressources alternatives – les seules images des pages de documents relevant de la lexicographie bilingue – et d’étudier, en les comparant, l’impact de telles données sur les performances de systèmes de traduction automatique, à la faveur d’une suite d’expériences appliquées à la paire de langue amharique-anglais.

Evaluation d'un nouveau logiciel d'aide à la traduction par le biais de la création d'un glossaire juridique trilingue

Résumé
L'étude porte sur l'évaluation d'un nouveau logiciel de TAO en vue de la création d'un glossaire juridique trilingue français-anglais-néerlandais.

Les diverses fonctions du logiciel sont analysées dont notamment l'extraction de terminologie à partir de corpus paralléles.

Dans un second temps sera évoquée la problématique de la constitution d'une terminologie juridique trilingue : la linguistique juridique, la constitution de corpus, le filtrage de la terminologie extraite et la concordance entre les différentes langues.

Alignement de mots dans un corpus parallèle pour l'enrichissement de la terminologie médicale

Résumé
Ce mémoire présente une méthode pour repérer des termes médicaux dans un corpus parallèle français-anglais par alignement de mots.

Nous avons deux objectifs: la détection de nouveaux termes médicaux français et la création d'une liste de termes médicaux bilingue.

Aprés avoir exposé nos objectifs et le contexte dans lequel ils s'inscrivent, nous procédons à un état de l'art du domaine de l'alignement puis à la description pratique de la méthode employée (alignement de phrases, alignement de mots puis sélection de termes médicaux).

Nous évaluons les résultats obtenus, qui sont prometteurs (parmi les termes médicaux sélectionnés, nous calculons une précision de 48%) méme si sujets à amélioration.

Nous tentons ensuite d'appliquer notre méthode à un corpus français-hindi en introduisant une difficulté nouvelle, celle posée par une langue "peu dotée".

Nous terminons en discutant les résultats et en proposant des pistes d'amélioration de la méthode.