alignement de mots

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Résumé
Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus

Alignement de mots dans un corpus parallèle pour l'enrichissement de la terminologie médicale

Résumé
Ce mémoire présente une méthode pour repérer des termes médicaux dans un corpus parallèle français-anglais par alignement de mots.

Nous avons deux objectifs: la détection de nouveaux termes médicaux français et la création d'une liste de termes médicaux bilingue.

Aprés avoir exposé nos objectifs et le contexte dans lequel ils s'inscrivent, nous procédons à un état de l'art du domaine de l'alignement puis à la description pratique de la méthode employée (alignement de phrases, alignement de mots puis sélection de termes médicaux).

Nous évaluons les résultats obtenus, qui sont prometteurs (parmi les termes médicaux sélectionnés, nous calculons une précision de 48%) méme si sujets à amélioration.

Nous tentons ensuite d'appliquer notre méthode à un corpus français-hindi en introduisant une difficulté nouvelle, celle posée par une langue "peu dotée".

Nous terminons en discutant les résultats et en proposant des pistes d'amélioration de la méthode.