alignement

Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Résumé
Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d'Agents pour le Filtrage de l'Information sur les Réseaux) concernant la recherche d'information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l'aide d'outils d'extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l'outil 'Twente', qui aligne des textes au niveau des mots, et d'un outil développé par nos soins ('MagicTermFinder'). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l'application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables

Etude comparative de deux outils de TAO

Résumé
Le service de traduction du Parlement européen est une structure unique qui présente des caractéristiques très spécifiques. En effet, il faut gérer un très grand nombre de couples de langues et les documents sont d'une diversité extrêmement grande. Les outils pour aider le traducteur dans sa tâche sont très nombreux et variés. C'est la traduction assistée qui se prête le mieux aux besoins internes des traducteurs. L'outil utilisé jusqu'à présent était le TWB de la société Trados. Cependant, un autre programme a été mis au point en interne et il est actuellement en phase finale de test. Le travail de recherche que j'ai effectué au sein de cette institution pendant mon stage consiste à confronter le TWB avec FUSE, le nouvel outil de traduction assistée mis au point par un informaticien interne. Dans mon étude je cherche à savoir pourquoi un outil généraliste tel que le TWB ne s'est pas montré totalement efficace pour certains documents et a nécessité la création d'un nouvel outil. S'agit-il d'une faille au niveau du programme lui-même (problème structurel) ou bien, est-ce dû au contexte dans lequel cet outil est utilisé (problème environnemental) ? A travers une étude comparative des performances de ces deux outils sur un type de document particulier j'essaierai de montrer les aspects positifs et négatifs de chacun d'eux.

Constitution d’un corpus bilingue aligné français-persan

Résumé
Ce mémoire présente une méthode d’alignement de corpus parallèles. Nous utiliserons un corpus journalistique bilingue français-persan constitué à partir des numéros d’avril à septembre 2003 du Monde diplomatique. La première phase consistera à aligner deux corpus, paragraphe par paragraphe. Ensuite, nous procéderons à une évaluation des problèmes rencontrés et nous proposerons des critères permettant d’améliorer les performances de cette méthode.

Notre objectif est d’aligner deux langues de système graphique différent, en l’occurrence le persan et le français, et d’en présenter les limites et par la même occasion, les outils qui ont été utilisés pour mener à bien ce travail. Après une brève description de la structure du persan, nous tâcherons de décrire les différences morpho-syntaxiques par rapport au français. Et enfin, l’analyse des résultats de l’alignement permettra de mettre en lumière les difficultés et les complexités de notre démarche.

Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation

Résumé
Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l'alignement et l'extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l'alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.

Outils d'extraction et d'alignement terminologiques franco-japonais

Résumé
Ce mémoire propose une méthode pour constituer des ressources lexicales type glossaire, lexique etc. bilingues japonais français. Dans ce but, un outil d’extraction terminologique pour le japonais, ACABIT, y sera présenté et testé. Sur la base des termes extraits à partir d’un corpus à l’origine bilingue et ensuite alignés, nous avons pu élaborer des unités de traduction qui peuvent servir de base à la construction de ressources lexicales bilingues. Ce mémoire apporte également une évaluation et une critique des outils et logiciels étudiés et de la méthode envisagée.

Etude du Present Perfect anglais à partir de corpus parallèles

Résumé
L’objectif de ce mémoire est d’étudier un phénomène linguistique qui s’appelle «The Present Perfect Puzzle » à travers l’analyse d’un corpus parallèle anglais – français de 15Mo.

Pour illustrer ce phénomène, rappelons qu’à la différence du Passé composé français, le Present Perfect anglais ne peut pas apparaître avec les adverbes ponctuels. Un alignement de corpus dans les deux langues permettra d’étudier les cas précis de ce phénomène et de déterminer quels groupes d’adverbes peuvent apparaître avec ce temps dans chaque langue.

A l’aide de programmes créés en langage « perl », j’ai normalisé le corpus et j’en ai extrait toutes les phrases contenant plus particulièrement des adverbes temporels, y compris les expressions adverbiales. Le résultat de l’extraction comprend désormais deux fichiers, un pour chaque langue. Les phrases extraites sont alignées dans une interface Access pour permettre l’analyse linguistique proprement dite.

Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle

Résumé
Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.

Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.

Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.