allemand

Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Résumé
Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d'Agents pour le Filtrage de l'Information sur les Réseaux) concernant la recherche d'information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l'aide d'outils d'extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l'outil 'Twente', qui aligne des textes au niveau des mots, et d'un outil développé par nos soins ('MagicTermFinder'). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l'application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables

Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation

Résumé
Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l'alignement et l'extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l'alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.

Extraction d'entités nommées en allemand : impact des spécificités linguistiques

Résumé
Les entités nommées correspondent traditionnellement à tous les noms propres présents dans un texte, soit les noms de personnes, de lieux et d’organisations ainsi que d’autres syntagmes tels que les dates ou les expressions numériques (pourcentages, sommes d’argent, etc.).

L’extraction d’entités nommées est souvent évoquée en relation avec l’extraction d’information dont elle est par ailleurs issue. Cependant, bien d’autres applications en linguistique computationnelle peuvent faire usage des entités nommées en tant qu’elles constituent des indicateurs fondamentaux pour un accès pertinent au contenu des textes : moteurs de recherche, systèmes de questions-réponses, traduction automatique, entre autres.

Ce mémoire a pour but d’étudier les problématiques liées à l’extraction d’entités nommées, notamment en langue allemande.

A ce titre, nous proposons dans les Chapitres I et II un état des lieux sur le statut théorique des entités nommées et un état de l’art sur l’extraction d’entités nommées. Le Chapitre III introduit les problématiques liées à l’allemand au travers des propriétés linguistiques de cette langue, propriétés dont nous nous attachons à démontrer l’impact sur l’extraction d’entités nommées dans le Chapitre IV. Enfin, dans le Chapitre V, nous présentons la mise en œuvre dans la pratique de ressources linguistiques pour l’extraction d’entités nommées en allemand.