anglais

Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Résumé
Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d'Agents pour le Filtrage de l'Information sur les Réseaux) concernant la recherche d'information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l'aide d'outils d'extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l'outil 'Twente', qui aligne des textes au niveau des mots, et d'un outil développé par nos soins ('MagicTermFinder'). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l'application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables

Identification des entités nommées dans un corpus français-anglais-arabe

Résumé
Avec la montée en puissance des réseaux (Internet notamment), la taille des documents multilingues à traiter devient de plus en plus importante, ce qui augmente les besoins en outils de traitement automatique pour différentes langues. Parmi ces outils, beaucoup ont recours à la reconnaissance et l'extraction automatique des entités nommées : indexation automatique de documents, recherche d'information, traduction automatique, catégorisation, etc. Notre travail de stage consiste à repérer les entités nommées dans un corpus trilingue Anglais/Arabe/Français (non aligné) collecté à partir des ressources disponibles sur Internet. Dans notre mémoire, nous commencerons d'abord par la présentation d'un état de l'art pour passer en revue les récents systèmes développés pour la reconnaissance des entités nommées pour le Français et l'Anglais ayant notamment participé aux conférences MUC. Nous tenterons ensuite d'examiner ce qui a été fait pour le traitement automatique de l'Arabe et, si possible, ceux concernant l'extraction des entités nommées. Nous ferons ensuite le lien avec le travail réalisé durant notre stage et aborderons les difficultés rencontrées et les solutions mises en place pour les résoudre.