arabe

Identification des entités nommées dans un corpus français-anglais-arabe

Résumé
Avec la montée en puissance des réseaux (Internet notamment), la taille des documents multilingues à traiter devient de plus en plus importante, ce qui augmente les besoins en outils de traitement automatique pour différentes langues. Parmi ces outils, beaucoup ont recours à la reconnaissance et l'extraction automatique des entités nommées : indexation automatique de documents, recherche d'information, traduction automatique, catégorisation, etc. Notre travail de stage consiste à repérer les entités nommées dans un corpus trilingue Anglais/Arabe/Français (non aligné) collecté à partir des ressources disponibles sur Internet. Dans notre mémoire, nous commencerons d'abord par la présentation d'un état de l'art pour passer en revue les récents systèmes développés pour la reconnaissance des entités nommées pour le Français et l'Anglais ayant notamment participé aux conférences MUC. Nous tenterons ensuite d'examiner ce qui a été fait pour le traitement automatique de l'Arabe et, si possible, ceux concernant l'extraction des entités nommées. Nous ferons ensuite le lien avec le travail réalisé durant notre stage et aborderons les difficultés rencontrées et les solutions mises en place pour les résoudre. 

Terminologie ponctuelle – De la « Feuille de route » à la « hudna » : la guerre des mots

Résumé
Le concept d’un processus de paix pour régler le conflit israélo-palestinien n’es pas récent, et pourtant, l’analyse des documents officiels liés à la « feuille de route », le dernier plan de paix international révèle une nouvelle terminologie : « feuille de route », « quatuor », « hudna », « intifada »… Le choix des termes n’est pas innocent et révèle la pensée profonde de ceux qui les utilisent. Dans ce conflit, la guerre des mots qui a lieu dans les médias est aussi importante que celle que les deux parties se livrent sur le terrain. La « hudna » n’est pas une simple « trêve », de même que le mot « intifada » ne signifie plus « guerre des pierres ». Si le sens réel de ces emprunts à l’arabe est difficilement perceptible pour nos consciences occidentales, quelle idéologie cachent-ils ? Qu’en est-il pour le traducteur, dont l’art repose sur le choix du terme juste ? Autant de questions auxquelles la terminologie ponctuelle tente de répondre.