alignement de corpus bilingue (franco-arabe)

Alignement de corpus bilingue franco-arabe à l'aide d'un outil de segmentation automatique donné afin de créer des ressources et d'obtenir des informations linguistiques pour développer de nouveaux outils informatiques de traitement automatique de corpus

Résumé
Présentation d'une problématique donnée telle que l'alignement d'un corpus franco-arabe sous un double aspect : identification des principaux problèmes spécifiques à l'alignement de corpus bilingue à l'aide d'outils de traitement automatique des langues et identification des problèmes spécifiques à un corpus franco-arabe donné à l'aide d'un outil de segmentation automatique donné (AlignEdit). Identification des repères fiables et non-fiables (tels que les chiffres, les nombres, les dates et les entités nommées) susceptibles d'être utilisés par des outils de segmentation et d'analyse syntaxique automatique en fonction des particularités de la structure grammaticale et syntaxique de la langue arabe mise en comparaison avec celles de la langue française dans un corpus obtenu à l'aide d'un outil automatique de capture et constitution de corpus électroniques.