Année
2004
Résumé
Présentation d'une problématique donnée telle que l'alignement d'un corpus franco-arabe sous un double aspect : identification des principaux problèmes spécifiques à l'alignement de corpus bilingue à l'aide d'outils de traitement automatique des langues et identification des problèmes spécifiques à un corpus franco-arabe donné à l'aide d'un outil de segmentation automatique donné (AlignEdit). Identification des repères fiables et non-fiables (tels que les chiffres, les nombres, les dates et les entités nommées) susceptibles d'être utilisés par des outils de segmentation et d'analyse syntaxique automatique en fonction des particularités de la structure grammaticale et syntaxique de la langue arabe mise en comparaison avec celles de la langue française dans un corpus obtenu à l'aide d'un outil automatique de capture et constitution de corpus électroniques.