Constitution d’un corpus bilingue aligné français-persan
Résumé
Ce mémoire présente une méthode d’alignement de corpus parallèles. Nous utiliserons un corpus journalistique bilingue français-persan constitué à partir des numéros d’avril à septembre 2003 du Monde diplomatique. La première phase consistera à aligner deux corpus, paragraphe par paragraphe. Ensuite, nous procéderons à une évaluation des problèmes rencontrés et nous proposerons des critères permettant d’améliorer les performances de cette méthode.
Notre objectif est d’aligner deux langues de système graphique différent, en l’occurrence le persan et le français, et d’en présenter les limites et par la même occasion, les outils qui ont été utilisés pour mener à bien ce travail. Après une brève description de la structure du persan, nous tâcherons de décrire les différences morpho-syntaxiques par rapport au français. Et enfin, l’analyse des résultats de l’alignement permettra de mettre en lumière les difficultés et les complexités de notre démarche.
Notre objectif est d’aligner deux langues de système graphique différent, en l’occurrence le persan et le français, et d’en présenter les limites et par la même occasion, les outils qui ont été utilisés pour mener à bien ce travail. Après une brève description de la structure du persan, nous tâcherons de décrire les différences morpho-syntaxiques par rapport au français. Et enfin, l’analyse des résultats de l’alignement permettra de mettre en lumière les difficultés et les complexités de notre démarche.