alignement de corpus spécialisés

Alignement de corpus parallèles bilingues en médecine

Résumé
Le mémoire voudrait proposer une réflexion méthodologique et des outils informatiques permettant la constitution de lexiques électroniques bilingues. Une première phase du projet a trait à la méthodologie et aux techniques de collecte automatisée de corpus bilingues sur le Web. Elle explicite le choix du/des corpus sélectionnés. La constitution de lexique bilingue passe ensuite par l’alignement des couples de pages parallèles bilingues recueillies. Dans cette deuxième phase du projet, sont élaborées les différentes étapes (niveaux) de cet alignement, les techniques et les outils informatiques que l’on veut utiliser pour celles-ci. On cherchera à savoir également s’il existe un standard de codage pour ces niveaux d’alignement. L’alignement des couples de pages lui-même suppose une réflexion sur le travail de prétraitement des textes (sur la disposition formelle des textes notamment ). Une dernière phase concerne la mise au point des outils pour la collecte du lexique mis en correspondance dans les deux langues. Les correspondances observées seront comparées aux mots et termes des lexiques médicaux actuellement en cours.