extraction de textes

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Résumé
Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus