n-grams

Extraction terminologique à partir de corpus spécialisés comparable collectés sur le web: construction d'un lexique de termes économiques trilingue

Résumé
L’objectif de ce mémoire est de mettre en place une méthode qui permette d’extraire la terminologie à partir de corpus spécialisés comparables collectés sur la toile en italien, anglais et français. Les candidats-Terme extraits et validés, pourront ensuite être exploités pour la création d’un glossaire du domaine économique trilingue. Les listes de termes seront constituées en utilisant une méthode à la fois linguistique et statistique. L’extraction terminologique sera effectuée dans un premier temps à l’aide des N-grams constitués en utilisant l’outil TreeTagger. Ensuite, j’évaluerai le logiciel d’extraction terminologique TermoStat en m’appuyant sur le glossaire de référence créé au préalable. Le but est d’évaluer ces outils afin de déterminer s’ils peuvent être utilisés par un traducteur ou interprète dans la phase préparatoire des documents.