corpus comparables

Extraction terminologique à partir de corpus spécialisés comparable collectés sur le web: construction d'un lexique de termes économiques trilingue

Résumé
L’objectif de ce mémoire est de mettre en place une méthode qui permette d’extraire la terminologie à partir de corpus spécialisés comparables collectés sur la toile en italien, anglais et français. Les candidats-Terme extraits et validés, pourront ensuite être exploités pour la création d’un glossaire du domaine économique trilingue. Les listes de termes seront constituées en utilisant une méthode à la fois linguistique et statistique. L’extraction terminologique sera effectuée dans un premier temps à l’aide des N-grams constitués en utilisant l’outil TreeTagger. Ensuite, j’évaluerai le logiciel d’extraction terminologique TermoStat en m’appuyant sur le glossaire de référence créé au préalable. Le but est d’évaluer ces outils afin de déterminer s’ils peuvent être utilisés par un traducteur ou interprète dans la phase préparatoire des documents.

Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues

Résumé
Le but de cette étude est de créer une représentation visuelle, sous la forme de frise narrative, des épisodes de la première saison de Game of Thrones (Le trône de fer). Ce type de représentation permet de clarifier les interactions entre les personnages et la chronologie des événements dans une fiction au récit particulièrement complexe. Pour réaliser cette tâche, nous utilisons différentes méthodes d’alignement et d’extraction sur des corpus comparables liés à Game of Thrones. Au fur et à mesure, nous retenons les résultats les plus pertinents pour améliorer notre frise. La frise finale contient les personnages alignés par scènes (qu’ils aient des dialogues ou non), les informations de lieu pour les situer, et des listes de termes caractéristiques qui décrivent les personnages et concepts clé de chaque épisode. .

Le Projet Pertomed. Création d'une terminologie français/russe dans le domaine de la pharmacovigilance à partir de corpus comparables

Résumé
Nous avons élaboré une terminologie bilingue français / russe susceptible de faciliter l'automatisation des traductions dans le domaine de la pharmacovigilance – qui relève du domaine biomédical et pharmacologique –, mais aussi l’uniformisation du codage de l’information biomédicale en russe, qui reste pour l’instant très hétérogène compte tenu du manque de données spécifiques à cette langue dans les grandes bases de données internationales. En partant d’un corpus déjà défini en français, composé principalement des Résumés des Caractéristiques du Produit, nous avons constitué un corpus comparable pour le russe de 14 000 mots. Les résultats se présentent sous la forme d’un tableau où figurent en version bilingue 485 mots-vedettes, tous des substantifs, les syntagmes nominaux où ceux-ci apparaissent en tête ou en expansion, ainsi que les références permettant de rattacher ces termes aux sous-domaines auxquels ils appartiennent.

Exploitation de critéres de distinction automatique des textes scientifiques et vulgarisés autour des notions "diabéte / régime alimentaire"

Résumé
Aprés avoir constitué deux corpus japonais (scientifique et vulgarisé) dans le cadre du projet DECO, diverses analyses ont été effectuées sur ces corpus pour en dégager des critéres de la distinction automatique des textes scientifiques et vulgarisés.

Des critéres proposés par des études précédentes comme quelques critéres originaux (dont celui de la mise en rapport des styles "neutre / poli" avec les catégories "scientifique / vulgarisé") ont été examinés et exploités.