Traitement Automatique des Langues

Entrées de dictionnaire multilingue pour traducteurs : méthode d’automatisation

Résumé
La terminologie est une part importante de la traduction. Elle permet de désambiguïser, mais permet également aux traducteurs de produire un document homogène et cohérent avec le texte de la langue d’origine. Les bases de données terminologiques, dictionnaires multilingues du traducteur, sont des ressources spécialisées dans cette application. Ce mémoire propose une méthode d’automatisation d’entrées de bases terminologiques dont l’approche consiste à extraire les définitions de termes donnés ainsi que la source de ces définitions, et de construire une structure XML compatible avec une base terminologique MultiTerm à partir des données. Les langues traitées ici sont l’anglais, l’allemand et le français, cependant le programme Python qui résulte de ce mémoire peut être adapté à diverses langues et diverses bases de données.

Traitement automatique de ressources textuelles pour l’indexation de l’image. Etude de cas : La collection du Musée International d’Art Naïf

Résumé
L’objectif de notre étude est l’indexation d’un corpus d’images conservées dans une banque de données afin de les retrouver au travers de ressources textuelles qui leur sont liées. Le corpus est constitué de 897 photos d’objets d’art (tableaux, dessins, sculptures…) issus de la collection du Musée International d’Art Naïf de Vicq. Une typologie des textes et fragments textuels liés au corpus d’images a été établie, avant de définir des méthodes et outils de TAL pour leur traitement. L’outil principal créé est une hiérarchie de mots-clés. Il s’agit d’une version simplifiée et très réduite du thesaurus iconographique de François Garnier, réalisée après adaptation au corpus d’images et enrichissement au moyen d’un traitement automatique de ressources textuelles liées à ce corpus.