XML

Entrées de dictionnaire multilingue pour traducteurs : méthode d’automatisation

Résumé
La terminologie est une part importante de la traduction. Elle permet de désambiguïser, mais permet également aux traducteurs de produire un document homogène et cohérent avec le texte de la langue d’origine. Les bases de données terminologiques, dictionnaires multilingues du traducteur, sont des ressources spécialisées dans cette application. Ce mémoire propose une méthode d’automatisation d’entrées de bases terminologiques dont l’approche consiste à extraire les définitions de termes donnés ainsi que la source de ces définitions, et de construire une structure XML compatible avec une base terminologique MultiTerm à partir des données. Les langues traitées ici sont l’anglais, l’allemand et le français, cependant le programme Python qui résulte de ce mémoire peut être adapté à diverses langues et diverses bases de données.

Description et indexation de ressources vidéo

Résumé
Le programme « Manifestations scientifiques en lignes » présente des entretiens vidéo de chercheurs. Pour ce programme, un système de navigation, a été mis en place. Il s’appuie sur un glossaire qui permet d’indexer les séquences vidéo. La construction de ce système s’appuie sur trois principes : la description des séquences, la constitution du glossaire et d’un index de ces séquences par le glossaire, au format XML. Par un traitement XSLT, les séquences et le glossaire sont affichés au format HTML qui permet ainsi de naviguer dans le glossaire et les séquences. Ce projet ouvre une réflexion sur l’exploitation du corpus terminologique ainsi constitué.

Terminologie d'entreprise : recherche de solutions pour la refonte de l'existant : proposition d'un outil de gestion de bases de données terminologiques

Résumé
Les besoins en terminologie deviennent de plus en plus importants dans les entreprises. En effet, de nombreuses données terminologiques multilingues coexistent sans pour autant être homogènes et normalisées. Dans ce mémoire, nous nous interrogeons donc sur la méthodologie à utiliser afin d'obtenir une base de données terminologique structurée et de qualité. D'autre part, nous posons la question de savoir comment procéder pour éviter la « pollution » de la future base ? Nous comparons trois solutions différentes : extraction terminologique à partir de corpus, tri des données, reprise de l'existant. La première solution serait idéale. Cependant, dans quelle mesure est-il possible de changer les pratiques existantes au profit de la construction terminologique à partir des corpus textuels ? Plusieurs contraintes nous font pencher vers la deuxième solution à savoir tri et récupération d'un fond terminologique en associant un code de fiabilité à chaque terme par exemple.

Parallèlement à cette réflexion, nous proposons un modèle d'un outil de gestion de bases de données terminologiques accessible via l'Intranet. Il est nécessaire que cet outil tienne compte des évolution en matière d'échanges de données terminologiques au format XML (MARTIF, GENETER etc.).

Les architectures de traitements linguistiques

Résumé
Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d'obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d'être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d'information que de format des données. Notre objectif dans ce mémoire est de décrire l'intégration d'outils de TAL dans une plate-forme d'enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l'adéquation des jeux d'étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d'annotations. Nous apportons également un regard critique sur l'enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d'outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l'art sur les plate-formes et outils d'analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l'ensemble des annotations linguistiques liées au corpus.