corpus multilingue

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue

Résumé
L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.

Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation

Résumé
Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l'alignement et l'extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l'alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.