métriques d’évaluation

Segmentation thématique de transcriptions automatiques de données audiovisuelle

Résumé
Structurer les données audiovisuelles est un travail important au vu de la quantité croissante de celles-ci. L’une des solutions est de les classer en fonction des thèmes abordés, un travail qui pourrait être réalisé, voire automatisé, à travers les techniques de la segmentation thématique automatiques. Segmenter un document en thèmes permet aux utilisateurs d’avoir une idée générale des thèmes traités, et ainsi de cibler plus facilement les informations qui les intéressent. Ce mémoire a pour objectif de comparer plusieurs méthodes de segmentation thématique et d’analyser leur applicabilité pour les transcriptions automatiques de données audiovisuelles. Nous présenterons le fonctionnement des méthodes choisies et les spécificités des données transcrites. Par la suite, nous évaluerons ces méthodes en empruntant un métrique que nous estimons plus objectif pour la tâche.

Intégration des technologies de traduction automatique neuronale à l'échelle d'une agence de traduction

Résumé
Le présent mémoire compile deux études menées au sein de l’agence de traduction Univoice, en lien avec la traduction automatique neuronale. Dans la première, nous évaluons les traductions produites par différents outils de traduction automatique neuronale disponibles sur le marché pour la paire de langue anglais-français, dans le cadre de la sélection d’un fournisseur tiers. Nous nous aidons pour cela de deux métriques humaines, inspirées du standard MQM-DQF, et de la métrique automatique BLEU. Dans la seconde étude, nous évaluons la viabilité du développement de moteurs de traduction automatique neuronale en interne, à l’aide de la technologie OpenNMT et de corpus multilingues alignés open-source. Nous mettons en place une série de scripts permettant l’extraction de textes alignés à partir de mémoires de traduction au format TMX et l’entraînement de modèles basés sur la technologie des réseaux de neurones récurrents LSTM, et évaluons les résultats obtenus sur un échantillon de traductions générées en sortie.