méthode hybride

Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés Anonyme (non vérifié) ven 06/11/2020 - 00:00

Auteur

Yunbei Zhang

Année

2018

Résumé

La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l'algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.

Mots-clés

adaptation des domaines

traduction automatique neuronale

méthode hybride

classification multi-classe

traduction synthétique

f-mesure

bleu

Fichier

memoire-YunbeiZHANG.pdf

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue Anonyme (non vérifié) ven 06/11/2020 - 00:00

Auteur

Karolina Krygier

Année

2018

Résumé

L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.

Mots-clés

acquisition de connaissances

extraction terminologique

variation terminologique

méthode hybride

patrons morphosyntaxiques

distance de levenshtein

corpus multilingue

Fichier

memoire_Krygier.pdf

Utilisation d'une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Utilisation d'une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF Anonyme (non vérifié) ven 06/11/2020 - 00:00

Année

2017

Résumé

Ce mémoire traite de la détection automatique de la polarité dans un corpus de tweets traitant d'EDF. Le corpus est constitué des tweets extrais de Twitter via une application développée au sein d'EDF Commerce, appelée TweetsTracker. Cette application réalise plusieurs pré-traitements notamment un filtrage des tweets traitant d'EDF et une classification catégorie par thématique. Ces tweets sont ensuite stockés dans une base de données interne à EDF. Le corpus de l'étude sera composé d'un échantillon de ces tweets respectant la répartition par catégorie.

Mots-clés

méthode hybride

twitter

détection de sentiment

méthode symbolique

apprentissage automatique

Fichier

memoire POULAIN Mathilde 2017.pdf