Mémoires 2021-2022

Entrées de dictionnaire multilingue pour traducteurs : méthode d’automatisation

Auteur : Kirsten BERLAND

Année : 2022

Mots clés : traduction, dictionnaire multilingue, sdl multiterm, définition, programmation python, base de données terminologique, beautiful soup, XML, Traitement Automatique des Langues, site internet

Résumé : La terminologie est une part importante de la traduction. Elle permet de désambiguïser, mais permet également aux traducteurs de produire un document homogène et cohérent avec le texte de la langue d’origine. Les bases de données terminologiques, dictionnaires multilingues du traducteur, sont des ressources spécialisées dans cette application. Ce mémoire propose une méthode d’automatisation d’entrées de bases terminologiques dont l’approche consiste à extraire les définitions de termes donnés ainsi que la source de ces définitions, et de construire une structure XML compatible avec une base terminologique MultiTerm à partir des données. Les langues traitées ici sont l’anglais, l’allemand et le français, cependant le programme Python qui résulte de ce mémoire peut être adapté à diverses langues et diverses bases de données.

Télécharger le mémoire

Une application d’algorithmes de densité pour la détection de citations en paraphrase

Auteur : Noélie BOTTERO

Année : 2022

Mots clés : clustering par densité, citations, presse, dbscan, optics, tfidf, word2vec, doc2vec, scikit-learn

Résumé : Ce travail porte sur la détection de reprises de citations d'un corpus issu de la presse française, sur le thème de la guerre en Ukraine. Nous utilisons des méthodes de clusterisation par densité afin de repérer les citations identiques et similaires. Nous avons choisi d'utiliser les algorithmes OPTICS et DBSCAN qui permettent de regrouper des formes textuelles similaires sans avoir au préalable de données annotées. Cette application permet également de questionner l'importance du traitement en amont du contenu textuel, de quantifier les performances du modèle et de comparer les résultats des différentes clusterisations. Nous constatons que l'algorithme OPTICS surpasse DBSCAN en termes de scores. La continuité de ce travail serait d'une part, de pouvoir ordonner les citations de manière temporelle, de pouvoir les suivre dans la presse et d'autre part, une aide à l'annotation manuelle.

Télécharger le mémoire

Comparaison de Topic Models pour l'extraction de lexique et la classification de courts textes

Auteur : Arthur BOUZARD

Année : 2022

Mots clés : français langue étrangère, apprentissage automatique, topic modelling, lexique thématique, plongements lexicaux

Résumé : Cette étude fait suite à celles des précédents stagiaires du Français des affaires, qui s'articule autour de la construction d'un système de notation automatique de copies de Test d'Evaluation de Français, un examen à forts enjeux permettant l'obtention du droit de résidence ou de naturalisation en France ou au Canada. Ce système se basant sur des caractéristiques extraites des copies de l'examen, nous nous penchons sur l'automatisation de l'extraction d'une caractéristique qui était produite en partie manuellement. Cette dernière se repose sur la confection manuelle laborieuse de lexiques thématiques. De nombreuses études utilisent le topic modelling pour l'alignement de lexiques bilingues voire même l'extraction de lexiques par niveau de langue, nous nous attarderons ici sur cette technique afin d'entretenir le système de notation automatique.

Télécharger le mémoire

Classification automatique de documents : application aux exercices de manuels scolaires

Auteur : Élise LINCKER

Année : 2022

Mots clés : classification, classification multi-classes, génération automatique de textes, apprentissage automatique, manuel scolaire, dyspraxie

Résumé : Dans une démarche d’inclusion scolaire, le projet MALIN (MAnuels scoLaires INclusifs) a pour objectif l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap. Ce mémoire s’inscrit dans le projet MALIN et se focalise sur l’adaptation de manuels de français de niveau élémentaire pour des élèves dyspraxiques. La première partie de ce travail porte sur la classification des exercices selon leur type d'adaptation. En raison d’un fort déséquilibre des classes dans le jeu de données, la deuxième partie traite de la génération de données artificielles. Diverses approches de classification et de génération sont expérimentées et discutées. Les résultats obtenus sont très encourageants, malgré des données multimodales peu étudiées et présentant une structure et un langage qui leur sont propres.

Télécharger le mémoire

Segmentation thématique de transcriptions automatiques de données audiovisuelle

Auteur : Lufei LIU

Année : 2022

Mots clés : segmentation thématique automatique, transcription automatique, thème, cohésion lexicale, métriques d’évaluation

Résumé : Structurer les données audiovisuelles est un travail important au vu de la quantité croissante de celles-ci. L’une des solutions est de les classer en fonction des thèmes abordés, un travail qui pourrait être réalisé, voire automatisé, à travers les techniques de la segmentation thématique automatiques. Segmenter un document en thèmes permet aux utilisateurs d’avoir une idée générale des thèmes traités, et ainsi de cibler plus facilement les informations qui les intéressent. Ce mémoire a pour objectif de comparer plusieurs méthodes de segmentation thématique et d’analyser leur applicabilité pour les transcriptions automatiques de données audiovisuelles. Nous présenterons le fonctionnement des méthodes choisies et les spécificités des données transcrites. Par la suite, nous évaluerons ces méthodes en empruntant un métrique que nous estimons plus objectif pour la tâche.

Télécharger le mémoire

La lexicographie bilingue en traduction automatique d’une langue peu dotée : une chaîne opératoire pour l’amharique

Auteur : Malik MARMONIER

Année : 2022

Mots clés : traduction automatique, langue peu dotée, lexicographie bilingue, corpus parallèle, amharique

Résumé : La traduction automatique, en tant que champ de recherche scientifique et de développement technique, témoignait – au tournant des années 2020 – d’un intérêt croissant pour les applications de son objet d’étude aux langues dites "peu dotées", langues pour lesquelles les données nécessaires au développement de systèmes de traduction automatique neuronaux n’existent qu’en quantités infimes, les approches communément employées pour pallier ce déficit consistant à tenter d’obtenir ces données depuis le Web où les langues peu dotées souffrent pourtant d’un défaut notable de représentation. La présente étude s’est proposé d’extraire les données nécessaires à la compilation d’un corpus parallèle au départ de ressources alternatives – les seules images des pages de documents relevant de la lexicographie bilingue – et d’étudier, en les comparant, l’impact de telles données sur les performances de systèmes de traduction automatique, à la faveur d’une suite d’expériences appliquées à la paire de langue amharique-anglais.

Télécharger le mémoire

La reconnaissance optique des sinogrammes Cas d’usage du dictionnaire mandarin-taiwanais de Wu Shou-li/Ngôo Siù-lè

Auteur : Afala PHAXAY

Année : 2022

Mots clés : roc, reconnaissance optique de caractères, ocr, escriptorium, kraken, open source, numérisation de dictionnaire, mandarin-taïwanais, bopomofo, zhuyin fuhao , 注音符號

Résumé : Dans l'ère du numérique, de nombreux supports physiques deviennent encombrants et ne permettent plus une diffusion des informations qu'ils contiennent. C'est le cas des dictionnaires. Quelque soit leur taille, les dictionnaires physiques ne sont pas des outils simple d'utilisation pour toutes personnes qui souhaitent utiliser à l'extérieur de chez soi. Faire une recherche dans un dictionnaire électronique en ligne ou hors-ligne avec son téléphone devient un automatisme pour les utilisateurs qui délaissent les versions imprimées pour une interface plus conviviale et un accès simplifié. Et bien que les dictionnaires soient maintenant plus accessibles, ce sont surtout les dictionnaires récents qui sont concernés. Si aujourd'hui les dictionnaires sont conçus directement avec des outils numériques, certains ouvrages de référence plus anciens ne sont disponibles qu'en version imprimée et il peut être intéressant de les numériser. Dans un effort de préservation et d'une meilleure diffusion, on utilise la technique de reconnaissance optique de caractères pour reconstituer le contenu de ses ouvrages. Ce mémoire retrace le travail effectué pour la récupération des informations manquantes du dictionnaire mandarin-taiwanais de Wu Shou-li/Ngôo Siù-lè à l'aide de la reconnaissance optique de caractères et avec comme outils eScriptorium et kraken.

Télécharger le mémoire

Panorama sur la représentation des genres dans la presse française Une nouvelle approche basée sur l’Entity Linking

Auteur : Elodie PHOMMADY

Année : 2022

Mots clés : entity linking, dbpedia spotlight, identité de genre, représentation des genres, presse, français

Résumé : De nos jours, les médias ont indéniablement une influence sur nos sociétés, et inversement. De nombreux travaux ont mis l’accent sur les inégalités de genre, en particulier au sujet de la sous représentation médiatique des femmes par rapport aux hommes, en abordant le genre comme un concept binaire. Les autres identités de genre sont encore très peu incluses dans les problématiques étudiées, notamment en TAL. Nous proposons dans ce mémoire une méthode d’analyse de la représentation d’un éventail plus large de genres (féminin, masculin, nonbinaire, gender queer, gender fluid, trans) dans un vaste corpus de presse française, basée sur de la liaison d’entités mentionnées dans les articles (Entity Linking). Cette démarche présente des avantages, elle permet par exemple de traiter automatiquement un volume de données important, ou encore de prendre en compte cette diversité de genres. Elle fait cependant face à la complexité de la problématique, autant d’un point de vue sociologique que TAL. Les résultats obtenus confirment une sous-représentation des genres minoritaires, dans la presse comme dans les méthodes et ressources (bases de connaissance), face à laquelle quelques pistes de travail sont proposées.

Télécharger le mémoire

Construction de modèles grapheme-to-phoneme dans le système de reconnaissance automatique de la parole à base de ressources linguistiques accessibles sur le Web

Auteur : Hayoung SEO

Année : 2022

Mots clés : dictionnaire de prononciation, weighted-levenshtein, reconnaissance automatique de la parole, phonetisaurus, g2p, per

Résumé : Le système de reconnaissance automatique de la parole d’aujourd’hui a atteint un niveau significatif avec les avancées technologiques. Cependant, les ressources linguistiques à grande échelle constituant les modèles linguistiques tels que modèle de prononciation pour améliorer la qualité de ce système ne peuvent être appréciées que par les langues les plus économiquement réalisables. Répondre à ces problèmes dépendants des ressources linguistiques est l’un des défis majeurs dans le domaine de la reconnaissance vocale. Ce mémoire a donc pour l’objectif de proposer une méthode de développement rapide et pertinent de modèle de prononciation à l’aide de Phonetisaurus, un convertisseur Grapheme to-phoneme (G2P), s’appuyant sur l’ensemble des dictionnaires accessibles sur le Web afin de capitaliser le dictionnaire de prononciation de qualité. Nous utiliserons Wiktionnaire, un dictionnaire multilingue accessible sur le Web, et Lexique4linguists, une base de données lexicale du français. Ensuite, nous comparons ces dictionnaires avec un autre dictionnaire de prononciation, qui est le résultat de la prédiction d’un modèle de phonétisation existant, et corrigeons le résultat de la prédiction avec une connaissance phonologique et un effort humain minimal. Enfin, en répartissant l’ensemble des trois dictionnaires, nous entraînons trois modèles de phonétisation et les évaluons avec notre méthode d’évaluation WPER (Weighted Phoneme Error Rate) basée sur l’algorithme de Weighted Levenshtein. Nous avons obtenu un modèle grapheme-to-phoneme avec une performance de 97,88 % d’accuracy.

Télécharger le mémoire

Évaluation de la qualité de la TAN français-chinois fondée sur une typologie des erreurs : le cas de la traduction littéraire

Auteur : Xinyi ZHONG

Année : 2022

Mots clés : évaluation humaine, traduction automatique neuronale, typologie d'erreurs, langue chinoise, annotation des erreurs de traduction

Résumé : La naissance de la technologie des réseaux neuronaux permet non seulement de rendre plus rapide la traduction automatique (noté TA ci-dessous), mais aussi d’en améliorer la qualité. Néanmoins, la TA souffre encore de nombreuses erreurs qui varient largement d’une paire de langues à l’autre. Pour les paires de langues qui ne sont pas apparentées (par exemple, français-chinois), la qualité de la TA souffre encore de tares importantes. L’analyse des erreurs est donc nécessaire, que ce soit pour sensibiliser les utilisateurs aux imperfections de la TA ou pour tenter d’affiner cette technologie. De ce fait, l’évaluation de la qualité et l’analyse des erreurs de traduction automatique restent des sujets de recherche importants dans le domaine du traitement automatique des langues. Dans le contexte de démocratisation des moteurs de traduction automatique neuronale et d’attention croissante accordée à l’analyse des erreurs, nous explorerons les manières de développer une typologie d’erreurs pour la TA du français vers le chinois et les modalités de construction d’un corpus parallèle d’annotations d’erreurs. Nous nous intéresserons dans un premier temps à l’histoire de la traduction automatique, aux différentes méthodes d’évaluation de la qualité de la traduction automatique, aux types d’erreurs ainsi qu’à l’annotation d’erreurs. Ensuite, nous présentons des expériences qui comprennent la préparation de jeux de donnée, l’application des pré-traitements et l’annotation des erreurs. Finalement, nous effectuerons une analyse quantitative fondée sur des statistiques des erreurs d’adéquation et de fluidité annotées. Nous discutons également des résultats sur des causes des erreurs et des difficultés d’annotation pour une analyse qualitative.

Télécharger le mémoire