Mémoires 2019-2020

Générateur automatique des exercices à partir d’un corpus étiqueté. Applications et didactique pour le Géorgien
Auteur : Natia Davitashvili
Année : 2020
Résumé : Ce travail se focalise sur le développement d'outils de traitement automatique des langues
(TAL) pour l'apprentissage du géorgien dédiés aux francophones, dans lequel nous décrivons
nos recherches.
L'objet de ce mémoire est de proposer un générateur d’exercices sur la plateforme Moodle
(avec un plugin H5P) pour les enseignants, dans des exercices de conjugaison de verbes
géorgiens. Notre travail présente la réalisation de ce générateur d'exercices pour mettre en ligne
des exercices à trous et propose la conception de différents niveaux de complexité.
Ce document contient la présentation de la sociolinguistique du géorgien, ainsi que de brèves
explications sur la structure grammaticale du géorgien et les problèmes didactiques de cette
langue. Nous ferons un bilan des quelques avancées en traitement automatique de la langue
géorgienne. Ce travail propose une double problématique : théorique et technique, qui sont
liées avec la générateur d’exercices.
Les résultats obtenus montrent la faisabilité pour générer des exercices en géorgien à partir d'un
corpus et de critères. Nous dresserons quelques perspectives sur ce travail en particulier et plus
généralement sur la didactique numérique à partir de corpus.

Télécharger le mémoire

Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère
Auteur : Lucas Elias Fonseca
Année : 2020
Résumé : Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.
Correction post-OCR à base de SMT pour un corpus juridique
Auteur : Alexandr Ivanov
Année : 2020
Résumé : La reconnaissance optique des caractères (OCR) est une méthode d'extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l'image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l'une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d'OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).
Génération de ressources pour la fouille d’opinions. Comparaison d’approches et évaluations
Auteur : Clémence Laurent
Année : 2020
Résumé : Ce mémoire décrit la constitution automatique de ressources génériques destinées à des applications de fouilles d’opinions. Nous définissons des typologies pour des ressources de polarités générales, d’émotions et d’outils linguistiques. Nous adoptons alors trois méthodes pour la génération de ressources: une méthode de propagation d’informations linguistiques à travers un réseau sémantique, une méthode statistique d’estimation de polarité sur corpus et une méthode semi-automatique à l’aide de plongements lexicaux. Nous utilisons un corpus d’avis clients dans les domaines du multimédia et de la librairie, de la beauté et de l’ameublement. Les résultats obtenus sont prometteurs et sont meilleurs pour les ressources de polarités plutôt que d’émotions. Afin d’évaluer la qualité des ressources générées, nous mettons en place un protocole d’évaluation complet en menant des évaluations par comparaison à une ressource de référence, des évaluations humaines ainsi qu’une évaluation dans un contexte applicatif concret.
Comparaison de systèmes de génération automatisée de textes
Auteur : Maëva Leproux
Année : 2020
Résumé : Ce mémoire décrit la procédure d'un projet de génération de textes automatisée avec deux systèmes différents. Nous avons mis en place un corpus de modèles, de données d'entrée, rédigé les règles prises en compte dans le projet et programmé un système à base de réseau neuronal. Les deux systèmes doivent générer des textes à partir de données immobilières sur des villes et leur département. Ces textes doivent être compréhensibles et factuels, dans un but informatif. Nous comparerons les résultats obtenus par les deux systèmes de génération automatique de texte, ainsi que les notations obtenues pendant leur évaluation humaine. Nous détaillerons ainsi les spécificités des systèmes, ainsi que les avantages et inconvénients de chacun.

Télécharger le mémoire

Exploration des apports de la génération automatique de texte à la production de jeux vidéo
Auteur : Mélanie López Malet
Année : 2020
Résumé : Notre travail cherche à appliquer le modèle de langage de très grande taille
GPT-3 au domaine du jeu vidéo. Le but est de voir dans quelle mesure ce système
s’adapte aux spécificités de cette industrie, autant pour la production du contenu
narratif que pour la génération de dialogues de façon dynamique. Si ses faiblesses
impliquent de mettre en place des stratégies de supervision du contenu généré,
nombreux, ses performances permettent de développer une réflexion sur
l’intégration de l’intelligence artificielle dans les processus créatifs et, plus
largement sur de nouveaux modes d’interaction du joueur avec le médium
vidéoludique.
Mise en place d’un système robuste de reconnaissance automatique de la parole appliqué au domaine médical
Auteur : Lucía Ormaechea Grijalba
Année : 2020
Résumé : Le bon fonctionnement des systèmes de reconnaissance automatique de la parole s’avère un défi complexe dans le contexte de la traduction speech-to-speech utilisée dans le domaine médical. Ce mémoire présente un travail de recherche qui vise à construire un système robuste de reconnaissance vocale dans le cadre du projet BabelDr, un outil de traduction vocale quasi instantanée qui a été mis en place dans les Hôpitaux Universitaires de Genève (HUG) afin de favoriser l’interaction médecin-patient lorsqu’aucune langue n’est partagée. Actuellement, sa technologie de reconnaissance de la parole est issue d’un système boîte noire fourni par une société privée. Le but principal de cette étude est de rompre la dépendance à un dispositif externe en se basant sur des outils libres et qui pourront évoluer selon les besoins des HUG. Pour cela, nous proposons un système de reconnaissance vocale pour le français appuyé sur la boîte à outils Kaldi. Celle-ci permet d’effectuer une transcription automatique en temps réel, utilisant des modèles acoustiques hybrides HMM-DNN et une modélisation linguistique adaptée au discours médical caractéristique du contexte d’urgences. À la lumière des résultats globaux observés, une importante amélioration est constatée par rapport à l’approche boîte noire précédemment utilisée.

Télécharger le mémoire

Agent conversationnel pour la relation client - Technologies, architectures et cas d'usage au domaine bancaire
Auteur : Pierre Rochet
Année : 2020
Résumé : Nous proposons un agent conversationnel destiné à des conseillers clientèles dans le
domaine bancaire. Nous montrons qu’il est possible de créer une architecture complètement
basée sur des outils open source fiables. Nous nous appuyons sur le framework RASA, et
basons nos choix des modèles d’apprentissage sur l’équilibre coûts-performances. L’automatisation entre modélisation et implémentation ainsi que la structure en thématiques facilitent
grandement la flexibilité du système. Enfin nous présentons une perspective d’évolution pour
intégrer la gestion d’une FAQ dans l’architecture proposée. Ce composant, qui allie recherche
d’information et système de questions-réponses, permettrait d’élargir le périmètre de l’agent
pour peu d’efforts tout en restant très modulable.

Télécharger le mémoire

Une approche quantitative de modélisation des changements sémantiques sur les grandes échelles de données
Auteur : Maryna Stetsenko
Année : 2020
Résumé : Ce mémoire décrit les recherches qui ont été effectuées sur la modélisation de l’évolution
linguistique. Nous avons analysé les changements sémantiques de noms communs dans la
langue russe sur de grandes bases de données. Grâce à l’analyse quantitative qui a été proposée,
nous avons réalisé une modélisation des phénomènes proprement linguistiques, comme le
changement du sens des mots, à l’aide des outils d’analyse mathématiques et statistiques.
L’hypothèse de présence d’un schéma d’évolution, souvent qualifié d’une courbe en S, lorsque
le changement du sens a eu lieu, a été mathématiquement analysés au sein de ce mémoire.
Extraction des relations entre entités pour graphe de connaissance
Auteur : Siyu Wang
Année : 2020
Résumé : Face aux très grands volumes de donnée non structurée, il est parfois difficile pour les institutions bancaires d'analyser le marché dans sa globalité. L'apport des informations issues des articles de presse reste néanmoins un levier très important. Dans ce mémoire, nous essayons de trouver une méthode pour construire un pipeline de traitements automatiques sur des articles de presse afin de créer des graphes de connaissances. L'objectif est d'appliquer ces méthodes au milieu financier, qui permettra de construire une base de données orientée graphe qui contribuera à la surveillance continue du risque de crédit.
Étude de la pertinence des évaluations des systèmes de reconnaissance automatique de la parole
Auteur : Lucie Warckol
Année : 2020
Résumé : La Reconnaissance Automatique de la Parole est devenue un outil incontournable dans les nouvelles technologies, et elle est de plus en plus utilisée dans des applications quotidiennes (automobile, domotique, aviation, administration, médical . . . ). Ces applications étant de plus en plus pointues, spécifiques, exigeantes, les modèles de RAP doivent s’adapter pour accompagner cette évolution. Pour les rendre plus sophistiqués et plus robustes sont utilisées des méthodes d’évaluation qui doivent elles aussi s’adapter. Ce mémoire a pour objet d’étudier la pertinence de ces méthodes d’évaluation. À travers l’état de l’art sont d’abord décrits les principaux modèles de RAP, les traditionnels et les modernes, ainsi que les principales méthodes d’évaluation correspondantes. Ensuite l’outil Kaldi a été testé sur deux corpus. Mais l’expérience a mis en évidence la complexité du processus, et ses résultats n’ont pas été probants. En conclusion, les méthodes d’évaluation présentent encore des faiblesses (formatage des chiffres, entités nommées et ponctuation ...) face aux applications
d’aujourd’hui, mais la démocratisation des processus et le développement des techniques d’optimisation contribuent à leur perfectionnement.

Télécharger le mémoire

Proposition d’une visualisation interactive pour la plateforme LEOnard. Quel est l’apport de la visualisation aux analyses sémantiques ?
Auteur : Emilie Xia
Année : 2020
Résumé : Ce travail s’inscrit dans le projet Dataviz de la plateforme LEOnard qui consiste
en l’amélioration d’une interface de recherche basée sur la datavisualisation. Dans
le but de satisfaire une demande de présentation différente de l’information en mettant en relation des entités nommées en plus d’un affichage dynamique des relations
sémantiques et événements les impliquant.
La nouvelle Dataviz interactive et dynamique doit pouvoir présenter différents
aspects des données transformées grâce à des outils d’analyses sémantiques, à travers différentes visualisations. Malgré les différentes contraintes liées aux données
elles-mêmes ou à la conception. Nous verrons notamment dans ce travail comment
la visualisation permet de définir de nouvelles questions ou hypothèses à propos des
résultats issus de l’analyse sémantique qu’il aurait été difficile de remarquer autrement.