apprentissage automatique

Prise en compte de la dimension collocative dans la notation automatique de productions écrites en français langue étrangère

Résumé
Ce travail s’inscrit dans la continuité de celui de plusieurs personnes, qui ont déjà construit un modèle et ses caractéristiques pour classer des copies de tests de français (pour l’obtention du statut de résident ou de la naturalisation, en France ou au Canada), ceci dans un premier temps jusqu’à un niveau intermédiaire, puis sur l’ensemble des niveaux de langue A1 à C2 du Cadre européen commun de référence pour les langues (Coe, 2001).
De nombreuses études ayant démontré que les collocations au sens large, c’est-à-dire aussi sous leur aspect « collostructions » (collocations qui prennent en compte la structure grammaticale [Stefanowitsch and Gries, 2003], [Paquot, 2018]) permettent de départager entre eux les apprenants de niveau avancé (B2 à C2), nous allons donc créer des caractéristiques qui en sont issues, pour non seulement tenter d’améliorer le modèle existant, mais aussi utiliser des indicateurs pédagogiquement parlants car linguistiquement pertinents ([Valette and Eensoo, 2014] et non pas uniquement distributionnels.

Classification automatique de documents : application aux exercices de manuels scolaires

Résumé
Dans une démarche d’inclusion scolaire, le projet MALIN (MAnuels scoLaires INclusifs) a pour objectif l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap. Ce mémoire s’inscrit dans le projet MALIN et se focalise sur l’adaptation de manuels de français de niveau élémentaire pour des élèves dyspraxiques. La première partie de ce travail porte sur la classification des exercices selon leur type d'adaptation. En raison d’un fort déséquilibre des classes dans le jeu de données, la deuxième partie traite de la génération de données artificielles. Diverses approches de classification et de génération sont expérimentées et discutées. Les résultats obtenus sont très encourageants, malgré des données multimodales peu étudiées et présentant une structure et un langage qui leur sont propres.

Comparaison de Topic Models pour l'extraction de lexique et la classification de courts textes

Résumé
Cette étude fait suite à celles des précédents stagiaires du Français des affaires, qui s'articule autour de la construction d'un système de notation automatique de copies de Test d'Evaluation de Français, un examen à forts enjeux permettant l'obtention du droit de résidence ou de naturalisation en France ou au Canada. Ce système se basant sur des caractéristiques extraites des copies de l'examen, nous nous penchons sur l'automatisation de l'extraction d'une caractéristique qui était produite en partie manuellement. Cette dernière se repose sur la confection manuelle laborieuse de lexiques thématiques. De nombreuses études utilisent le topic modelling pour l'alignement de lexiques bilingues voire même l'extraction de lexiques par niveau de langue, nous nous attarderons ici sur cette technique afin d'entretenir le système de notation automatique.

Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère

Résumé
Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.

Reconnaissance d’entités nommées dans les tweets

Résumé
Ce travail porte sur la création d’un système de la reconnaissances d’entité nommées (REN) pour les tweets. La REN est un composant crucial pour de nombreuses applications du TAL, tels que traduction automatique et résumé automatique. Cette tâche est un sujet bien étudié dans la communauté du TAL. Néanmoins, la performance des systèmes de la REN conçus pour des textes standard est souvent gravement dégradée sur des tweets. Dans ce mémoire, nous avons proposé un système de la REN pour des tweets qui intègre deux modèles d’apprentissage automatique : le modèle à base d’ingénierie de caractéristiques peut traiter un grand volume de données en temps réel avec un résultat acceptabele et le modèle à base de réseaux de neurones peut produire un résultat de bonne qualité en terme de F mesure. Pour ce dernier, nous avons utiliser le plongement lexical dynamique qui est à l’origne de l’amélioration du résultat.

Prédiction d'une maladie rare : l'amyloïdose cardiaque

Résumé
Notre projet se focalise sur la prédiction de l’amyloïdose cardiaque, une maladie rare difficile à diagnostiquer et pour laquelle il n’existe pas encore de traitement. La détection précoce de maladies permettrait de traiter les symptômes en avance en plus de réduire l’impact de celles-ci. Un des obstacles majeur que l’on trouve lorsqu’on travaille avec des données cliniques est la présence de données personnelles. Cette problématique est largement abordée dans la littérature, qui propose en majorité de traiter ce sujet à travers la reconnaissance d’entités nommées. Pour cette raison, nous effectuons une tâche de désidentification en implémentant les deux méthodologies principales : une approche basée sur les connaissances et une approche guidée par les données. Dans un deuxième temps, nous effectuons la tâche de prédiction, qui repose sur des modèles d’apprentissage automatique. Nous menons à terme deux types de classification. En premier lieu, une classification multiclasse, étant celles-ci l’amyloïdose et d’autres maladies cardiaques rares (F-mesure = 0,636), et dans un deuxième temps, une classification binaire, c’est-à-dire, amyloïdose ou non amyloïdose (F-mesure = 0,782). Les amyloïdoses, étant difficiles à diagnostiquer par les médecins, nous observons dans nos expériences que les prédictions sont aussi complexes à réaliser pour une machine, en particulier pour un apprentissage statistique dans la mesure où il faudrait savoir quels sont les éléments essentiels du diagnostic pour pouvoir fournir à la machine ces connaissances. Même si notre modèle n’atteint pas une grande performance en ce qui concerne la prédiction, le travail réalisé permet d’éclaircir les symptômes et signes les plus fréquents associés à l’amyloïdose cardiaque. Actuellement, il reste difficile de prédire cette maladie, mais les expériences menées pourraient servir comme aide aux médecins afin d’attirer leur attention sur des cas probables d’amyloïdose.

Extraction d’Entités d’Aliments/Médicaments à Partir de Textes Biomédicaux en Français

Résumé
Ce travail s’inscrit dans le cadre du Projet ANR MIAM (Maladies, Interactions Alimentation-Médicaments) dont l'intérêt central concerne l'extraction des informations sur les interactions entre l'alimentation et les médicaments. Ces interactions peuvent conduire à un effet indésirable. Dans ce contexte, l’objectif de notre travail est d’extraire les mentions de médicaments et d'aliments dans les textes biomédicaux, qui est une étape importante voire élémentaire pour permettre une gamme de tâches de fouille de textes en aval. Le point de départ est la constitution d’un corpus français pertinent qui nous permet ensuite d’expérimenter des approches adéquates à la reconnaissances des entités aliments/médicaments. Nous nous appuyons également sur des informations extraites des ressources terminologiques.

Optimisation du processus de recrutement par utilisation de méthodes d’intelligence artificielles

Résumé
Le marché du travail a connu le développement d’un grand nombre de sites d’offres d’emploicomme par exemple LINKEDIN, MONSTER qui ont permis de développer un marché de recrutement en ligne. Notre sujet porte sur le développement d’un outil permettant d’optimiser le temps de traitement des données lors du processus de recrutement. Ceci est en automatisant la présélection et l’évaluation des profils des candidats. L’objectif est de fournir un score de compatibilité entre une offre et chaque candidat, ce score reflète à quel point son profil correspond aux spécifications du poste. Notre travail se concentre sur l’analyse de CVs ainsi que les besoins métier du service de recrutement.

La lisibilité dans le contexte de l'écologie numérique

Résumé
La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d'applications, de logiciels et de sites web. Pourtant, l'envoi d'un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l'énergie. L'écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l'écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l'éco-conception qui vise à rendre les textes d'un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l'aide d'algorithmes de classification non supervisée.

Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique

Résumé
Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.