Auteur
              Lucas Elias Fonseca
          Année
              2020
          Résumé
              Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification  de  textes  en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées  sur  la  lisibilité  textuelle  et  9  sur  les  différentes  parties  du  discours,  considérées  pertinentes pour  la  didactique  des  langues  étrangères.  On  classe  les  textes  selon  leur  niveau  de  difficulté  selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes  de  classification:  Naïve-Bayes, machines  de  vecteur  à  support,  régression  logistique  et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode  de  classification  basée  sur la  régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon  générale,  les  classifieurs  ont  été  moins  performants  pour  les  niveaux  A2  et  B1,  impactant  le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification  des  variables,  avec  une  amélioration  de  la  performance  des  arbres  de  décision.  Lesvariables  basées  sur  la  didactique  des  langues  étrangères  se  sont  montrées  peu  performantes  dans l’optimisation de la classification des textes.
          