lisibilité

Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère

Résumé
Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.

La lisibilité dans le contexte de l'écologie numérique

Résumé
La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d'applications, de logiciels et de sites web. Pourtant, l'envoi d'un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l'énergie. L'écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l'écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l'éco-conception qui vise à rendre les textes d'un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l'aide d'algorithmes de classification non supervisée.

Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique

Résumé
Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.

Pratique de la lecture en L2 : classification automatique de textes en thaï par progression lexicale

Résumé
La création automatique de ressources pour l’apprentissage de langues étrangères peu enseignées et peu dotées en matériels pédagogiques est particulièrement séduisante. Or, le développement de méthodes spécifiques à une langue étant souvent problématique en termes de rentabilité quand les effectifs d’apprenants sont restreints, il est intéressant de considérer comment adapter des ressources existantes ou de développer des méthodes génériques adaptables pour la création de matériel pédagogique. Cette étude concerne l’adaptation à la langue thaïe du logiciel ​​ TextLadder, qui classifie ​l​ es textes d’un corpus dans un ordre qui maximise la facilité de lecture pour l’apprenant, en calculant la similarité lexicale entre les textes. Cette classification automatique de textes par la progression lexicale constitue une méthode intéressante pour proposer une séquence de textes appropriée au niveau d’un lecteur en L2, surtout en ce qui concerne les textes qui portent sur une thématique particulière, que ce soit pour proposer des textes à des lecteurs autonomes, ou pour la création de matériel pédagogique destiné à être utilisé en classe.