algorithmes de classification https://ertim.inalco.fr/ fr Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère https://ertim.inalco.fr/node/712 <span class="field field--name-title field--type-string field--label-hidden">Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 02/02/2021 - 11:37</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Lucas Elias Fonseca</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2020</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2648" hreflang="fr">portugais comme langue étrangère</a></div> <div class="field__item"><a href="/taxonomy/term/2649" hreflang="fr">algorithmes de classification</a></div> <div class="field__item"><a href="/taxonomy/term/2362" hreflang="fr">lisibilité</a></div> <div class="field__item"><a href="/taxonomy/term/2650" hreflang="fr">didactique des langues étrangères</a></div> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2364" hreflang="fr">apprentissage automatique</a></div> </div> </div> Tue, 02 Feb 2021 10:37:09 +0000 gestionnaire 712 at https://ertim.inalco.fr