classification multi-classe des textes https://ertim.inalco.fr/ fr Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine https://ertim.inalco.fr/node/620 <span class="field field--name-title field--type-string field--label-hidden">Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine </span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Xi Rong</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2388" hreflang="fr">classification multi-classe des textes</a></div> <div class="field__item"><a href="/taxonomy/term/2491" hreflang="fr">apprentissage supervisé</a></div> <div class="field__item"><a href="/taxonomy/term/2492" hreflang="fr">système de classification</a></div> <div class="field__item"><a href="/taxonomy/term/1949" hreflang="fr">classification automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2493" hreflang="fr">open source</a></div> <div class="field__item"><a href="/taxonomy/term/2494" hreflang="fr">mesure d’évaluation</a></div> <div class="field__item"><a href="/taxonomy/term/2495" hreflang="fr">validation croisée</a></div> <div class="field__item"><a href="/taxonomy/term/2496" hreflang="fr">leo-score</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/RONG%20Xi.pdf" type="application/pdf">RONG Xi.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 620 at https://ertim.inalco.fr Étude sur l’apport de la sélection des caractéristiques dans la classification multi-classe des textes https://ertim.inalco.fr/node/590 <span class="field field--name-title field--type-string field--label-hidden">Étude sur l’apport de la sélection des caractéristiques dans la classification multi-classe des textes</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail porte sur l’étude de l’apport de la sélection de caractéristiques pour la classification multi-classe de textes. Quatre méthodes de sélection ont été comparées : la spécificité lexicale, le TF-IDF, l’information mutuelle, et la différence proportionnelle catégorique. Pour éviter l’effet du sur-apprentissage, la sélection des caractéristiques a été intégrée à la validation croisée pour chaque sous-échantillon d’apprentissage. L’évaluation est réalisée principalement par un algorithme Bayésien Naïf Multinomial, et des tests sur les Machines à Vecteurs de Support ont été menés pour étudier l’effet de la régularisation. Selon des résultats expérimentaux, la spécificité lexicale, qui a obtenu une micro-moyenne F-mesure de 72.14% avec une réduction de 57% de caractéristiques, est la méthode la plus performante. .</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2388" hreflang="fr">classification multi-classe des textes</a></div> <div class="field__item"><a href="/taxonomy/term/2389" hreflang="fr">sélection de caractéristiques</a></div> <div class="field__item"><a href="/taxonomy/term/2390" hreflang="fr">apprentissage supervisé</a></div> <div class="field__item"><a href="/taxonomy/term/2391" hreflang="fr">validation croisée</a></div> <div class="field__item"><a href="/taxonomy/term/2392" hreflang="fr">régularisation</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire-masterTAL-Yuming-ZHAI.pdf" type="application/pdf">memoire-masterTAL-Yuming-ZHAI.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 590 at https://ertim.inalco.fr