classification multi-classe des textes

Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine

Résumé
Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.

Étude sur l’apport de la sélection des caractéristiques dans la classification multi-classe des textes

Résumé
Ce travail porte sur l’étude de l’apport de la sélection de caractéristiques pour la classification multi-classe de textes. Quatre méthodes de sélection ont été comparées : la spécificité lexicale, le TF-IDF, l’information mutuelle, et la différence proportionnelle catégorique. Pour éviter l’effet du sur-apprentissage, la sélection des caractéristiques a été intégrée à la validation croisée pour chaque sous-échantillon d’apprentissage. L’évaluation est réalisée principalement par un algorithme Bayésien Naïf Multinomial, et des tests sur les Machines à Vecteurs de Support ont été menés pour étudier l’effet de la régularisation. Selon des résultats expérimentaux, la spécificité lexicale, qui a obtenu une micro-moyenne F-mesure de 72.14% avec une réduction de 57% de caractéristiques, est la méthode la plus performante. .