apprentissage supervisé

Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine

Résumé
Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.