classification automatique

Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine

Résumé
Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.

Variations Phonétiques des Accents de la Langue Italienne

Résumé
Ce mémoire de recherche vise à analyser les variations phonétiques des accents de l’italien contemporain, divisés en trois grandes zones (Nord, Centre et Sud) au sein d’un grand corpus de parole continue et semi-spontanée de journaux radiodiffusés. Les analyses acoustiques étant fondées sur la durée des phonèmes consonantiques d’une part et sur les valeurs des formants des voyelles de l’autre. Pour ce qui concerne la durée des phonèmes consonantiques, l’attention est posée sur les phénomènes de renforcement phono syntaxique et redoublement intervocalique qui se produisent sur toute classe de consonne, à l’exception des fricatives, chez les locuteurs des trois zones considérées. Pour les phonèmes vocaliques, une analyse des triangles vocaliques est menée d’abord, suivie d’une classification automatique des accents des locuteurs. Une dernière étude portera l’attention sur l’importance du genre du locuteur dans un contexte de détection automatique de l’origine.

Filtrage de paragraphes : reconnaissance de la langue et de l'écrit informel

Résumé
Ce mémoire propose une étude en deux volets pour le repérage, au niveau du paragraphe, de la langue et de l'écrit informel issu d'Internet. Il répond à deux besoins : adapter les traitements linguistiques aux types de texte et sélectionner les paragraphes de textes pertinents pour une tâche de recherche d'information.

Le premier volet traite de l'identification automatique des langues, il rend compte de l'implantation et de l'évaluation de quatre méthodes. On s'attache surtout à leurs performances sur de courtes séquences de texte.

Le second volet concerne la reconnaissance de l'écrit informel.

La démarche est appuyée par des travaux en linguistique variationnelle et sur les nouvelles formes de communication écrite, puis appronfondie par une analyse lexicométrique. Enfin, on décrit l'implantation d'un arbre de décision qui utilise les indices remarqués lors de l'étude linguistique.