thésaurus

Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique

Résumé
Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).

Création semi-automatique d'un thésaurus du domaine bancaire et application à la fouille d'opinion

Résumé
La fouille d’opinion devient une approche de plus en plus intéressante pour les entreprises qui souhaitent évaluer la qualité de leurs produits auprès de leurs clients. Notre travail consiste à évaluer des relations, c’est-à-dire des opinions émises précisément sur des objets appelés cibles. Nous créons un thésaurus sur le domaine bancaire afin d’avoir des cibles prédéfinies. Nous nous basons sur un corpus composé d’avis clients récupérés sur internet. Nous abordons deux approches, une à base d’un module d’extraction déjà existant et une autre à base de règles que nous allons développer nous-mêmes. Nous ne pouvons présenter de résultats pour l’approche à base de règles pour cause d’incompatibilité des sorties des différents outils. Nous obtenons un rappel plus faible par rapport à l’état de l’art sur une problématique similaire avec l’approche utilisant le thésaurus. Mais nos résultats globaux sont supérieurs, avec une F-mesure de 70,1%.

Apports de la catégorisation automatique à la veille collaborative

Résumé
Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.

L’intégration du thésaurus dans le traitement de la catégorisation automatique

Résumé
Ce mémoire étudie le projet « catégorisation automatique » sur la plateforme LEOnard du département Etudes économiques de BNP Paribas. Ainsi il étudie le schéma du site LEOnard afin de comprendre les caractéristiques du corpus à catégoriser et afin de trouver la meilleure stratégie. Cependant, la richesse et la variété d’information rendent la catégorisation automatique plus complexe. Après avoir examiné l’approche de l’apprentissage automatique, nous nous rendons compte que cette approche n’est plus suffisante. Nous avons introduit le thésaurus dans la chaîne de traitement afin d’affiner l’extraction de termes dans le corpus. En calculant le score de termes dans le thésaurus, nous avons réussi à obtenir un résultat très satisfaisant.