fouille de texte

Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique

Résumé
Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).

Extraction de citations dans le domaine de la presse avec la résolution d’anaphores

Résumé
L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.

Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques

Résumé
Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.

Dé-identification cohérente de l’ensemble des documents cliniques d’un patient

Résumé
Ce travail propose une méthode de dé-identification pour les documents médicaux, permettant de traiter des ensembles de documents rattachés à un même patient. L'objectif est de conserver la cohérence entre les documents traitant d'un même patient, mais pas entre des documents traitant de patients différents. Notre méthode est basée sur un système symbolique, et se concentre sur la cohérence des dates et des noms de personne. Nous obtenons une F-mesure de 0.75, dont 0.77 pour les noms de famille et 0.91 pour les dates.

Apports de la catégorisation automatique à la veille collaborative

Résumé
Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.

Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining

Résumé
L'utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d'usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d'une phase de nettoyage visant à rapprocher les textes de la norme , à l'extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.

Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative

Résumé
Comment exploiter les résultats d’une enquête marketing de type qualitative ?

Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.

Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.

La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.