discours

Etude contrastive des données morphologiques dans les documents médicaux scientifiques et vulgarisés

Résumé
Dans ce travail, nous proposons une étude contrastive des documents médicaux catégorisés par trois discours : vulgarisé, étudiant et professionnel. Nous nous intéressons en particulier de savoir s'il existe des traits saillants du niveau morphologique dans ces types de documents.

Le travail est effectué avec des données de trois domaines médicaux : pneumologie, cardiologie et diabète.

Nous appliquons des méthodes du traitement automatique de langue et d'apprentissage supervisé, accompagnées d'une analyse manuelle détaillée et précise. Nos résultats montrent qu'il existe effectivement des traits morphologiques (et lexicaux associés) propres aux discours étudiés.

Qu'il s'agisse des familles morphologiques (leur composition, taille, ...) ou d'algorithmes d'apprentissage, des caractéristiques discursives propres à ces corpus émergent.

Critéres pour la catégorisation automatique des documents numériques

Résumé
La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.