recherche d'information

Le rôle des relations sémantiques en recherche d'information : évaluation de relations sémantiques propres au domaine de la cogénération dans le cadre du projet Safir

Résumé
Dans le cadre du projet SAFIR, une terminologie du domaine de la cogénération a été constituée à partir d'un corpus textuel. Elle comprend plusieurs milliers de termes et différentes relations sémantiques reliant ces termes. Cette terminologie doit servir à l'enrichissement de requêtes et au filtrage des documents reçus comme éponses à ces requêtes dans une application de recherche d'information (RI).L'objectif de ce mémoire est de faire une évaluation des relations sémantiques de la terminologie Safir pour la recherche d'information sur la cogénération. Nous avons choisi de limiter notre étude aux relations dites "propres au domaine de la cogénération" (autres que les relations de synonymie, hyperonymie, ingrédience, antonymie).Dans un premier temps (1), nous présentons un état de l'art de la recherche sur les relations sémantiques dans le domaine de la RI. L'objectif étant de présenter les différentes relations sémantiques existantes entre termes, les méthodes mises en place pour l'acquisition de ces relations et de présenter des situations concrètes d'utilisation de ces relations. Ensuite (2), nous présentons le projet Safir et les relations sémantiques qui structurent la terminologie et enfin (3) nous proposons une évaluation des relations propres au domaine de la cogénération pour la recherche d'information et une analyse des résultats.

Alignement de corpus parallèles bilingues en médecine

Résumé
Le mémoire voudrait proposer une réflexion méthodologique et des outils informatiques permettant la constitution de lexiques électroniques bilingues. Une première phase du projet a trait à la méthodologie et aux techniques de collecte automatisée de corpus bilingues sur le Web. Elle explicite le choix du/des corpus sélectionnés. La constitution de lexique bilingue passe ensuite par l’alignement des couples de pages parallèles bilingues recueillies. Dans cette deuxième phase du projet, sont élaborées les différentes étapes (niveaux) de cet alignement, les techniques et les outils informatiques que l’on veut utiliser pour celles-ci. On cherchera à savoir également s’il existe un standard de codage pour ces niveaux d’alignement. L’alignement des couples de pages lui-même suppose une réflexion sur le travail de prétraitement des textes (sur la disposition formelle des textes notamment ). Une dernière phase concerne la mise au point des outils pour la collecte du lexique mis en correspondance dans les deux langues. Les correspondances observées seront comparées aux mots et termes des lexiques médicaux actuellement en cours.

L’indexation automatique de ressources pédagogiques numériques : élaboration d’une méthode d’application au projet Graines de Génie – Anglais

Résumé
L'indexation s'inscrit dans le domaine de la documentation et plus particulièrement de la recherche d'information.

C'est un champ trés large dans lequel l'indexation manuelle a dû laisser sa place à l'indexation automatique, plus rapide et économique. Pourtant, certaines difficultés inhérentes au language naturel n'ont pas pu être contournées. L'indexation automatique semble n'être accéssible que grâce à des logiciels performants.

L'indexation du projet Graine de Genie propose un autre mode d'accès à l'indexation automatique tout en introduisant l'aspect pédagogique. En effet, un index destiné à un jeune public ne tiendra pas compte des mêmes exigences qu'un autre, employé par des adultes.

Critéres pour la catégorisation automatique des documents numériques

Résumé
La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.