extension de requêtes

Le rôle des relations sémantiques en recherche d'information : évaluation de relations sémantiques propres au domaine de la cogénération dans le cadre du projet Safir

Résumé
Dans le cadre du projet SAFIR, une terminologie du domaine de la cogénération a été constituée à partir d'un corpus textuel. Elle comprend plusieurs milliers de termes et différentes relations sémantiques reliant ces termes. Cette terminologie doit servir à l'enrichissement de requêtes et au filtrage des documents reçus comme éponses à ces requêtes dans une application de recherche d'information (RI).L'objectif de ce mémoire est de faire une évaluation des relations sémantiques de la terminologie Safir pour la recherche d'information sur la cogénération. Nous avons choisi de limiter notre étude aux relations dites "propres au domaine de la cogénération" (autres que les relations de synonymie, hyperonymie, ingrédience, antonymie).Dans un premier temps (1), nous présentons un état de l'art de la recherche sur les relations sémantiques dans le domaine de la RI. L'objectif étant de présenter les différentes relations sémantiques existantes entre termes, les méthodes mises en place pour l'acquisition de ces relations et de présenter des situations concrètes d'utilisation de ces relations. Ensuite (2), nous présentons le projet Safir et les relations sémantiques qui structurent la terminologie et enfin (3) nous proposons une évaluation des relations propres au domaine de la cogénération pour la recherche d'information et une analyse des résultats.

Etude sur l’indexation automatique de documents dans un contexte de recherche d’information à caractère sensible

Résumé
L’accroissement incessant des documents pouvant être accessibles aux utilisateurs rend les techniques de Recherche Documentaire (RD) toujours plus perfectibles et souvent exigeantes en ressources linguistiques et en traitements spécifiques. Par ailleurs, il est couramment admis que les outils de TAL pour la Recherche Documentaire requièrent de vastes connaissances linguistiques.

Nous étudierons en première partie, les techniques et méthodes actuelles souvent utilisées dans le domaine de la recherche d’information. Dans une deuxième partie, nous tenterons de montrer l’intérêt d’une lemmatisation tout en discutant les avantages et les inconvénients d’une telle méthode à travers différentes langues indo‑européennes et non indo‑européennes.

Enfin, dans une troisième et dernière partie nous dégagerons les méthodes adaptées à la spécificité du travail de la DST, où nous avons effectué notre stage. Nous présenterons dans une étude de faisabilité, l’enrichissement de l’indexeur Mnogosearch grâce à l’optimisation de la pertinence des requêtes et la recherche d’améliorations linguistiques. Ainsi, nous analyserons les performances linguistiques relevant de la technique de lemmatisation appliquée à un modèle statistique, compte tenu du caractère sensible des documents. Cette étude nous mènera à construire un prototype simple illustrant la méthode choisie.