recherche documentaire

Etude sur l’indexation automatique de documents dans un contexte de recherche d’information à caractère sensible

Résumé
L’accroissement incessant des documents pouvant être accessibles aux utilisateurs rend les techniques de Recherche Documentaire (RD) toujours plus perfectibles et souvent exigeantes en ressources linguistiques et en traitements spécifiques. Par ailleurs, il est couramment admis que les outils de TAL pour la Recherche Documentaire requièrent de vastes connaissances linguistiques.

Nous étudierons en première partie, les techniques et méthodes actuelles souvent utilisées dans le domaine de la recherche d’information. Dans une deuxième partie, nous tenterons de montrer l’intérêt d’une lemmatisation tout en discutant les avantages et les inconvénients d’une telle méthode à travers différentes langues indo‑européennes et non indo‑européennes.

Enfin, dans une troisième et dernière partie nous dégagerons les méthodes adaptées à la spécificité du travail de la DST, où nous avons effectué notre stage. Nous présenterons dans une étude de faisabilité, l’enrichissement de l’indexeur Mnogosearch grâce à l’optimisation de la pertinence des requêtes et la recherche d’améliorations linguistiques. Ainsi, nous analyserons les performances linguistiques relevant de la technique de lemmatisation appliquée à un modèle statistique, compte tenu du caractère sensible des documents. Cette étude nous mènera à construire un prototype simple illustrant la méthode choisie.