cooccurrences

Détection de relations morphologiques en corpus basée sur les cooccurrences

Résumé
Notre thématique de recherche est le développement d’un outil pour la détection des variantes morphologiques dérivationnelles dans un corpus spécialisé ici un corpus médical.

Notre méthode pour construire une base morphologique dérivationnelle est basée sur le regroupement des mots morphologiquement proches qui se trouvent dans un corpus spécialisé. Cette méthode se fonde sur l’observation que les mots morphologiquement apparentés se trouvent à proximité, à une courte distance, dans une fenêtre textuelle d’une taille comparable à celle d’un paragraphe.

Les regroupements sont réalisés en utilisant une technique de cooccurrences en choisissant une fenêtre de n mots.

Les cooccurrences sont calculées par un filtrage statistique basé sur le rapport de vraisemblance(likelihood ratio). Un filtrage morphologique sur la « racine » commune permet ensuite de déterminer les mots morphologiquement apparentés. Cette méthode est appliquée à un corpus du domaine médical de 7 millions de mots.