Extraction de termes complexes à partir de bases de connaissances

Auteur
Andréa De Sousa
Année
2018
Résumé
L'acquisition, à partir de larges collections de textes, d'unités lexicales multi-mots pertinentes du point de vue de la terminologie est un enjeu fondamental dans le contexte de la recherche d’information. En effet, leur identification conduit à une amélioration du processus d’indexation de documents, et permet de guider l'utilisateur dans sa quête d'information. Notre travail propose ainsi deux méthodes d'extraction de ces unités, aussi appelées termes complexes. La première se base sur un modèle CRF supervisé pour l'étiquetage de données séquentielles. Notre seconde méthode exploite la puissance des patrons morphosyntaxiques et des grammaires locales.