Année
2015
Résumé
Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.
Fichier