Extraction d'entités nommées en allemand : impact des spécificités linguistiques
Résumé
Les entités nommées correspondent traditionnellement à tous les noms propres présents dans un texte, soit les noms de personnes, de lieux et d’organisations ainsi que d’autres syntagmes tels que les dates ou les expressions numériques (pourcentages, sommes d’argent, etc.).
L’extraction d’entités nommées est souvent évoquée en relation avec l’extraction d’information dont elle est par ailleurs issue. Cependant, bien d’autres applications en linguistique computationnelle peuvent faire usage des entités nommées en tant qu’elles constituent des indicateurs fondamentaux pour un accès pertinent au contenu des textes : moteurs de recherche, systèmes de questions-réponses, traduction automatique, entre autres.
Ce mémoire a pour but d’étudier les problématiques liées à l’extraction d’entités nommées, notamment en langue allemande.
A ce titre, nous proposons dans les Chapitres I et II un état des lieux sur le statut théorique des entités nommées et un état de l’art sur l’extraction d’entités nommées. Le Chapitre III introduit les problématiques liées à l’allemand au travers des propriétés linguistiques de cette langue, propriétés dont nous nous attachons à démontrer l’impact sur l’extraction d’entités nommées dans le Chapitre IV. Enfin, dans le Chapitre V, nous présentons la mise en œuvre dans la pratique de ressources linguistiques pour l’extraction d’entités nommées en allemand.
L’extraction d’entités nommées est souvent évoquée en relation avec l’extraction d’information dont elle est par ailleurs issue. Cependant, bien d’autres applications en linguistique computationnelle peuvent faire usage des entités nommées en tant qu’elles constituent des indicateurs fondamentaux pour un accès pertinent au contenu des textes : moteurs de recherche, systèmes de questions-réponses, traduction automatique, entre autres.
Ce mémoire a pour but d’étudier les problématiques liées à l’extraction d’entités nommées, notamment en langue allemande.
A ce titre, nous proposons dans les Chapitres I et II un état des lieux sur le statut théorique des entités nommées et un état de l’art sur l’extraction d’entités nommées. Le Chapitre III introduit les problématiques liées à l’allemand au travers des propriétés linguistiques de cette langue, propriétés dont nous nous attachons à démontrer l’impact sur l’extraction d’entités nommées dans le Chapitre IV. Enfin, dans le Chapitre V, nous présentons la mise en œuvre dans la pratique de ressources linguistiques pour l’extraction d’entités nommées en allemand.