unitex

La reconnaissance des entités nommées chinoises basée sur une combinaison de règles et de statistique

Résumé
La réussite de la reconnaissance des entités nommées (REN) intéresse à la fois les chercheurs et les entreprises. À partir d'un état de l’art, ce mémoire utilise les principes de différentes approches en combinant les règles, les dictionnaires et aussi la statistique pour reconnaître les entités nommées de personnes dans un corpus chinois. L’objectif du mémoire est de trouver une meilleure approche face à toutes les difficultés particulières du chinois. Dans la première phase Le travail consiste à utiliser l’outil Unitex, à construire les graphes et les dictionnaires et dans la deuxième phase à ajouter un post-traitement statistique. À travers des expérimentations variées et des analyses apportées sur les doubles sous-catégories de personne, le meilleur résultat est obtenu par une approche hybride avec F-mesure de 0.769.