comparaison

Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète

Résumé
Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L'intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d'un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L'analyse de quelques exemples linguistiquement représentatifs montre qu'aucun des outils de segmentation n'est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d'un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.