nettoyage de texte

Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining

Résumé
L'utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d'usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d'une phase de nettoyage visant à rapprocher les textes de la norme , à l'extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.