techniques de clustering

Les techniques de clustering appliquées à la catégorisation de textes

Résumé
Les techniques de clustering initialement développées en data mining permettent de catégoriser les données structurées. Des algorithmes tels CURE, BIRCH ou CHAMELEON adoptent une approche de clustering hiérarchique (regroupement progressif des clusters) alors que d’autres algorithmes s’appuient sur un partitionnement des données, comme par exemple l’algorithme–Means. De nombreuses solutions ont ainsi été développées, suivant la nature et l’homogénéité des données, la taille des bases, les performances de rapidité et de robustesse. Le text mining qui s’intéresse à l’exploitation des données textuelles constitue un nouveau défi après le data mining. La grande question qui nous occupe est de savoir dans quelle mesure les travaux du data mining peuvent être repris dans le text mining. La catégorisation des textes soulève en effet des problèmes délicats liés à la nature des données textuelles dont la structuration n’est pas évidente (on parle données non structurées et semi-structurées). Des méthodes pour mesurer la similarité entre les textes ont néanmoins été établies afin de procéder à du clustering de documents et notamment de pages web. Nous essayerons d’analyser la pertinence de ces approches pour en cerner les limites et en entrevoir les possibilités. Ceci nous permettra de nous rendre compte si les techniques de clustering du data mining peuvent être réutilisées en text mining ou si au contraire, le problème doit être traité, abordé différemment.