mesures de similarité https://ertim.inalco.fr/ fr Les techniques de clustering appliquées à la catégorisation de textes https://ertim.inalco.fr/node/163 <span class="field field--name-title field--type-string field--label-hidden">Les techniques de clustering appliquées à la catégorisation de textes</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les techniques de clustering initialement développées en data mining permettent de catégoriser les données structurées. Des algorithmes tels CURE, BIRCH ou CHAMELEON adoptent une approche de clustering hiérarchique (regroupement progressif des clusters) alors que d’autres algorithmes s’appuient sur un partitionnement des données, comme par exemple l’algorithme–Means. De nombreuses solutions ont ainsi été développées, suivant la nature et l’homogénéité des données, la taille des bases, les performances de rapidité et de robustesse. Le text mining qui s’intéresse à l’exploitation des données textuelles constitue un nouveau défi après le data mining. La grande question qui nous occupe est de savoir dans quelle mesure les travaux du data mining peuvent être repris dans le text mining. La catégorisation des textes soulève en effet des problèmes délicats liés à la nature des données textuelles dont la structuration n’est pas évidente (on parle données non structurées et semi-structurées). Des méthodes pour mesurer la similarité entre les textes ont néanmoins été établies afin de procéder à du clustering de documents et notamment de pages web. Nous essayerons d’analyser la pertinence de ces approches pour en cerner les limites et en entrevoir les possibilités. Ceci nous permettra de nous rendre compte si les techniques de clustering du data mining peuvent être réutilisées en text mining ou si au contraire, le problème doit être traité, abordé différemment.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2139" hreflang="fr">techniques de clustering</a></div> <div class="field__item"><a href="/taxonomy/term/2140" hreflang="fr">catégorisation de textes</a></div> <div class="field__item"><a href="/taxonomy/term/2141" hreflang="fr">mesures de similarité</a></div> <div class="field__item"><a href="/taxonomy/term/2142" hreflang="fr">web mining</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 163 at https://ertim.inalco.fr