structure

Détection de contenu utile depuis des sites d’actualité

Résumé
Dans un contexte de veille sur des sites d’actualité, la détection automatique du contenu rédigé par les journalistes est nécessaire au bon déroulement de traitements linguistiques automatisés. Nous adressons ce sujet en partant du constat que sur un même site d’actualité c’est principalement le contenu textuel porteur d’information qui change d’une page à l’autre. Plus généralement, nous définissons le contenu utile comme le contenu textuel qui diffère entre deux pages internet du même site. Nous utilisons différentes heuristiques et une comparaison par distance d’édition entre arbres HTML de mêmes structures pour déterminer ce contenu utile. Nous montrons que notre approche améliore les résultats par rapport à un outil de référence sur un corpus composé de pages récentes issues de différents sites d’actualité.