structure https://ertim.inalco.fr/ fr Détection de contenu utile depuis des sites d’actualité https://ertim.inalco.fr/node/579 <span class="field field--name-title field--type-string field--label-hidden">Détection de contenu utile depuis des sites d’actualité</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Dans un contexte de veille sur des sites d’actualité, la détection automatique du contenu rédigé par les journalistes est nécessaire au bon déroulement de traitements linguistiques automatisés. Nous adressons ce sujet en partant du constat que sur un même site d’actualité c’est principalement le contenu textuel porteur d’information qui change d’une page à l’autre. Plus généralement, nous définissons le contenu utile comme le contenu textuel qui diffère entre deux pages internet du même site. Nous utilisons différentes heuristiques et une comparaison par distance d’édition entre arbres HTML de mêmes structures pour déterminer ce contenu utile. Nous montrons que notre approche améliore les résultats par rapport à un outil de référence sur un corpus composé de pages récentes issues de différents sites d’actualité.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1938" hreflang="fr">internet</a></div> <div class="field__item"><a href="/taxonomy/term/2357" hreflang="fr">structure</a></div> <div class="field__item"><a href="/taxonomy/term/2358" hreflang="fr">contenu</a></div> <div class="field__item"><a href="/taxonomy/term/1759" hreflang="fr">information</a></div> <div class="field__item"><a href="/taxonomy/term/2359" hreflang="fr">détection</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/report.pdf" type="application/pdf">report.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 579 at https://ertim.inalco.fr