noisy data https://ertim.inalco.fr/ fr Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining https://ertim.inalco.fr/node/555 <span class="field field--name-title field--type-string field--label-hidden">Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Dutrey</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2011</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L&#039;utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d&#039;usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d&#039;une phase de nettoyage visant à rapprocher les textes de la norme , à l&#039;extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2244" hreflang="fr">textes sales</a></div> <div class="field__item"><a href="/taxonomy/term/2245" hreflang="fr">données bruitées</a></div> <div class="field__item"><a href="/taxonomy/term/2246" hreflang="fr">nettoyage de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2247" hreflang="fr">fouille du contenu du Web</a></div> <div class="field__item"><a href="/taxonomy/term/2248" hreflang="fr">dirty texts</a></div> <div class="field__item"><a href="/taxonomy/term/2249" hreflang="fr">noisy data</a></div> <div class="field__item"><a href="/taxonomy/term/2250" hreflang="fr">text cleaning</a></div> <div class="field__item"><a href="/taxonomy/term/2251" hreflang="fr">text mining</a></div> <div class="field__item"><a href="/taxonomy/term/2252" hreflang="fr">Web content mining</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 555 at https://ertim.inalco.fr