clustering par densité https://ertim.inalco.fr/ fr Une application d’algorithmes de densité pour la détection de citations en paraphrase https://ertim.inalco.fr/node/731 <span class="field field--name-title field--type-string field--label-hidden">Une application d’algorithmes de densité pour la détection de citations en paraphrase</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">lun 09/10/2023 - 16:19</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Noélie BOTTERO</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail porte sur la détection de reprises de citations d&#039;un corpus issu de la presse française, sur le thème de la guerre en Ukraine. Nous utilisons des méthodes de clusterisation par densité afin de repérer les citations identiques et similaires. Nous avons choisi d&#039;utiliser les algorithmes OPTICS et DBSCAN qui permettent de regrouper des formes textuelles similaires sans avoir au préalable de données annotées. Cette application permet également de questionner l&#039;importance du traitement en amont du contenu textuel, de quantifier les performances du modèle et de comparer les résultats des différentes clusterisations. Nous constatons que l&#039;algorithme OPTICS surpasse DBSCAN en termes de scores. La continuité de ce travail serait d&#039;une part, de pouvoir ordonner les citations de manière temporelle, de pouvoir les suivre dans la presse et d&#039;autre part, une aide à l&#039;annotation manuelle.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2593" hreflang="fr">clustering par densité</a></div> <div class="field__item"><a href="/taxonomy/term/2394" hreflang="fr">citations</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/2594" hreflang="fr">dbscan</a></div> <div class="field__item"><a href="/taxonomy/term/2595" hreflang="fr">optics</a></div> <div class="field__item"><a href="/taxonomy/term/2596" hreflang="fr">tfidf</a></div> <div class="field__item"><a href="/taxonomy/term/2597" hreflang="fr">word2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2527" hreflang="fr">doc2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2598" hreflang="fr">scikit-learn</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/BOTTERO.pdf" type="application/pdf">BOTTERO.pdf</a></span> </div> </div> Mon, 09 Oct 2023 14:19:36 +0000 gestionnaire 731 at https://ertim.inalco.fr