doc2vec https://ertim.inalco.fr/ fr Une application d’algorithmes de densité pour la détection de citations en paraphrase https://ertim.inalco.fr/node/731 <span class="field field--name-title field--type-string field--label-hidden">Une application d’algorithmes de densité pour la détection de citations en paraphrase</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">lun 09/10/2023 - 16:19</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Noélie BOTTERO</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail porte sur la détection de reprises de citations d&#039;un corpus issu de la presse française, sur le thème de la guerre en Ukraine. Nous utilisons des méthodes de clusterisation par densité afin de repérer les citations identiques et similaires. Nous avons choisi d&#039;utiliser les algorithmes OPTICS et DBSCAN qui permettent de regrouper des formes textuelles similaires sans avoir au préalable de données annotées. Cette application permet également de questionner l&#039;importance du traitement en amont du contenu textuel, de quantifier les performances du modèle et de comparer les résultats des différentes clusterisations. Nous constatons que l&#039;algorithme OPTICS surpasse DBSCAN en termes de scores. La continuité de ce travail serait d&#039;une part, de pouvoir ordonner les citations de manière temporelle, de pouvoir les suivre dans la presse et d&#039;autre part, une aide à l&#039;annotation manuelle.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2593" hreflang="fr">clustering par densité</a></div> <div class="field__item"><a href="/taxonomy/term/2394" hreflang="fr">citations</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/2594" hreflang="fr">dbscan</a></div> <div class="field__item"><a href="/taxonomy/term/2595" hreflang="fr">optics</a></div> <div class="field__item"><a href="/taxonomy/term/2596" hreflang="fr">tfidf</a></div> <div class="field__item"><a href="/taxonomy/term/2597" hreflang="fr">word2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2527" hreflang="fr">doc2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2598" hreflang="fr">scikit-learn</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/BOTTERO.pdf" type="application/pdf">BOTTERO.pdf</a></span> </div> </div> Mon, 09 Oct 2023 14:19:36 +0000 gestionnaire 731 at https://ertim.inalco.fr La lisibilité dans le contexte de l'écologie numérique https://ertim.inalco.fr/node/627 <span class="field field--name-title field--type-string field--label-hidden">La lisibilité dans le contexte de l&#039;écologie numérique</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Margaux Duhayon</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2019</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d&#039;applications, de logiciels et de sites web. Pourtant, l&#039;envoi d&#039;un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l&#039;énergie. L&#039;écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l&#039;écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l&#039;éco-conception qui vise à rendre les textes d&#039;un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l&#039;aide d&#039;algorithmes de classification non supervisée.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2524" hreflang="fr">pollution numérique</a></div> <div class="field__item"><a href="/taxonomy/term/2525" hreflang="fr">écologie numérique</a></div> <div class="field__item"><a href="/taxonomy/term/2526" hreflang="fr">plongement de documents</a></div> <div class="field__item"><a href="/taxonomy/term/2527" hreflang="fr">doc2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2364" hreflang="fr">apprentissage automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2362" hreflang="fr">lisibilité</a></div> <div class="field__item"><a href="/taxonomy/term/2528" hreflang="fr">éco-conception web</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 627 at https://ertim.inalco.fr