classification ascendante hiérarchique (cah) https://ertim.inalco.fr/ fr Intégration de l’Universal Sentence Encoder dans la catégorisation multi-étiquettes des verbatims de sondage https://ertim.inalco.fr/node/623 <span class="field field--name-title field--type-string field--label-hidden">Intégration de l’Universal Sentence Encoder dans la catégorisation multi-étiquettes des verbatims de sondage </span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Mingqiang Wang</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La classification de textes fait l’objet de recherches depuis de nombreuses années, avec le développement de la technologie et la conjoncture actuelle du marketing, les entreprises cherchent à découvrir plus de valeurs cachées dans les textes afin de mieux comprendre les options et les besoins de leurs clients et de prendre les meilleures décisions d’affaires. Elles attendent plus qu’une simple détection d’opinion positive ou négative mais des appréciations détaillées, comme la préférence pour les produits, la fidélité à la marque, les différences par rapport à d’autres entreprises. Pour réaliser ce travail, nous avons essayé d’intégrer une technique émergente « Universal Sentence Encoder » dans notre processus de classification. Sous l’hypothèse que chaque sous-segmentation de phrases soit associée à un thème, nous avons segmenté nos textes en plusieurs sous-segmentations pour transformer le problème de classification multi-étiquettes en classification binaire. A travers nos expérimentations, nous cherchons à regrouper nos textes de façon non supervisée avec la méthode de Classification Ascendante Hiérarchique, qui nous permet non seulement d’éviter l’annotation de corpus, mais aussi de découvrir de nouvelles classes pour nos textes. Nous avons essayé plusieurs paramètres de CAH, et différentes techniques d’extractions de caractéristiques ont été comparées. Selon les résultats expérimentaux, segmenter des phrases en mots et choisir 120 clusters, qui nous permettent d’obtenir notre meilleure F-mesure 62,77% nous donnent la meilleure performance.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2504" hreflang="fr">universal sentence encoder</a></div> <div class="field__item"><a href="/taxonomy/term/2505" hreflang="fr">classification multi-étiquettes</a></div> <div class="field__item"><a href="/taxonomy/term/2506" hreflang="fr">classification ascendante hiérarchique (cah)</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 623 at https://ertim.inalco.fr