classification ascendante hiérarchique (cah)

Intégration de l’Universal Sentence Encoder dans la catégorisation multi-étiquettes des verbatims de sondage

Résumé
La classification de textes fait l’objet de recherches depuis de nombreuses années, avec le développement de la technologie et la conjoncture actuelle du marketing, les entreprises cherchent à découvrir plus de valeurs cachées dans les textes afin de mieux comprendre les options et les besoins de leurs clients et de prendre les meilleures décisions d’affaires. Elles attendent plus qu’une simple détection d’opinion positive ou négative mais des appréciations détaillées, comme la préférence pour les produits, la fidélité à la marque, les différences par rapport à d’autres entreprises. Pour réaliser ce travail, nous avons essayé d’intégrer une technique émergente « Universal Sentence Encoder » dans notre processus de classification. Sous l’hypothèse que chaque sous-segmentation de phrases soit associée à un thème, nous avons segmenté nos textes en plusieurs sous-segmentations pour transformer le problème de classification multi-étiquettes en classification binaire. A travers nos expérimentations, nous cherchons à regrouper nos textes de façon non supervisée avec la méthode de Classification Ascendante Hiérarchique, qui nous permet non seulement d’éviter l’annotation de corpus, mais aussi de découvrir de nouvelles classes pour nos textes. Nous avons essayé plusieurs paramètres de CAH, et différentes techniques d’extractions de caractéristiques ont été comparées. Selon les résultats expérimentaux, segmenter des phrases en mots et choisir 120 clusters, qui nous permettent d’obtenir notre meilleure F-mesure 62,77% nous donnent la meilleure performance.