fouille d’opinions

Génération de ressources pour la fouille d’opinions. Comparaison d’approches et évaluations

Résumé
Ce mémoire décrit la constitution automatique de ressources génériques destinées à des applications de fouilles d’opinions. Nous définissons des typologies pour des ressources de polarités générales, d’émotions et d’outils linguistiques. Nous adoptons alors trois méthodes pour la génération de ressources: une méthode de propagation d’informations linguistiques à travers un réseau sémantique, une méthode statistique d’estimation de polarité sur corpus et une méthode semi-automatique à l’aide de plongements lexicaux. Nous utilisons un corpus d’avis clients dans les domaines du multimédia et de la librairie, de la beauté et de l’ameublement. Les résultats obtenus sont prometteurs et sont meilleurs pour les ressources de polarités plutôt que d’émotions. Afin d’évaluer la qualité des ressources générées, nous mettons en place un protocole d’évaluation complet en menant des évaluations par comparaison à une ressource de référence, des évaluations humaines ainsi qu’une évaluation dans un contexte applicatif concret.

Détection automatique des signaux positifs de l’implication durable dans les conversations de consommateurs en parfumerie

Résumé
La fouille d’opinions est un sujet exploité en TAL depuis longtemps. Néanmoins, au cours des dernières années, une simple détection d’opinion positive ou négative ne satisfait plus les chercheurs et les entreprises. Le monde des affaires est à la re- cherche d’un «aperçu des affaires». Beaucoup d’algorithmes d’apprentissage peuvent être utilisés pour traiter le problème. Cependant, leur performance en face de don- nées déséquilibrées, souvent rencontrées dans l’industrie, est dégradée en raison des caractéristiques complexes inhérentes de ce type de corpus. Notre travail se concentre sur l’étude des techniques visant à traiter la classification asymétrique afin de réali- ser notre projet en fouille d’opinions. Cinq méthodes ont été comparées : Smote, Ada- syn, Tomek links, Smote-TL et modification du poids de la classe. Notre algorithme conventionnel choisi est SVM et l’évaluation est réalisée par le calcul des scores de précision, de rappel, de f-mesure et du temps d’exécution. Le classifieur LSTM a aussi été testé comme expérience complémentaire. Selon les résultats expérimentaux, la méthode en ajustant le poids sur le coût, qui nous permet d’obtenir notre meilleur F- mesure 67.82% avec le moins de temps d’exécution, obtient la meilleure performance.