lsi

Application des méthodes de l’extraction de thématique sur un corpus homogène dans le domaine des parfums d’ambiance

Résumé
Nous avons étudié deux méthodes pour faire l’extraction automatique de thématique : la Latent semantic Indexing (LSI, ou Latent Semantic Analysis, LSA) et la Latent Dirichlet Allocation (LDA). Elles ont été appliquées sur un corpus composé des commentaires des consommateurs britanniques dans le domaine des parfums d’ambiance. Comme ces commentaires sont assez courts et homogènes dans leur contenu, nous avons pris en considération ces particularités et expérimenté des stratégies de la sélection des traits linguistiques et du paramétrage pour essayer d’améliorer la performance de ces deux méthodes. Nous avons aussi étudié une méthode pour évaluer automatiquement la cohérence des thèmes extraits. Elle a été mise en pratique pour évaluer les résultats obtenus avec la LSI/LSA et la LDA.