translittération

Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux

Résumé
Ce travail aborde le sujet de la translittération et la lemmatisation de la langue arabe pour l’analyse des sentiments des messages issues du web social. Nous avons développé un système de translittération à base de règles et contribué à l’amélioration du système de lemmatisation. Les règles morphologiques et grammaticales ont été implémentées sous forme d’une chaîne de traitement. Pour la translittération on s’est intéressé à l’arabizi, un arabe dialectal écrit en lettres latines, vers l’arabe en caractères standards. Pour pouvoir transcrire l’arabizi, on a besoin d’abord de l’identifier,ceci étant réalisé par un algorithme d’apprentissage automatique, à l’aide de l’outil Keras. La translittération et la lemmatisation sont des structures interconnectées qui sont exploitées pour le but final du projet, la détection des sentiments dans les documents issues de médias sociaux. L’approche de l’analyse des sentiments est réalisée par une méthode hybride reposant sur un lexique et de l’apprentissage automatique. La mesure d’évaluation des systèmes de translittération et de lemmatisation a été effectué avec la distance de Levenshtein. La performance du système est améliorée après chaque évaluation en définissant des règles plus précises et plus puissantes. Après toutes les expérimentations, nous avons atteint une de F-mesure de 75,23% pour la translitération, 93% pour la lemmatisation et 92% pour la détection des sentiments.