distance de levenshtein

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue

Résumé
L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.

Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux

Résumé
Ce travail aborde le sujet de la translittération et la lemmatisation de la langue arabe pour l’analyse des sentiments des messages issues du web social. Nous avons développé un système de translittération à base de règles et contribué à l’amélioration du système de lemmatisation. Les règles morphologiques et grammaticales ont été implémentées sous forme d’une chaîne de traitement. Pour la translittération on s’est intéressé à l’arabizi, un arabe dialectal écrit en lettres latines, vers l’arabe en caractères standards. Pour pouvoir transcrire l’arabizi, on a besoin d’abord de l’identifier,ceci étant réalisé par un algorithme d’apprentissage automatique, à l’aide de l’outil Keras. La translittération et la lemmatisation sont des structures interconnectées qui sont exploitées pour le but final du projet, la détection des sentiments dans les documents issues de médias sociaux. L’approche de l’analyse des sentiments est réalisée par une méthode hybride reposant sur un lexique et de l’apprentissage automatique. La mesure d’évaluation des systèmes de translittération et de lemmatisation a été effectué avec la distance de Levenshtein. La performance du système est améliorée après chaque évaluation en définissant des règles plus précises et plus puissantes. Après toutes les expérimentations, nous avons atteint une de F-mesure de 75,23% pour la translitération, 93% pour la lemmatisation et 92% pour la détection des sentiments.