Mémoires 2016-2017
Apport du calcul de similarité et du topic modelling pour l'exploration de retours d'expérience dans le domaine de la sûreté de fonctionnement des lanceurs spatiaux
Année : 2017
Résumé : Dans le domaine de la sûreté de fonctionnement, le retour d’expérience consiste à décrire, analyser et archiver tous les incidents et anomalies survenus lors d’une procédure. La multiplicité des sources et moyens de retours d’expérience conduit à une production de plus en plus importante et hétérogènes de contenu peu ou pas structurés. Notre travail vise à mieux exploiter de tels documents dans le domaine du spatial (CNES) afin de faire émerger des thématiques principales, d'identifier des tendances et, à terme, de repérer des signaux faibles liés aux incidents lors du lancement de fusées. Nous explorons dans ce mémoire différentes techniques de traitement automatique des langues pour venir en aide aux experts en sûreté de fonctionnement du CNES dans leur exploration des bases de données de retour d’expérience. En particulier, nous nous sommes intéressés au LDA afin de faire émerger des thématiques au sein du corpus et au TF-IDF et au LSA pour calculer des similarités entre les documents. Nous montrons les avantages qu’apportent ces techniques les unes par rapport aux autres. Un logiciel a été développé qui réalise ces calculs et propos des visualisations adaptées. De manière plus générale, ce travail montre l'intérêt de traiter les documents issus de retour d'expérience afin d'améliorer le déroulement de processus industriels.
Détection automatique des signaux positifs de l’implication durable dans les conversations de consommateurs en parfumerie
Année : 2017
Résumé : La fouille d’opinions est un sujet exploité en TAL depuis longtemps. Néanmoins, au cours des dernières années, une simple détection d’opinion positive ou négative ne satisfait plus les chercheurs et les entreprises. Le monde des affaires est à la re- cherche d’un «aperçu des affaires». Beaucoup d’algorithmes d’apprentissage peuvent être utilisés pour traiter le problème. Cependant, leur performance en face de don- nées déséquilibrées, souvent rencontrées dans l’industrie, est dégradée en raison des caractéristiques complexes inhérentes de ce type de corpus. Notre travail se concentre sur l’étude des techniques visant à traiter la classification asymétrique afin de réali- ser notre projet en fouille d’opinions. Cinq méthodes ont été comparées : Smote, Ada- syn, Tomek links, Smote-TL et modification du poids de la classe. Notre algorithme conventionnel choisi est SVM et l’évaluation est réalisée par le calcul des scores de précision, de rappel, de f-mesure et du temps d’exécution. Le classifieur LSTM a aussi été testé comme expérience complémentaire. Selon les résultats expérimentaux, la méthode en ajustant le poids sur le coût, qui nous permet d’obtenir notre meilleur F- mesure 67.82% avec le moins de temps d’exécution, obtient la meilleure performance.
Automatic detection of key events from daily news based on recurrent information analysis
Année : 2017
Résumé : Cette étude consiste à détecter les événements majeurs et les documents correspondants dans la presse quotidienne. Notre approche est basée sur l’hypothèse que si deux documents partagent des phrases décrivant les mêmes faits, ils sont susceptibles de faire référence au même événement. Ainsi, nous déterminons la proximité entre les documents en comparant la similarité textuelle au niveau des phrases. Les résultats indiquent que cette approche est efficace pour détecter les "micro" événements.
Utilisation d'une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF
Année : 2017
Résumé : Ce mémoire traite de la détection automatique de la polarité dans un corpus de tweets traitant d'EDF. Le corpus est constitué des tweets extrais de Twitter via une application développée au sein d'EDF Commerce, appelée TweetsTracker. Cette application réalise plusieurs pré-traitements notamment un filtrage des tweets traitant d'EDF et une classification catégorie par thématique. Ces tweets sont ensuite stockés dans une base de données interne à EDF. Le corpus de l'étude sera composé d'un échantillon de ces tweets respectant la répartition par catégorie.
Détection et caractérisation d’événements dans des rapports de maintenance
Année : 2017
Résumé : Dans un contexte d’exploitation des retours d’expérience à des fins préventives, ce travail porte sur la détection de la réalisation d’événements dans des rapports de maintenance. Partant du constat qu’une simple recherche par mots-clés ne suffit à détecter leur réalisation, la chaîne de traitement présentée intègre des méthodes symboliques. Elle se concentre sur le problème du traitement de mention d’événements non-accomplis (négations et futur), ainsi que celui de la construction de ressources terminologiques (sous forme d’ontologie) adaptées à ces textes non formalisés. Ce travail porte également sur l’apport possible de méthodes statistiques en utilisant notamment l’apprentissage automatique pour la classification de ces événements selon un critère lié à l’anticipation des actions de maintenance.
Récupération d’information dans un système de Question-Réponse à domaine fermé basé sur une ontologie en utilisant IBM Watson : une solution hybride à base de règles et d’apprentissage automatique
Année : 2017
Résumé : Les systèmes de question-réponse connaissent depuis une vingtaine d'années un véritable essor, dû à l'amélioration des techniques d'intelligence artificielle et des technologies de pointe offrant de plus grandes puissances de calcul pour la recherche Web notamment. Dans notre étude nous nous situons dans un système à domaine fermé (ontologie finie) par opposition à un domaine ouvert où une question de n'importe quel domaine pourrait être posée. Nous sommes dans le cadre d'un domaine militaire où notre base de connaissance est une documentation réglementaire. Nous avons élaboré un système classique de question-réponse avec la technologie IBM Watson en trois étapes. D'abord, l'analyse du sujet et des indices de la question par un système de classification hybride basé sur les règles et l'apprentissage automatique. Ensuite, le dialogue avec l'utilisateur à travers un chatbot pour interagir avec lui et récupérer des indices manquants non trouvés par le classifieur . Enfin, le moteur de recherche permettant d'indexer la question, et de fournir le bon paragraphe de la documentation. Nous parvenons à répondre correctement à plus de 80% des questions.
Classification de tweets politiques. Exploration sur la campagne présidentielle de 2017
Année : 2017
Résumé : Très rapidement après sa création en 2006, Twitter est devenu une plateforme pour la conversation politique, servant à la fois d média de communication pour les personnalités politiques, d’espace de discussion entre militants, et de moyen pour n’importe quel citoyen lambda d’essayer de communiquer avec la personnalité politique de son choix. C’est ce dernier aspect de la conversation politique sur Twitter que nous avons traité dans le travail ici présenté. Dans un corpus de réponses à des tweets de candidats à l’élection présidentielle de 2017 postés pendant la campagne, nous avons tenté une classification automatique de leur polarité en comparant différents algorithmes. Parmi les choix que nous avons fait pour créer notre modèle, nous avons notamment essayé d’y intégrer des méta-données offertes par Twitter, afin d’inclure le plus d’informations possibles qui nous serviraient nous-même à comprendre le sens d’un tweet.
From large-scale phonetic studies to speech recognition of Spanish varieties
Année : 2017
Résumé : Dialectal variation represents a major challenge for automatic speech procesing. The purpose of this research is to improve the performance of a broadcast news transcription system for Latin American Spanish. Automatic speech processing tools were employed to estimate the impact of intervocalic /b/ /d/ /g/ and coda /s/ lenition across Spanish dialects. These findings have been applied to the acoustic model training together with modifications of both the phonemic inventory and lexicon. The effect of dialect-specific extended train data was also studied. Two acoustic model training configurations were developed: an initial set with Peninsular data exclusively and an extended dataset adding Latin American data. The best performing model for Latin American speech includes expert corrections, consonant merge and lenition with the extended dataset. This model obtains 7% relative gain in WER for Latin American data and remains robust to other Spanish dialects.