apprentissage automatique

Anonymisation des adresses postales dans des documents non-structurés : comparaison des méthodes symboliques et statistiques

Résumé
Le règlement général sur la protection des données est applicable dans l'ensemble des États membres de l'Union européenne depuis le 25 mai 2018. Le principal objectif de ce règlement est d'accroître la protection des personnes concernées par un traitement de leurs données à caractère personnel. Afin de les protéger, il convient donc d'anonymiser toutes données sensibles. La tâche d'anonymisation, qui est souvent liée à la tâche de reconnaissance des entités nommées, est le fil conducteur de ce mémoire. Notre travail se concentre essentiellement sur la comparaison de deux méthodes, une méthode symbolique et une méthode statistique, pour améliorer l'anonymisation des adresses physiques dans des courriels rédigés en anglais.

Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées

Résumé
La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.

Response Generation in a Dialogue System: Bouncing Back with Word Embeddings

Résumé
Nous nous proposons de réaliser un système de dialogue expérimental robuste doté d'un mécanisme de génération de réponses sans règles linguistiques prédéfinies ni base de connaissances associée. Pour cela, nous nous inspirons d’études mettant en évidence la capacité des plongements lexicaux à encoder des propriétés morphologiques et sémantiques dans la composition de leurs vecteurs (Mikolov et al., 2013 ; Gladkova et al., 2016 ; Drozd et al., 2016 ; Finley et al., 2017). Notre hypothèse est qu’il est possible de générer une réponse sémantiquement pertinente à partir de l'énoncé précédant dans un dialogue. Les plongements lexicaux peuvent alors être considérés comme une modélisation de l'expérience sémantique du chatbot. Aussi avons-nous réalisé un système qui, lorsqu'il reçoit un input humain, analyse la phrase et en extrait les éléments pertinents. Ils sont utilisés pour extraire des plongements lexicaux des unités lexicales sémantiquement liées. Puis, un générateur de phrase prend le relais en prenant deux paramètres : la longueur maximale de la phrase et le mot du début, qui correspond à un des mots extraits des plongements lexicaux. Il en résulte un chatbot poétique, aux réponses parfois surréalistes, qui a toujours son mot à dire.

Classification de tweets politiques. Exploration sur la campagne présidentielle de 2017

Résumé
Très rapidement après sa création en 2006, Twitter est devenu une plateforme pour la conversation politique, servant à la fois d média de communication pour les personnalités politiques, d’espace de discussion entre militants, et de moyen pour n’importe quel citoyen lambda d’essayer de communiquer avec la personnalité politique de son choix. C’est ce dernier aspect de la conversation politique sur Twitter que nous avons traité dans le travail ici présenté. Dans un corpus de réponses à des tweets de candidats à l’élection présidentielle de 2017 postés pendant la campagne, nous avons tenté une classification automatique de leur polarité en comparant différents algorithmes. Parmi les choix que nous avons fait pour créer notre modèle, nous avons notamment essayé d’y intégrer des méta-données offertes par Twitter, afin d’inclure le plus d’informations possibles qui nous serviraient nous-même à comprendre le sens d’un tweet.

Récupération d’information dans un système de Question-Réponse à domaine fermé basé sur une ontologie en utilisant IBM Watson : une solution hybride à base de règles et d’apprentissage automatique

Résumé
Les systèmes de question-réponse connaissent depuis une vingtaine d'années un véritable essor, dû à l'amélioration des techniques d'intelligence artificielle et des technologies de pointe offrant de plus grandes puissances de calcul pour la recherche Web notamment. Dans notre étude nous nous situons dans un système à domaine fermé (ontologie finie) par opposition à un domaine ouvert où une question de n'importe quel domaine pourrait être posée. Nous sommes dans le cadre d'un domaine militaire où notre base de connaissance est une documentation réglementaire. Nous avons élaboré un système classique de question-réponse avec la technologie IBM Watson en trois étapes. D'abord, l'analyse du sujet et des indices de la question par un système de classification hybride basé sur les règles et l'apprentissage automatique. Ensuite, le dialogue avec l'utilisateur à travers un chatbot pour interagir avec lui et récupérer des indices manquants non trouvés par le classifieur . Enfin, le moteur de recherche permettant d'indexer la question, et de fournir le bon paragraphe de la documentation. Nous parvenons à répondre correctement à plus de 80% des questions.

Détection et caractérisation d’événements dans des rapports de maintenance

Résumé
Dans un contexte d’exploitation des retours d’expérience à des fins préventives, ce travail porte sur la détection de la réalisation d’événements dans des rapports de maintenance. Partant du constat qu’une simple recherche par mots-clés ne suffit à détecter leur réalisation, la chaîne de traitement présentée intègre des méthodes symboliques. Elle se concentre sur le problème du traitement de mention d’événements non-accomplis (négations et futur), ainsi que celui de la construction de ressources terminologiques (sous forme d’ontologie) adaptées à ces textes non formalisés. Ce travail porte également sur l’apport possible de méthodes statistiques en utilisant notamment l’apprentissage automatique pour la classification de ces événements selon un critère lié à l’anticipation des actions de maintenance.

Utilisation d'une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF

Résumé
Ce mémoire traite de la détection automatique de la polarité dans un corpus de tweets traitant d'EDF. Le corpus est constitué des tweets extrais de Twitter via une application développée au sein d'EDF Commerce, appelée TweetsTracker. Cette application réalise plusieurs pré-traitements notamment un filtrage des tweets traitant d'EDF et une classification catégorie par thématique. Ces tweets sont ensuite stockés dans une base de données interne à EDF. Le corpus de l'étude sera composé d'un échantillon de ces tweets respectant la répartition par catégorie.

Apports de la catégorisation automatique à la veille collaborative

Résumé
Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.