classification

Classification automatique de documents : application aux exercices de manuels scolaires

Résumé
Dans une démarche d’inclusion scolaire, le projet MALIN (MAnuels scoLaires INclusifs) a pour objectif l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap. Ce mémoire s’inscrit dans le projet MALIN et se focalise sur l’adaptation de manuels de français de niveau élémentaire pour des élèves dyspraxiques. La première partie de ce travail porte sur la classification des exercices selon leur type d'adaptation. En raison d’un fort déséquilibre des classes dans le jeu de données, la deuxième partie traite de la génération de données artificielles. Diverses approches de classification et de génération sont expérimentées et discutées. Les résultats obtenus sont très encourageants, malgré des données multimodales peu étudiées et présentant une structure et un langage qui leur sont propres.

Comparaison entre la méthode symbolique et la méthode par apprentissage dans l'efficacité de la détection thématique d'articles de presse

Résumé
Ce mémoire porte sur l’étude de la détection thématique d’articles de presse pour une recherche sur la néologie. L’objet du travail réside dans la confrontation de la méthode symbolique, appuyée sur des listes et un vocabulaire contrôlé, avec la méthode d’apprentissage automatique, basée sur des algorithmes et calculs mathématiques. Ces deux procédures offrent l’analyse binaire visant à doter la machine d’une intelligence artificielle capable de détecter correctement les sujets abordés dans un texte dans le but de localiser les contextes qui aideront, dans un projet de détection de néologismes, à s’approcher de leur sens sémantique. Dans un premier temps, le travail consiste en une réflexion sur le moteur de détection déjà existant puis, dans un second temps, en l’exploration de nouvelles techniques permettant d’optimiser la détection thématique.

Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique

Résumé
Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.

Détection et caractérisation d’événements dans des rapports de maintenance

Résumé
Dans un contexte d’exploitation des retours d’expérience à des fins préventives, ce travail porte sur la détection de la réalisation d’événements dans des rapports de maintenance. Partant du constat qu’une simple recherche par mots-clés ne suffit à détecter leur réalisation, la chaîne de traitement présentée intègre des méthodes symboliques. Elle se concentre sur le problème du traitement de mention d’événements non-accomplis (négations et futur), ainsi que celui de la construction de ressources terminologiques (sous forme d’ontologie) adaptées à ces textes non formalisés. Ce travail porte également sur l’apport possible de méthodes statistiques en utilisant notamment l’apprentissage automatique pour la classification de ces événements selon un critère lié à l’anticipation des actions de maintenance.

Étude de possibilites d'amélioration de l'apprentissage supervisé d'entites nomméés pour les institutions financières

Résumé
Ce mémoire porte sur les possibilités d'augmenter le taux de reconnaissance des institutions financières désignées comme récepteurs dans les messages de paiement bancaire, dans le but de réaliser le STP (anglicisme qui signifie traitement sans rupture ni délai), c'est-à-dire la « réparation » et le routage automatique de ces messages. Les messages de paiement sont écrits par des êtres humains en langage naturel, ce qui fait que la reconnaissance des informations que ceux-ci contiennent nécessite des connaissances en traitement automatique des langues. Plus précisément, certaines techniques de classification sont utilisées pour reconnaître les catégories auxquelles les informations dans les messages de paiement appartiennent, afin de trouver l'entrée correspondante dans la base de référence fournie par le client et effectuer le routage de messages vers l'institution sélectionnée par le programme comme solution. La chaîne de STP est composée de plusieurs processus : la normalisation des champs extraits des messages de paiement, le découpage de champs en segments, l'étiquetage de segments, la requête à la base de référence, la décision à l'aide des réseaux de neurones et le renvoi de solution. Dans le cadre de ce mémoire seuls le découpage et l'étiquetage (en l'occurrence désignés par un seul terme « classification ») sont discutés. Afin de mieux comprendre le mécanisme de classification, plusieurs classifieurs (modèles graphiques) courants sont abordés : CRF, SVM et réseaux bayésiens renforcés par des fonctions de croyance. Ces derniers sont utilisés à FircoSoft parce qu'ils correspondent bien à notre besoin spécifique. Les problèmes existants de reconnaissance nous incitent à chercher des solutions adaptées. Cependant, les contraintes opérationnelles nous empêchent d'effectuer des changements profonds (notamment modification d'algorithmes) et nous optons pour des ajustements locaux tels que la manipulation de statistiques et la transformation virtuelle de corpus de test. Néanmoins, l'amélioration d'algorithme et la réorganisation de fichiers de ressource sont envisageables pour la nouvelle version de l'application de STP.

Problèmes de classification dans les dictionnaires électroniques

Résumé
Ce document porte sur la place des locutions dans les dictionnaires électroniques. Les locutions sont des unités mal définies et souvent malmenées. Dans les dictionaires de langue, elles n'ont pas droit à une entrée individuelle  et elles se trouvent à un endroit (lequel ?) de l'article concernant un des mots (lequel ?) qui les constituent. Nous discuterons la possibilité et la pertinence d'une classification des locutions dans les dictionnnaires électroniques. Pour cela, il nous faudra au préalable définir les locutions, en les distinguant des autres unités avec lesquelles elles peuvent être confondues, comme les collocations, les métaphores, voire certains mots composés. Nous décrirons aussi les différents types de locutions. Ensuite, nous discuterons les choix réalisés pour l'index de locutions du dictionnaire électronique Le Robert & Collins. Enfin, sur la base de ces observations, nous établirons la pertinence des différentes définitions et hypothèses pour une classification efficace des locutions dans les dictionnaires électroniques.

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Résumé
Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.

Critéres pour la catégorisation automatique des documents numériques

Résumé
La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.