génération automatique de textes

Classification automatique de documents : application aux exercices de manuels scolaires

Résumé
Dans une démarche d’inclusion scolaire, le projet MALIN (MAnuels scoLaires INclusifs) a pour objectif l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap. Ce mémoire s’inscrit dans le projet MALIN et se focalise sur l’adaptation de manuels de français de niveau élémentaire pour des élèves dyspraxiques. La première partie de ce travail porte sur la classification des exercices selon leur type d'adaptation. En raison d’un fort déséquilibre des classes dans le jeu de données, la deuxième partie traite de la génération de données artificielles. Diverses approches de classification et de génération sont expérimentées et discutées. Les résultats obtenus sont très encourageants, malgré des données multimodales peu étudiées et présentant une structure et un langage qui leur sont propres.

Comparaison de systèmes de génération automatisée de textes

Résumé
Ce mémoire décrit la procédure d'un projet de génération de textes automatisée avec deux systèmes différents. Nous avons mis en place un corpus de modèles, de données d'entrée, rédigé les règles prises en compte dans le projet et programmé un système à base de réseau neuronal. Les deux systèmes doivent générer des textes à partir de données immobilières sur des villes et leur département. Ces textes doivent être compréhensibles et factuels, dans un but informatif. Nous comparerons les résultats obtenus par les deux systèmes de génération automatique de texte, ainsi que les notations obtenues pendant leur évaluation humaine. Nous détaillerons ainsi les spécificités des systèmes, ainsi que les avantages et inconvénients de chacun.

Génération automatique de rapports d’analyse financière. Développement et évaluation d’un système à base de règles

Résumé
Ce mémoire décrit le développement et l'évaluation d'un système de génération automatique de rapports d'analyse financière. Nous avons défini, modélisé et codé des règles de génération pour un système commercial permettant de générer régulièrement plusieurs centaines de rapports simplifiés d'analyse. Le système doit modéliser des données informatiques non-textuelles complexes afin de les utiliser dans des règles de génération définies en collaboration avec des analystes financiers. Ces règles doivent être représentatives de l'expertise d'un·e analyste et permettre de générer un texte cohérent d'un point de vue rhétorique et linguistique. Enfin, les rapports d'analyse générés doivent employer la langue spécialisée du domaine qu'est la finance de marché. Pour évaluer la qualité des textes générés, nous avons mis en place un protocole d'évaluation humaine par des spécialistes du domaine.

Création de ressources linguistiques multilingues ACG pour la génération de rapports

Résumé
Yseop est une entreprise française spécialisée dans l’Intelligence Artificielle et la Génération Automatique de Textes en Langage Naturel. Présente en France (Paris, Lyon), en Angleterre, aux États-Unis, ainsi qu’en Colombie, l’entreprise commercialise un logiciel de génération automatique de textes, permettant de créer différents types de documents, comme des rapports d’activités, des FAQ intelligentes... Ce mémoire porte sur les travaux effectués lors de mon stage chez Yseop, dans le cadre d’un nouveau projet visant à créer un système de génération automatique de textes standardisé, flexible et facilement réutilisable. Les travaux et recherches effectués porteront principalement sur la création de ressources linguistiques multilingues dans le formalisme des Grammaires Catégorielles Abstraites (ACG). Le projet portant notamment la génération de rapports, la partie sémantique de la bibliothèque créée sera organisée sous forme d’une ontologie comprenant les principaux concepts relatifs à ce domaine.