open source

La reconnaissance optique des sinogrammes Cas d’usage du dictionnaire mandarin-taiwanais de Wu Shou-li/Ngôo Siù-lè

Résumé
Dans l'ère du numérique, de nombreux supports physiques deviennent encombrants et ne permettent plus une diffusion des informations qu'ils contiennent. C'est le cas des dictionnaires. Quelque soit leur taille, les dictionnaires physiques ne sont pas des outils simple d'utilisation pour toutes personnes qui souhaitent utiliser à l'extérieur de chez soi. Faire une recherche dans un dictionnaire électronique en ligne ou hors-ligne avec son téléphone devient un automatisme pour les utilisateurs qui délaissent les versions imprimées pour une interface plus conviviale et un accès simplifié. Et bien que les dictionnaires soient maintenant plus accessibles, ce sont surtout les dictionnaires récents qui sont concernés. Si aujourd'hui les dictionnaires sont conçus directement avec des outils numériques, certains ouvrages de référence plus anciens ne sont disponibles qu'en version imprimée et il peut être intéressant de les numériser. Dans un effort de préservation et d'une meilleure diffusion, on utilise la technique de reconnaissance optique de caractères pour reconstituer le contenu de ses ouvrages. Ce mémoire retrace le travail effectué pour la récupération des informations manquantes du dictionnaire mandarin-taiwanais de Wu Shou-li/Ngôo Siù-lè à l'aide de la reconnaissance optique de caractères et avec comme outils eScriptorium et kraken.

Agent conversationnel pour la relation client - Technologies, architectures et cas d'usage au domaine bancaire

Résumé
Nous proposons un agent conversationnel destiné à des conseillers clientèles dans le
domaine bancaire. Nous montrons qu’il est possible de créer une architecture complètement
basée sur des outils open source fiables. Nous nous appuyons sur le framework RASA, et
basons nos choix des modèles d’apprentissage sur l’équilibre coûts-performances. L’automatisation entre modélisation et implémentation ainsi que la structure en thématiques facilitent
grandement la flexibilité du système. Enfin nous présentons une perspective d’évolution pour
intégrer la gestion d’une FAQ dans l’architecture proposée. Ce composant, qui allie recherche
d’information et système de questions-réponses, permettrait d’élargir le périmètre de l’agent
pour peu d’efforts tout en restant très modulable.

Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine

Résumé
Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.