Correction post-OCR à base de SMT pour un corpus juridique

gestionnaire — Tue, 02 Feb 2021 10:41:36 +0000

Correction post-OCR à base de SMT pour un corpus juridique gestionnaire mar 02/02/2021 - 11:41

Auteur

Alexandr Ivanov

Année

2020

Résumé

La reconnaissance optique des caractères (OCR) est une méthode d'extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l'image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l'une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d'OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).

Mots-clés

Encodeur-decodeur

correction post-OCR

traduction automatique

réseau de neurones récurrents

corpus juridique

Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées

Anonyme — Thu, 05 Nov 2020 23:00:00 +0000

Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées Anonyme (non vérifié) ven 06/11/2020 - 00:00

Auteur

Sotiria Bampatzani

Année

2018

Résumé

La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.

Mots-clés

reconnaissance des entités nommées

règles d’annotation

apprentissage automatique

réseau de neurones récurrents

lstm