corpus juridique

Correction post-OCR à base de SMT pour un corpus juridique

Résumé
La reconnaissance optique des caractères (OCR) est une méthode d'extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l'image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l'une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d'OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).