correction post-OCR https://ertim.inalco.fr/ fr Correction post-OCR à base de SMT pour un corpus juridique https://ertim.inalco.fr/node/713 <span class="field field--name-title field--type-string field--label-hidden">Correction post-OCR à base de SMT pour un corpus juridique</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 02/02/2021 - 11:41</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Alexandr Ivanov</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2020</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La reconnaissance optique des caractères (OCR) est une méthode d&#039;extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l&#039;image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l&#039;une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d&#039;OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2651" hreflang="fr">Encodeur-decodeur</a></div> <div class="field__item"><a href="/taxonomy/term/2652" hreflang="fr">correction post-OCR</a></div> <div class="field__item"><a href="/taxonomy/term/875" hreflang="fr">traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2449" hreflang="fr">réseau de neurones récurrents</a></div> <div class="field__item"><a href="/taxonomy/term/2653" hreflang="fr">corpus juridique</a></div> </div> </div> Tue, 02 Feb 2021 10:41:36 +0000 gestionnaire 713 at https://ertim.inalco.fr