pdf

Impact de l’extraction de texte pour l’identification de la structure d’un document depuis des documents PDF du domaine financier

Résumé
Le domaine de l’extraction d’informations automatisée de texte à partir de documents PDF est d’une grande importance car le format PDF est toujours l’un des plus populaires pour la représentation et l’échange d’informations, en particulier dans le monde de la finance. En outre, il est également important pour un système d’extraction d’informations à partir de documents financiers de s’assurer de la fiabilité des données extraites. Ce mémoire a donc pour objectif de comparer plusieurs outils de reconnaissance de texte afin d’identifier la structure des documents PDF financiers. Nous présenterons les différents types de documents PDF et les méthodes utilisées pour l’extraction de texte et de détection de la structure. Ensuite, nous nous attarderons sur les évaluations de l’extraction de texte, de la détection de format et de la détection de structure de documents PDF.