pdf https://ertim.inalco.fr/ fr Impact de l’extraction de texte pour l’identification de la structure d’un document depuis des documents PDF du domaine financier https://ertim.inalco.fr/node/742 <span class="field field--name-title field--type-string field--label-hidden">Impact de l’extraction de texte pour l’identification de la structure d’un document depuis des documents PDF du domaine financier</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 16:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Mei GAN</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2021</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le domaine de l’extraction d’informations automatisée de texte à partir de documents PDF est d’une grande importance car le format PDF est toujours l’un des plus populaires pour la représentation et l’échange d’informations, en particulier dans le monde de la finance. En outre, il est également important pour un système d’extraction d’informations à partir de documents financiers de s’assurer de la fiabilité des données extraites. Ce mémoire a donc pour objectif de comparer plusieurs outils de reconnaissance de texte afin d’identifier la structure des documents PDF financiers. Nous présenterons les différents types de documents PDF et les méthodes utilisées pour l’extraction de texte et de détection de la structure. Ensuite, nous nous attarderons sur les évaluations de l’extraction de texte, de la détection de format et de la détection de structure de documents PDF.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2630" hreflang="fr">pdf</a></div> <div class="field__item"><a href="/taxonomy/term/2631" hreflang="fr">outils d&#039;extraction pdf</a></div> <div class="field__item"><a href="/taxonomy/term/2632" hreflang="fr">extraction de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2633" hreflang="fr">détection de structure de document</a></div> <div class="field__item"><a href="/taxonomy/term/2634" hreflang="fr">évaluation des performances</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/GAN_Mei.pdf" type="application/pdf">GAN_Mei.pdf</a></span> </div> </div> Tue, 10 Oct 2023 14:00:27 +0000 gestionnaire 742 at https://ertim.inalco.fr