fouille de texte https://ertim.inalco.fr/ fr Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique https://ertim.inalco.fr/node/595 <span class="field field--name-title field--type-string field--label-hidden">Etude d&#039;une méthode de sélection de documents macroéconomiques au sein d&#039;un corpus d&#039;articles de presse économique</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2140" hreflang="fr">catégorisation de textes</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2411" hreflang="fr">plan d’annotation</a></div> <div class="field__item"><a href="/taxonomy/term/2251" hreflang="fr">text mining</a></div> <div class="field__item"><a href="/taxonomy/term/2337" hreflang="fr">thésaurus</a></div> <div class="field__item"><a href="/taxonomy/term/2365" hreflang="fr">hiérarchie de concepts</a></div> <div class="field__item"><a href="/taxonomy/term/1825" hreflang="fr">ingénierie des connaissances</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 595 at https://ertim.inalco.fr Extraction de citations dans le domaine de la presse avec la résolution d’anaphores https://ertim.inalco.fr/node/591 <span class="field field--name-title field--type-string field--label-hidden">Extraction de citations dans le domaine de la presse avec la résolution d’anaphores</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2393" hreflang="fr">extraction d’informations</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2394" hreflang="fr">citations</a></div> <div class="field__item"><a href="/taxonomy/term/2395" hreflang="fr">anaphores</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/MemoireLucilleBlanchard_ExtractionCitations.pdf" type="application/pdf">MemoireLucilleBlanchard_ExtractionCitations.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 591 at https://ertim.inalco.fr Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques https://ertim.inalco.fr/node/584 <span class="field field--name-title field--type-string field--label-hidden">Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2373" hreflang="fr">analyse distributionnelle</a></div> <div class="field__item"><a href="/taxonomy/term/2374" hreflang="fr">constitution de terminologie</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_wu_yunhe.pdf" type="application/pdf">memoire_wu_yunhe.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 584 at https://ertim.inalco.fr Dé-identification cohérente de l’ensemble des documents cliniques d’un patient https://ertim.inalco.fr/node/582 <span class="field field--name-title field--type-string field--label-hidden">Dé-identification cohérente de l’ensemble des documents cliniques d’un patient</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail propose une méthode de dé-identification pour les documents médicaux, permettant de traiter des ensembles de documents rattachés à un même patient. L&#039;objectif est de conserver la cohérence entre les documents traitant d&#039;un même patient, mais pas entre des documents traitant de patients différents. Notre méthode est basée sur un système symbolique, et se concentre sur la cohérence des dates et des noms de personne. Nous obtenons une F-mesure de 0.75, dont 0.77 pour les noms de famille et 0.91 pour les dates.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2366" hreflang="fr">dé-identification</a></div> <div class="field__item"><a href="/taxonomy/term/2367" hreflang="fr">système symbolique</a></div> <div class="field__item"><a href="/taxonomy/term/2368" hreflang="fr">données médicales</a></div> <div class="field__item"><a href="/taxonomy/term/2327" hreflang="fr">reconnaissance des entités nommées</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_bigeard_IM.pdf" type="application/pdf">memoire_bigeard_IM.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 582 at https://ertim.inalco.fr Apports de la catégorisation automatique à la veille collaborative https://ertim.inalco.fr/node/581 <span class="field field--name-title field--type-string field--label-hidden">Apports de la catégorisation automatique à la veille collaborative</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail aborde la question de l’utilisation de la fouille de texte dans le domaine de la veille, plus particulièrement la classification automatique de documents. Il s’agit de comparer différentes méthodes de catégorisation dépendant de problématiques linguistiques propres à chaque thématique traitée dans une plateforme de veille collaborative. Nous présenterons les résultats de trois méthodes de classification automatique, utilisant d’une part un modèle d’apprentissage et d’autre part des ressources linguistiques, à savoir l’utilisation d’une hiérarchie de concepts et d’un thésaurus.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2336" hreflang="fr">catégorisation automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2364" hreflang="fr">apprentissage automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2365" hreflang="fr">hiérarchie de concepts</a></div> <div class="field__item"><a href="/taxonomy/term/2337" hreflang="fr">thésaurus</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/m%C3%A9moire%20final%20Aur%C3%A9lie%20Jouannet.pdf" type="application/pdf">mémoire final Aurélie Jouannet.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 581 at https://ertim.inalco.fr Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining https://ertim.inalco.fr/node/555 <span class="field field--name-title field--type-string field--label-hidden">Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Dutrey</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2011</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L&#039;utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d&#039;usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d&#039;une phase de nettoyage visant à rapprocher les textes de la norme , à l&#039;extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2244" hreflang="fr">textes sales</a></div> <div class="field__item"><a href="/taxonomy/term/2245" hreflang="fr">données bruitées</a></div> <div class="field__item"><a href="/taxonomy/term/2246" hreflang="fr">nettoyage de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2247" hreflang="fr">fouille du contenu du Web</a></div> <div class="field__item"><a href="/taxonomy/term/2248" hreflang="fr">dirty texts</a></div> <div class="field__item"><a href="/taxonomy/term/2249" hreflang="fr">noisy data</a></div> <div class="field__item"><a href="/taxonomy/term/2250" hreflang="fr">text cleaning</a></div> <div class="field__item"><a href="/taxonomy/term/2251" hreflang="fr">text mining</a></div> <div class="field__item"><a href="/taxonomy/term/2252" hreflang="fr">Web content mining</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 555 at https://ertim.inalco.fr Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative https://ertim.inalco.fr/node/121 <span class="field field--name-title field--type-string field--label-hidden">Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Baldit</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2008</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Comment exploiter les résultats d’une enquête marketing de type qualitative ?<br /> <br /> Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.<br /> <br /> Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.<br /> <br /> La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1952" hreflang="fr">analyse d’opinion</a></div> <div class="field__item"><a href="/taxonomy/term/1908" hreflang="fr">analyse lexicométrique</a></div> <div class="field__item"><a href="/taxonomy/term/1953" hreflang="fr">enquête questions ouvertes</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 121 at https://ertim.inalco.fr