extraction d’information https://ertim.inalco.fr/ fr Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues https://ertim.inalco.fr/node/589 <span class="field field--name-title field--type-string field--label-hidden">Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le but de cette étude est de créer une représentation visuelle, sous la forme de frise narrative, des épisodes de la première saison de Game of Thrones (Le trône de fer). Ce type de représentation permet de clarifier les interactions entre les personnages et la chronologie des événements dans une fiction au récit particulièrement complexe. Pour réaliser cette tâche, nous utilisons différentes méthodes d’alignement et d’extraction sur des corpus comparables liés à Game of Thrones. Au fur et à mesure, nous retenons les résultats les plus pertinents pour améliorer notre frise. La frise finale contient les personnages alignés par scènes (qu’ils aient des dialogues ou non), les informations de lieu pour les situer, et des listes de termes caractéristiques qui décrivent les personnages et concepts clé de chaque épisode. .</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2384" hreflang="fr">alignement des corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/1782" hreflang="fr">corpus comparables</a></div> <div class="field__item"><a href="/taxonomy/term/2385" hreflang="fr">frise narrative</a></div> <div class="field__item"><a href="/taxonomy/term/2386" hreflang="fr">dynamic time warping</a></div> <div class="field__item"><a href="/taxonomy/term/2387" hreflang="fr">game of thrones</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/masters_thesis_genevieve_bienvenue.pdf" type="application/pdf">masters_thesis_genevieve_bienvenue.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 589 at https://ertim.inalco.fr Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques https://ertim.inalco.fr/node/584 <span class="field field--name-title field--type-string field--label-hidden">Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2373" hreflang="fr">analyse distributionnelle</a></div> <div class="field__item"><a href="/taxonomy/term/2374" hreflang="fr">constitution de terminologie</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_wu_yunhe.pdf" type="application/pdf">memoire_wu_yunhe.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 584 at https://ertim.inalco.fr Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe https://ertim.inalco.fr/node/583 <span class="field field--name-title field--type-string field--label-hidden">Optimisation et amélioration du process de traduction des rapports d&#039;intervention pour service Europe</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l&#039;extraction, le traitement des rapports d&#039;intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d&#039;améliorer l&#039;effet de levier et de réduire les coûts de traduction.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/875" hreflang="fr">traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2369" hreflang="fr">optimisation de la traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2370" hreflang="fr">traduction automatique statistique</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/1902" hreflang="fr">extraction de données</a></div> <div class="field__item"><a href="/taxonomy/term/2371" hreflang="fr">prétraitement</a></div> <div class="field__item"><a href="/taxonomy/term/2372" hreflang="fr">normalisation de textes.</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/MEMOIRE-ILT_KOVALEVA_nov2015.pdf" type="application/pdf">MEMOIRE-ILT_KOVALEVA_nov2015.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 583 at https://ertim.inalco.fr Étude des forums de santé pour la détection d’événements secondaires https://ertim.inalco.fr/node/576 <span class="field field--name-title field--type-string field--label-hidden">Étude des forums de santé pour la détection d’événements secondaires</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2014</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">De nombreux travaux sur l’état de l’art biomédical ont porté sur la détection d’événements secondaires à partir des rapports médicaux ou des réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce mémoire consiste à construire, en s’appuyant sur certains de ces travaux, un système à base d’apprentissage statistique pour l’extraction des événements secondaires à partir des messages déposés par les patients sur les forums de santé. La méthode implémentée à cet égard repose sur deux grandes étapes, la première est consacrée à l’annotation d’une sous-partie du corpus choisie aléatoirement pour constituer une référence. Cette annotation est en effet effectuée selon un guide élaboré et une grammaire d’annotation définie. Elle comporte deux phases, une sans pré-annotation et une autre avec pré-annotation automatique, et est suivie d’une phase d’adjudication puis d’évaluation. La deuxième étape de la méthode mise en oeuvre est dédiée à la création d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont choisies selon leurs pertinences par rapport au corpus étudié et conformément aux types d’entités qui se rapportent aux catégories traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs hypothèses de travail et tester la validité de la méthode adoptée. Les résultats de ces expériences varient selon la taille du corpus, la qualité des annotations de la référence ainsi que le sujet du forum traité. Les meilleurs résultats sont obtenus par un modèle global appris sur les deux forums étudiés (51.6 de F-mesure pour le corpus antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/2343" hreflang="fr">champs aléatoires conditionnels (crf)</a></div> <div class="field__item"><a href="/taxonomy/term/2344" hreflang="fr">forums de santé</a></div> <div class="field__item"><a href="/taxonomy/term/2019" hreflang="fr">pharmacovigilance</a></div> <div class="field__item"><a href="/taxonomy/term/2345" hreflang="fr">événements secondaires</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire-MEGAHEDdalia.pdf" type="application/pdf">memoire-MEGAHEDdalia.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 576 at https://ertim.inalco.fr Etude des assertions dans les textes medicaux centree sur la relation https://ertim.inalco.fr/node/462 <span class="field field--name-title field--type-string field--label-hidden">Etude des assertions dans les textes medicaux centree sur la relation</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Perinet</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2010</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les textes scientifiques regorgent d&#039;assertions (hypothèses, conditions, possibilités) qui nuancent le discours et donnent plus ou moins de poids aux informations. Nous nous intéressons à l&#039;identification des assertions portant sur la relation patient - problème médical dans les dossiers patients. Notre objectif est d&#039;identifier automatiquement la certitude et les degrés de certitude contenus dans les énoncés des textes médicaux, ainsi que la polarité de ces énoncés (positive / négative). Nous avons travaillé dans le cadre du challenge i2b2. Pour ce faire, nous partons d&#039;observations en corpus à partir desquelles nous définissons les ressources à utiliser. Nous avons choisi de constituer des listes de marqueurs morphologiques et lexicaux, ainsi que des patrons lexico-syntaxiques et sémantico-syntaxiques. L&#039;application de notre méthode sur un corpus de test montre que les marqueurs permettent d&#039;obtenir les meilleurs résultats en termes de rappel et précision. La contribution des patrons est faible. La condition et Yhypothèse s&#039;avèrent être les deux catégories d&#039;assertion les plus difficiles à identifier. La condition semble représentée essentiellement par des propositions subordonnées, et nous pensons que l&#039;utilisation des fonctions syntaxiques permettrait d&#039;améliorer les résultats pour cette catégorie. Vhypothèse en bénéficierait également, car ce type d&#039;assertion est marqué en partie par des propositions subordonnées. Enfin, les listes de marqueurs doivent être enrichies à l&#039;aide de synonymes.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2237" hreflang="fr">corpus medicaux</a></div> <div class="field__item"><a href="/taxonomy/term/2238" hreflang="fr">assertion</a></div> <div class="field__item"><a href="/taxonomy/term/2239" hreflang="fr">marqueurs</a></div> <div class="field__item"><a href="/taxonomy/term/2240" hreflang="fr">patrons lexico-syntaxiques</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/2241" hreflang="fr">modalite</a></div> <div class="field__item"><a href="/taxonomy/term/2242" hreflang="fr">certitude</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 462 at https://ertim.inalco.fr Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative https://ertim.inalco.fr/node/121 <span class="field field--name-title field--type-string field--label-hidden">Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Baldit</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2008</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Comment exploiter les résultats d’une enquête marketing de type qualitative ?<br /> <br /> Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.<br /> <br /> Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.<br /> <br /> La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1952" hreflang="fr">analyse d’opinion</a></div> <div class="field__item"><a href="/taxonomy/term/1908" hreflang="fr">analyse lexicométrique</a></div> <div class="field__item"><a href="/taxonomy/term/1953" hreflang="fr">enquête questions ouvertes</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 121 at https://ertim.inalco.fr