extraction terminologique https://ertim.inalco.fr/ fr Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue https://ertim.inalco.fr/node/615 <span class="field field--name-title field--type-string field--label-hidden">Acquisition de connaissances à des fins d&#039;analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Karolina Krygier</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L&#039;objectif de ce mémoire est de mettre en place une méthode qui permette d&#039;extraire les différents nommages d&#039;ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n&#039;étant pas normalisés, les diverses expressions qui s&#039;y trouvent, amènent à s&#039;intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d&#039;acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1904" hreflang="fr">acquisition de connaissances</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2477" hreflang="fr">variation terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2428" hreflang="fr">méthode hybride</a></div> <div class="field__item"><a href="/taxonomy/term/2462" hreflang="fr">patrons morphosyntaxiques</a></div> <div class="field__item"><a href="/taxonomy/term/2409" hreflang="fr">distance de levenshtein</a></div> <div class="field__item"><a href="/taxonomy/term/2034" hreflang="fr">corpus multilingue</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_Krygier.pdf" type="application/pdf">memoire_Krygier.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 615 at https://ertim.inalco.fr Extraction de termes complexes à partir de bases de connaissances https://ertim.inalco.fr/node/611 <span class="field field--name-title field--type-string field--label-hidden">Extraction de termes complexes à partir de bases de connaissances</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Andréa De Sousa</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L&#039;acquisition, à partir de larges collections de textes, d&#039;unités lexicales multi-mots pertinentes du point de vue de la terminologie est un enjeu fondamental dans le contexte de la recherche d’information. En effet, leur identification conduit à une amélioration du processus d’indexation de documents, et permet de guider l&#039;utilisateur dans sa quête d&#039;information. Notre travail propose ainsi deux méthodes d&#039;extraction de ces unités, aussi appelées termes complexes. La première se base sur un modèle CRF supervisé pour l&#039;étiquetage de données séquentielles. Notre seconde méthode exploite la puissance des patrons morphosyntaxiques et des grammaires locales.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2459" hreflang="fr">termes complexes</a></div> <div class="field__item"><a href="/taxonomy/term/2460" hreflang="fr">bases de connaissances</a></div> <div class="field__item"><a href="/taxonomy/term/2461" hreflang="fr">crf</a></div> <div class="field__item"><a href="/taxonomy/term/2462" hreflang="fr">patrons morphosyntaxiques</a></div> <div class="field__item"><a href="/taxonomy/term/2463" hreflang="fr">grammaires locales</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 611 at https://ertim.inalco.fr Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques https://ertim.inalco.fr/node/584 <span class="field field--name-title field--type-string field--label-hidden">Combinaison de méthode distributionnelle et d’extraction terminologique pour l’adaptation de ressources terminologiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2015</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les ressources terminologiques sont beaucoup utilisées pour supporter les travaux du traitement automatique des langues. Cependant, la couverture de ces ressources peut être limitée parfois par le problème d’adaptation au corpus et de mise à jour des nouveaux termes. L’objectif de notre travail est donc de la constitution d’une ressource terminologique adaptée au corpus. Pour ce faire, nous proposons une méthode combinant l’extraction de termes et l’analyse distributionnelle pour classifier les termes d’un corpus. Nous avons extrait les termes candidats par l’extracteur YaTeA sur le corpus GENIA. Ces termes candidats extraits sont ensuite utilisés pour définir les mots cibles et les contextes d’une analyse distributionnelle réalisée par word2vec. Les termes sont finalement classés et ordonnés sémantiquement à l’aide le k-means clustering et un vote majoritaire.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/1950" hreflang="fr">extraction d’information</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2373" hreflang="fr">analyse distributionnelle</a></div> <div class="field__item"><a href="/taxonomy/term/2374" hreflang="fr">constitution de terminologie</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_wu_yunhe.pdf" type="application/pdf">memoire_wu_yunhe.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 584 at https://ertim.inalco.fr Elaboration d’un outil d’enrichissement de terminologie pour un extracteur d’information https://ertim.inalco.fr/node/155 <span class="field field--name-title field--type-string field--label-hidden">Elaboration d’un outil d’enrichissement de terminologie pour un extracteur d’information</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce projet vise à améliorer le processus d’acquisition de terminologie du système d’Extraction d’Information de TEMIS, Insight Discoverer Extractor (IDE). Un système d’extraction d’information analyse des textes libres afin d’extraire l’information se rapportant à des types d’évènements, d’entités ou de relations pré-déterminés. Le portefeuille de Temis, société spécialisée en « Text Intelligence », comprend des applications d’extraction d’information spécialisées en Intelligence Economique (CI) et en analyse de relations clients (Customer Relationship Management (CRM)) pour des domaines de l’industrie qui couvrent aussi bien l’automobile, l’énergie, les pharmaceutiques, la médecine ou les médias. Pour la maintenance et l’amélioration de ces applications et afin d’accéder à de nouveaux domaines, il est nécessaire d’acquérir rapidement une nouvelle terminologie et de mettre à jour les applications existantes. Ce besoin a permis de déterminer les tâches du projet. La partie du projet liée à la recherche porte sur des méthodes de fouille de textes portant sur des domaines spécifiques pour la constitution de terminologie. La partie du projet liée à l’application elle-même offre une vision du processus d’extraction d’information de TEMIS, processus fondé sur la technologie des transducteurs à états finis. Nous décrivons plus particulièrement l’intégration de ressources lexicales acquises à partir de bases de lexique et de règles déjà existantes (TEMIS possède un format propriétaire appelé Skill Cartridges) qui sont utilisées par l’IDE. L’intégration des nouvelles ressources a été implémentée avec un outil d’import (LexTool). Nous décrivons enfin l’implémentation de l’outil, ainsi que son cadre d’expérimentation. </div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2093" hreflang="fr">recherche d&#039;informations</a></div> <div class="field__item"><a href="/taxonomy/term/2094" hreflang="fr">veille technologique</a></div> <div class="field__item"><a href="/taxonomy/term/2095" hreflang="fr">fouille textuelle</a></div> <div class="field__item"><a href="/taxonomy/term/1904" hreflang="fr">acquisition de connaissances</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 155 at https://ertim.inalco.fr Constitution de ressources pour l'élaboration d'un lexique français-anglais-chinois du commerce international https://ertim.inalco.fr/node/142 <span class="field field--name-title field--type-string field--label-hidden">Constitution de ressources pour l&#039;élaboration d&#039;un lexique français-anglais-chinois du commerce international</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire présente une méthode de construction d&#039;un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l&#039;OMC traduits dans les 3 langues. Nous examinons d&#039;abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d&#039;automatiser l&#039;étape d&#039;extraction de termes. Durant la tâche d&#039;acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2041" hreflang="fr">terme</a></div> <div class="field__item"><a href="/taxonomy/term/2042" hreflang="fr">candidat-terme</a></div> <div class="field__item"><a href="/taxonomy/term/2016" hreflang="fr">linguistique de corpus</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 142 at https://ertim.inalco.fr Alignement de corpus parallèles bilingues en médecine https://ertim.inalco.fr/node/138 <span class="field field--name-title field--type-string field--label-hidden">Alignement de corpus parallèles bilingues en médecine</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le mémoire voudrait proposer une réflexion méthodologique et des outils informatiques permettant la constitution de lexiques électroniques bilingues. Une première phase du projet a trait à la méthodologie et aux techniques de collecte automatisée de corpus bilingues sur le Web. Elle explicite le choix du/des corpus sélectionnés. La constitution de lexique bilingue passe ensuite par l’alignement des couples de pages parallèles bilingues recueillies. Dans cette deuxième phase du projet, sont élaborées les différentes étapes (niveaux) de cet alignement, les techniques et les outils informatiques que l’on veut utiliser pour celles-ci. On cherchera à savoir également s’il existe un standard de codage pour ces niveaux d’alignement. L’alignement des couples de pages lui-même suppose une réflexion sur le travail de prétraitement des textes (sur la disposition formelle des textes notamment ). Une dernière phase concerne la mise au point des outils pour la collecte du lexique mis en correspondance dans les deux langues. Les correspondances observées seront comparées aux mots et termes des lexiques médicaux actuellement en cours.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2030" hreflang="fr">alignement de corpus spécialisés</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2031" hreflang="fr">outils de traitement de corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1800" hreflang="fr">recherche d&#039;information</a></div> <div class="field__item"><a href="/taxonomy/term/2032" hreflang="fr">bi-texte</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 138 at https://ertim.inalco.fr Création de ressources lexicales bilingues français-macédonien, à partir de corpus parallèles https://ertim.inalco.fr/node/71 <span class="field field--name-title field--type-string field--label-hidden">Création de ressources lexicales bilingues français-macédonien, à partir de corpus parallèles</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Sondermeijer</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2005</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Dans le présent mémoire nous proposons une méthodologie de création de ressources lexicales (glossaires, lexiques etc.) par extraction terminologique automatique à partir de corpus parallèles français-macédonien.<br /> <br /> Une telle méthodologie contribuera à l&#039;enrichissement du fond modeste des ressources lexicales existant pour ce couple de langues.<br /> <br /> Dans un premier temps nous allons décrire le processus de constitution et de prétraitement du corpus. Ensuite, nous allons nous pencher sur l&#039;extraction terminologique et l&#039;alignement des candidats termes.<br /> <br /> Nous présentons les outils de TAL utilisés à ce propos, leurs points forts et leurs limites. Les difficultés rencontrées lors de la démarche entreprise seront également traitées. Enfin nous allons dresser un bilan du travail effectué et de la possibilité d&#039;automatisation du processus de création de ressources lexicales français-macédonien.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/866" hreflang="fr">candidat terme</a></div> <div class="field__item"><a href="/taxonomy/term/867" hreflang="fr">TAL</a></div> <div class="field__item"><a href="/taxonomy/term/868" hreflang="fr">corpus parallèle français-macédonien</a></div> <div class="field__item"><a href="/taxonomy/term/869" hreflang="fr">alignement lexical</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 71 at https://ertim.inalco.fr