acquisition de connaissances
Résumé
L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.
Résumé
Ce projet vise à améliorer le processus d’acquisition de terminologie du système d’Extraction d’Information de TEMIS, Insight Discoverer Extractor (IDE). Un système d’extraction d’information analyse des textes libres afin d’extraire l’information se rapportant à des types d’évènements, d’entités ou de relations pré-déterminés. Le portefeuille de Temis, société spécialisée en « Text Intelligence », comprend des applications d’extraction d’information spécialisées en Intelligence Economique (CI) et en analyse de relations clients (Customer Relationship Management (CRM)) pour des domaines de l’industrie qui couvrent aussi bien l’automobile, l’énergie, les pharmaceutiques, la médecine ou les médias. Pour la maintenance et l’amélioration de ces applications et afin d’accéder à de nouveaux domaines, il est nécessaire d’acquérir rapidement une nouvelle terminologie et de mettre à jour les applications existantes. Ce besoin a permis de déterminer les tâches du projet. La partie du projet liée à la recherche porte sur des méthodes de fouille de textes portant sur des domaines spécifiques pour la constitution de terminologie. La partie du projet liée à l’application elle-même offre une vision du processus d’extraction d’information de TEMIS, processus fondé sur la technologie des transducteurs à états finis. Nous décrivons plus particulièrement l’intégration de ressources lexicales acquises à partir de bases de lexique et de règles déjà existantes (TEMIS possède un format propriétaire appelé Skill Cartridges) qui sont utilisées par l’IDE. L’intégration des nouvelles ressources a été implémentée avec un outil d’import (LexTool). Nous décrivons enfin l’implémentation de l’outil, ainsi que son cadre d’expérimentation.
Résumé
Ce mémoire a pour objectif la conception d'un outil d'aide à la construction d'une ontologie des entités nommées (EN) pour une application en désambiguïsation sémantique.
C'est un outil qui s'appuie sur les données structurées de Wikipedia, ayant pour fonction d'extraire des faits (entités et relations entre ces entités), de les injecter dans une base de données pour permettre de les interroger, et enfin de proposer des étiquettes à adjoindre aux entités qui aideront à les conceptualiser.