patrons morphosyntaxiques

Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue

Résumé
L'objectif de ce mémoire est de mettre en place une méthode qui permette d'extraire les différents nommages d'ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n'étant pas normalisés, les diverses expressions qui s'y trouvent, amènent à s'intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d'acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.

Extraction de termes complexes à partir de bases de connaissances

Résumé
L'acquisition, à partir de larges collections de textes, d'unités lexicales multi-mots pertinentes du point de vue de la terminologie est un enjeu fondamental dans le contexte de la recherche d’information. En effet, leur identification conduit à une amélioration du processus d’indexation de documents, et permet de guider l'utilisateur dans sa quête d'information. Notre travail propose ainsi deux méthodes d'extraction de ces unités, aussi appelées termes complexes. La première se base sur un modèle CRF supervisé pour l'étiquetage de données séquentielles. Notre seconde méthode exploite la puissance des patrons morphosyntaxiques et des grammaires locales.