Année
2014
Résumé
De nombreux travaux sur l’état de l’art biomédical ont porté sur la détection d’événements secondaires à partir des rapports médicaux ou des réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce mémoire consiste à construire, en s’appuyant sur certains de ces travaux, un système à base d’apprentissage statistique pour l’extraction des événements secondaires à partir des messages déposés par les patients sur les forums de santé. La méthode implémentée à cet égard repose sur deux grandes étapes, la première est consacrée à l’annotation d’une sous-partie du corpus choisie aléatoirement pour constituer une référence. Cette annotation est en effet effectuée selon un guide élaboré et une grammaire d’annotation définie. Elle comporte deux phases, une sans pré-annotation et une autre avec pré-annotation automatique, et est suivie d’une phase d’adjudication puis d’évaluation. La deuxième étape de la méthode mise en oeuvre est dédiée à la création d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont choisies selon leurs pertinences par rapport au corpus étudié et conformément aux types d’entités qui se rapportent aux catégories traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs hypothèses de travail et tester la validité de la méthode adoptée. Les résultats de ces expériences varient selon la taille du corpus, la qualité des annotations de la référence ainsi que le sujet du forum traité. Les meilleurs résultats sont obtenus par un modèle global appris sur les deux forums étudiés (51.6 de F-mesure pour le corpus antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).
Fichier