pharmacovigilance

Étude des forums de santé pour la détection d’événements secondaires

Résumé
De nombreux travaux sur l’état de l’art biomédical ont porté sur la détection d’événements secondaires à partir des rapports médicaux ou des réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce mémoire consiste à construire, en s’appuyant sur certains de ces travaux, un système à base d’apprentissage statistique pour l’extraction des événements secondaires à partir des messages déposés par les patients sur les forums de santé. La méthode implémentée à cet égard repose sur deux grandes étapes, la première est consacrée à l’annotation d’une sous-partie du corpus choisie aléatoirement pour constituer une référence. Cette annotation est en effet effectuée selon un guide élaboré et une grammaire d’annotation définie. Elle comporte deux phases, une sans pré-annotation et une autre avec pré-annotation automatique, et est suivie d’une phase d’adjudication puis d’évaluation. La deuxième étape de la méthode mise en oeuvre est dédiée à la création d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont choisies selon leurs pertinences par rapport au corpus étudié et conformément aux types d’entités qui se rapportent aux catégories traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs hypothèses de travail et tester la validité de la méthode adoptée. Les résultats de ces expériences varient selon la taille du corpus, la qualité des annotations de la référence ainsi que le sujet du forum traité. Les meilleurs résultats sont obtenus par un modèle global appris sur les deux forums étudiés (51.6 de F-mesure pour le corpus antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).

Le Projet Pertomed. Création d'une terminologie français/russe dans le domaine de la pharmacovigilance à partir de corpus comparables

Résumé
Nous avons élaboré une terminologie bilingue français / russe susceptible de faciliter l'automatisation des traductions dans le domaine de la pharmacovigilance – qui relève du domaine biomédical et pharmacologique –, mais aussi l’uniformisation du codage de l’information biomédicale en russe, qui reste pour l’instant très hétérogène compte tenu du manque de données spécifiques à cette langue dans les grandes bases de données internationales. En partant d’un corpus déjà défini en français, composé principalement des Résumés des Caractéristiques du Produit, nous avons constitué un corpus comparable pour le russe de 14 000 mots. Les résultats se présentent sous la forme d’un tableau où figurent en version bilingue 485 mots-vedettes, tous des substantifs, les syntagmes nominaux où ceux-ci apparaissent en tête ou en expansion, ainsi que les références permettant de rattacher ces termes aux sous-domaines auxquels ils appartiennent.