corpus medicaux

Etude des assertions dans les textes medicaux centree sur la relation

Résumé
Les textes scientifiques regorgent d'assertions (hypothèses, conditions, possibilités) qui nuancent le discours et donnent plus ou moins de poids aux informations. Nous nous intéressons à l'identification des assertions portant sur la relation patient - problème médical dans les dossiers patients. Notre objectif est d'identifier automatiquement la certitude et les degrés de certitude contenus dans les énoncés des textes médicaux, ainsi que la polarité de ces énoncés (positive / négative). Nous avons travaillé dans le cadre du challenge i2b2. Pour ce faire, nous partons d'observations en corpus à partir desquelles nous définissons les ressources à utiliser. Nous avons choisi de constituer des listes de marqueurs morphologiques et lexicaux, ainsi que des patrons lexico-syntaxiques et sémantico-syntaxiques. L'application de notre méthode sur un corpus de test montre que les marqueurs permettent d'obtenir les meilleurs résultats en termes de rappel et précision. La contribution des patrons est faible. La condition et Yhypothèse s'avèrent être les deux catégories d'assertion les plus difficiles à identifier. La condition semble représentée essentiellement par des propositions subordonnées, et nous pensons que l'utilisation des fonctions syntaxiques permettrait d'améliorer les résultats pour cette catégorie. Vhypothèse en bénéficierait également, car ce type d'assertion est marqué en partie par des propositions subordonnées. Enfin, les listes de marqueurs doivent être enrichies à l'aide de synonymes.