anonymisation

Prédiction d'une maladie rare : l'amyloïdose cardiaque

Résumé
Notre projet se focalise sur la prédiction de l’amyloïdose cardiaque, une maladie rare difficile à diagnostiquer et pour laquelle il n’existe pas encore de traitement. La détection précoce de maladies permettrait de traiter les symptômes en avance en plus de réduire l’impact de celles-ci. Un des obstacles majeur que l’on trouve lorsqu’on travaille avec des données cliniques est la présence de données personnelles. Cette problématique est largement abordée dans la littérature, qui propose en majorité de traiter ce sujet à travers la reconnaissance d’entités nommées. Pour cette raison, nous effectuons une tâche de désidentification en implémentant les deux méthodologies principales : une approche basée sur les connaissances et une approche guidée par les données. Dans un deuxième temps, nous effectuons la tâche de prédiction, qui repose sur des modèles d’apprentissage automatique. Nous menons à terme deux types de classification. En premier lieu, une classification multiclasse, étant celles-ci l’amyloïdose et d’autres maladies cardiaques rares (F-mesure = 0,636), et dans un deuxième temps, une classification binaire, c’est-à-dire, amyloïdose ou non amyloïdose (F-mesure = 0,782). Les amyloïdoses, étant difficiles à diagnostiquer par les médecins, nous observons dans nos expériences que les prédictions sont aussi complexes à réaliser pour une machine, en particulier pour un apprentissage statistique dans la mesure où il faudrait savoir quels sont les éléments essentiels du diagnostic pour pouvoir fournir à la machine ces connaissances. Même si notre modèle n’atteint pas une grande performance en ce qui concerne la prédiction, le travail réalisé permet d’éclaircir les symptômes et signes les plus fréquents associés à l’amyloïdose cardiaque. Actuellement, il reste difficile de prédire cette maladie, mais les expériences menées pourraient servir comme aide aux médecins afin d’attirer leur attention sur des cas probables d’amyloïdose.

Anonymisation des adresses postales dans des documents non-structurés : comparaison des méthodes symboliques et statistiques

Résumé
Le règlement général sur la protection des données est applicable dans l'ensemble des États membres de l'Union européenne depuis le 25 mai 2018. Le principal objectif de ce règlement est d'accroître la protection des personnes concernées par un traitement de leurs données à caractère personnel. Afin de les protéger, il convient donc d'anonymiser toutes données sensibles. La tâche d'anonymisation, qui est souvent liée à la tâche de reconnaissance des entités nommées, est le fil conducteur de ce mémoire. Notre travail se concentre essentiellement sur la comparaison de deux méthodes, une méthode symbolique et une méthode statistique, pour améliorer l'anonymisation des adresses physiques dans des courriels rédigés en anglais.