T.A.L.

Passage de données non structurées à des données structurées : les relations entre entités nommées

Résumé
Les études et méthodes qui assurent une cohérence entre textes et modèles de représentation du contenu textuel relèvent un enjeu de plus en plus important. Le nombre de travaux en industrie et en Recherche et Développement sur ce sujet en atteste. Avec l'explosion de la numérisation des documents et de leur diffusion avec Internet au sein d'une société désormais dite de l'information ou de la connaissance, la necéssité de répondre à une demande de plus en plus forte dans l'industrie et chez les particuliers se fait sentir.

Le travail présenté ici est d'ordre technique et méthodologique. Il s'agit de détecter les relations sémantiques entre entités nommées par des traitements issus du Traitement Automatique des Langues, sur de larges corpus plus ou moins techniques et de les organiser sous une représentation formelle structurée. Sans exclure les phénomènes linguistiques qui peuvent être génériques à tout type de texte, nous nous appuyons sur une méthodologie qui permet de trouver la réalisation des relations dans un corpus spécifique à un domaine, notamment en se concentrant sur la recherche de marqueurs discriminants. Nous considérons donc qu'il existe une forte dépendance entre les membres du triplets corpus/relation/marqueur.