manipulation d'arbres syntaxiques

Génération automatique et non supervisée d’ontologies à partir de corpus spécialisés

Résumé
Les ontologies jouent un rôle clé dans la structuration et la formalisation des concepts. En effet, elles ont la capacité de représenter comment un concept intéragit avec les autres, offrant ainsi un moyen de raisonnement plus proche du nôtre à la machine. Par ailleurs, les ontologies octroient la capacité de synthétiser et de partager des connaissances provenant de multiples ressources grâce au référencement interontologique. Elles viennent combler les lacunes des LLMs (Large Language Models), qui peinent parfois à distinguer le vrai du faux. De plus, les LLMs, bien qu’entraînés
sur des données très diverses, ne sont pas omniscients, les rendant inefficaces dans un contexte très spécifique.
L’inconvénient majeur des ontologies, cependant, est que leur construction demande une certaine expertise et une charge cognitive élevée. Afin d’automatiser leur création, nous pouvons utiliser des corpus de spécialité et des techniques de traitement automatique des langues. Ce processus, nommé « apprentissage d’ontologies » (Ontology Learning), se divise en plusieurs sous-tâches, telles que l’extraction d’informations, la modélisation de ces informations au sein d’un graphe de connaissances,
la sélection et l’organisation de concepts au sein d’une taxonomie, etc.
Quatre étapes sont abordées dans ce mémoire. La première étape est l’extraction et l’organisation de triplets 3 en graphes de connaissances à partir d’arbres syntaxiques. L’extraction obtient une F-mesure de 0,812 sur le corpus Solaris en exploitant la sortie du modèle de langue SpaCy [Honnibal and Montani, 2017].
Ensuite, pour réaliser la sélection de concepts, nous nous sommes appuyés sur des mesures statistiques comme le score de spécificité. L’organisation des concepts sous une taxonomie exploite les définitions présentes dans le corpus suivant la formulation « A est un B ». Pour le référencement d’ontologies, nous utilisons un modèle XNLI. Le référencement de notre ontologie Catastrophes à Wikidata atteint un hit@1 à 0,53, prouvant que la vectorisation de concepts par XNLI est une méthode
efficace pour référencer une ontologie de domaine à une ontologie généraliste.