Mémoires 2023-2024
Nœuds, arêtes, clusters... À quoi pense BERT ?
Auteur : Clément Buon
Année : 2024
Résumé : Le chinois classique, malgré sa parenté avec le chinois mandarin moderne, reste une langue relativement peu dotée en traitement automatique des langues (TAL). Les défis à relever sont nombreux pour obtenir des données exploitables, puis produire des modèles pré-entraînés ou autres solutions permettant d’extraire les connaissances contenues dans les documents d’époque. Ce constat est d’ailleurs vrai pour les autres langues anciennes.
Tout d’abord, les sources historiques sont nombreuses, mais un important travail de numérisation et d’annotation des données est nécessaire pour les rendre exploitables. Les méthodes actuelles de Reconnaissance Optique de Caractères (ROC, OCR en anglais) ne sont pas infaillibles et ajoutent du bruit dans les données. Par ailleurs, l’annotation des corpus est particulièrement coûteuse en raison de la rareté des experts en langues anciennes. La première campagne internationale dédiée à l’étiquetage de séquences en chinois classique s’est déroulée en 2022, dans le cadre du workshop «Language Technologies for Historical and Ancient Languages » (LT4HALA). En comparaison, la première campagne similaire pour l’anglais a eu lieu en 2000 à l’occasion de la CoNLL-2000.
De plus, le terme "chinois classique" (en chinois, 古文 guwen ou 文言文 wenyanwen) amalgame une multitude de réalités linguistiques. Il s’agit globalement de la langue de l’administration et de la littérature en usage dans la Chine impériale, ce qui couvre près de 2500 ans d’histoire. Elle sert ainsi de langue véhiculaire, en contraste avec l’infinie diversité des langues vernaculaires spécifiques à chaque région. Par commodité, on accepte généralement d’appeler "chinois classique" la langue
de l’époque de Confucius (551–479 Avant l’Ère Commune, AEC) à la fin de la dynastie Han (202 AEC –220 Ère Commune, EC). Ces enjeux de délimitation temporelle sont cruciaux, car ils sont un facteur important dans la construction de corpus : faut-il se concentrer sur une variété précise ? combiner plusieurs variétés dans un même corpus ?
Ces considérations nous ont conduit à questionner la représentation que les modèles de langue ont du chinois classique. En particulier, comment ces représentations diffèrent-elles par rapport au chinois moderne ? Comment se structure le réseau de neurones au contact d’un corpus classique ? Quels outils sont à notre disposition pour étudier ces questions introspectives ?
Tout d’abord, les sources historiques sont nombreuses, mais un important travail de numérisation et d’annotation des données est nécessaire pour les rendre exploitables. Les méthodes actuelles de Reconnaissance Optique de Caractères (ROC, OCR en anglais) ne sont pas infaillibles et ajoutent du bruit dans les données. Par ailleurs, l’annotation des corpus est particulièrement coûteuse en raison de la rareté des experts en langues anciennes. La première campagne internationale dédiée à l’étiquetage de séquences en chinois classique s’est déroulée en 2022, dans le cadre du workshop «Language Technologies for Historical and Ancient Languages » (LT4HALA). En comparaison, la première campagne similaire pour l’anglais a eu lieu en 2000 à l’occasion de la CoNLL-2000.
De plus, le terme "chinois classique" (en chinois, 古文 guwen ou 文言文 wenyanwen) amalgame une multitude de réalités linguistiques. Il s’agit globalement de la langue de l’administration et de la littérature en usage dans la Chine impériale, ce qui couvre près de 2500 ans d’histoire. Elle sert ainsi de langue véhiculaire, en contraste avec l’infinie diversité des langues vernaculaires spécifiques à chaque région. Par commodité, on accepte généralement d’appeler "chinois classique" la langue
de l’époque de Confucius (551–479 Avant l’Ère Commune, AEC) à la fin de la dynastie Han (202 AEC –220 Ère Commune, EC). Ces enjeux de délimitation temporelle sont cruciaux, car ils sont un facteur important dans la construction de corpus : faut-il se concentrer sur une variété précise ? combiner plusieurs variétés dans un même corpus ?
Ces considérations nous ont conduit à questionner la représentation que les modèles de langue ont du chinois classique. En particulier, comment ces représentations diffèrent-elles par rapport au chinois moderne ? Comment se structure le réseau de neurones au contact d’un corpus classique ? Quels outils sont à notre disposition pour étudier ces questions introspectives ?
Propositions pour l’identification, la modélisation et la quantification des chambres d’écho
Auteur : Laura Darenne
Année : 2024
Résumé : Ce travail s’inspire d’une étude en sciences de l’information et de la communication portant sur les chambres d’écho sur YouTube, comme lieu de polarisation des opinions, pour en proposer une validation, un approfondissement technique et une automatisation. Le travail a pour objectif de découvrir les corrélations possibles entre le contenu des vidéos, les comportements des commentateurs et l’expression du consensus et du dissensus dans les commentaires. Nous avons élaboré une chaîne de traitement qui intègre un modèle de sujet (topic modeling), un modèle de mesure de la toxicité et un modèle de classification de l’accord et du désaccord. Nos recherches
ont mis en évidence des comportements spécifiques liés à certains sujets de vidéos, des dynamiques de discussion, notamment dans l’expression du désaccord et ouvre des perspectives pour l’étude de la radicalisation des opinions dans la perspective des guerres informationnelles, cognitives et d’influence.
ont mis en évidence des comportements spécifiques liés à certains sujets de vidéos, des dynamiques de discussion, notamment dans l’expression du désaccord et ouvre des perspectives pour l’étude de la radicalisation des opinions dans la perspective des guerres informationnelles, cognitives et d’influence.
Génération automatique et non supervisée d’ontologies à partir de corpus spécialisés
Auteur : Liza Fretel
Année : 2024
Résumé : Les ontologies jouent un rôle clé dans la structuration et la formalisation des concepts. En effet, elles ont la capacité de représenter comment un concept intéragit avec les autres, offrant ainsi un moyen de raisonnement plus proche du nôtre à la machine. Par ailleurs, les ontologies octroient la capacité de synthétiser et de partager des connaissances provenant de multiples ressources grâce au référencement interontologique. Elles viennent combler les lacunes des LLMs (Large Language Models), qui peinent parfois à distinguer le vrai du faux. De plus, les LLMs, bien qu’entraînés
sur des données très diverses, ne sont pas omniscients, les rendant inefficaces dans un contexte très spécifique.
L’inconvénient majeur des ontologies, cependant, est que leur construction demande une certaine expertise et une charge cognitive élevée. Afin d’automatiser leur création, nous pouvons utiliser des corpus de spécialité et des techniques de traitement automatique des langues. Ce processus, nommé « apprentissage d’ontologies » (Ontology Learning), se divise en plusieurs sous-tâches, telles que l’extraction d’informations, la modélisation de ces informations au sein d’un graphe de connaissances,
la sélection et l’organisation de concepts au sein d’une taxonomie, etc.
Quatre étapes sont abordées dans ce mémoire. La première étape est l’extraction et l’organisation de triplets 3 en graphes de connaissances à partir d’arbres syntaxiques. L’extraction obtient une F-mesure de 0,812 sur le corpus Solaris en exploitant la sortie du modèle de langue SpaCy [Honnibal and Montani, 2017].
Ensuite, pour réaliser la sélection de concepts, nous nous sommes appuyés sur des mesures statistiques comme le score de spécificité. L’organisation des concepts sous une taxonomie exploite les définitions présentes dans le corpus suivant la formulation « A est un B ». Pour le référencement d’ontologies, nous utilisons un modèle XNLI. Le référencement de notre ontologie Catastrophes à Wikidata atteint un hit@1 à 0,53, prouvant que la vectorisation de concepts par XNLI est une méthode
efficace pour référencer une ontologie de domaine à une ontologie généraliste.
sur des données très diverses, ne sont pas omniscients, les rendant inefficaces dans un contexte très spécifique.
L’inconvénient majeur des ontologies, cependant, est que leur construction demande une certaine expertise et une charge cognitive élevée. Afin d’automatiser leur création, nous pouvons utiliser des corpus de spécialité et des techniques de traitement automatique des langues. Ce processus, nommé « apprentissage d’ontologies » (Ontology Learning), se divise en plusieurs sous-tâches, telles que l’extraction d’informations, la modélisation de ces informations au sein d’un graphe de connaissances,
la sélection et l’organisation de concepts au sein d’une taxonomie, etc.
Quatre étapes sont abordées dans ce mémoire. La première étape est l’extraction et l’organisation de triplets 3 en graphes de connaissances à partir d’arbres syntaxiques. L’extraction obtient une F-mesure de 0,812 sur le corpus Solaris en exploitant la sortie du modèle de langue SpaCy [Honnibal and Montani, 2017].
Ensuite, pour réaliser la sélection de concepts, nous nous sommes appuyés sur des mesures statistiques comme le score de spécificité. L’organisation des concepts sous une taxonomie exploite les définitions présentes dans le corpus suivant la formulation « A est un B ». Pour le référencement d’ontologies, nous utilisons un modèle XNLI. Le référencement de notre ontologie Catastrophes à Wikidata atteint un hit@1 à 0,53, prouvant que la vectorisation de concepts par XNLI est une méthode
efficace pour référencer une ontologie de domaine à une ontologie généraliste.
De la parole aux transcriptions : optimiser la transcription de l’arménien occidental avec des ressources limitées
Auteur : Agathe Wallet
Année : 2024
Résumé : La transcription automatique de langues peu dotées en ressources est un défi, autant pour l’exploitation des données disponibles que pour le choix des algorithmes et l’évaluation des résultats. Dans ce mémoire, nous présentons nos travaux pour développer un modèle de transcription de l’arménien occidental vers une écriture phonologique (API). Ils ont été réalisés dans le cadre du projet de recherche DALiH (Digitizing Armenian Linguistic Heritage) qui apporte un volume de données
transcrites limitées pour l’arménien occidental. Plusieurs stratégies d’optimisation de l’apprentissage ont été explorées, qui comparent plusieurs modes de sélection des données d’entraînement. Ces recherches ont montré qu’un choix judicieux de modèle et de données améliore significativement l’apprentissage automatique, tout en montrant la sensibilité des résultats aux choix des jeux de données et des paramètres des modèles de transcription automatique.
transcrites limitées pour l’arménien occidental. Plusieurs stratégies d’optimisation de l’apprentissage ont été explorées, qui comparent plusieurs modes de sélection des données d’entraînement. Ces recherches ont montré qu’un choix judicieux de modèle et de données améliore significativement l’apprentissage automatique, tout en montrant la sensibilité des résultats aux choix des jeux de données et des paramètres des modèles de transcription automatique.