Doctorat
Au sein de l'équipe ERTIM, la recherche doctorale se situe au carrefour des problématiques traditionnelles du laboratoire : le multilinguisme, l'ingénierie linguistique, le document électronique décliné sur différents supports (web, mobile, etc.).
La plupart des doctorants actuellement en thèse sont financés dans leurs travaux par des entreprises partenaires (ARISEM, AMI Software) par l'intermédiaire de bourses CIFRE, par des contrats de recherche ou des financements type ATER.
Plusieurs étudiants en doctorat sont actuellement en thèse au sein de l'équipe ERTIM , voici leurs travaux :
La transcription automatique de l'arménien : enjeux phonétiques et phonologiques
Samuel Chakmakjian (date de soutenance prévue : 2024)
Direction de recherche : Damien Nouvel, Anaïd Donabedian
Résumé :
Malgré les progrès majeurs réalisés au niveau mondial en matière d’intelligence artificielle et de Reconnaissance automatique de la parole pour certaines langues du monde, il n’existe pas de modèle de reconnaissance automatique de la parole répandue ni de logiciel de reconnaissance vocale facilement disponible pour l’arménien. Ce projet répondra à la nécessité de systématiser le premier maillon de la chaîne qui constitue le traitement des langues (TAL) portant sur les données orales : l’entrée phonétique.
Notre premier objectif est de fournir une description phonétique basée sur les études instrumentales de l'arménien moderne avec tous ses paramètres de variation, qui soit exploitable par des linguistes informaticiens et ingénieurs des langues travaillant sur le traitement automatique des corpus arméniens.
Le deuxième objectif de ce projet est de compléter la chaîne, en passant par une transcription phonologique à une transcription en orthographe arménienne. Ce faisant, il sera nécessaire de déterminer s’il est possible de prendre un modèle phonologique commun pour les deux variantes principales de la langue. La possibilité d'une telle unification reste une grande question dans le domaine de la linguistique arménienne qui n'a pas encore été résolue.
En s'appuyant sur la richesse des corpus oraux (recueillis et produits par SeDyL, Labex EFL, IRISA, EANC), nous visons à établir un lien entre la recherche expérimentale et théorique en phonétique et phonologie de l'arménien, et à fournir et tester un modèle avec des algorithmes et réseaux de neurones (Modèle de Markov caché, wav2vec). Nos résultats auront une importance à la fois pour la linguistique arménienne et aussi pour des applications pratiques.
Malgré les progrès majeurs réalisés au niveau mondial en matière d’intelligence artificielle et de Reconnaissance automatique de la parole pour certaines langues du monde, il n’existe pas de modèle de reconnaissance automatique de la parole répandue ni de logiciel de reconnaissance vocale facilement disponible pour l’arménien. Ce projet répondra à la nécessité de systématiser le premier maillon de la chaîne qui constitue le traitement des langues (TAL) portant sur les données orales : l’entrée phonétique.
Notre premier objectif est de fournir une description phonétique basée sur les études instrumentales de l'arménien moderne avec tous ses paramètres de variation, qui soit exploitable par des linguistes informaticiens et ingénieurs des langues travaillant sur le traitement automatique des corpus arméniens.
Le deuxième objectif de ce projet est de compléter la chaîne, en passant par une transcription phonologique à une transcription en orthographe arménienne. Ce faisant, il sera nécessaire de déterminer s’il est possible de prendre un modèle phonologique commun pour les deux variantes principales de la langue. La possibilité d'une telle unification reste une grande question dans le domaine de la linguistique arménienne qui n'a pas encore été résolue.
En s'appuyant sur la richesse des corpus oraux (recueillis et produits par SeDyL, Labex EFL, IRISA, EANC), nous visons à établir un lien entre la recherche expérimentale et théorique en phonétique et phonologie de l'arménien, et à fournir et tester un modèle avec des algorithmes et réseaux de neurones (Modèle de Markov caché, wav2vec). Nos résultats auront une importance à la fois pour la linguistique arménienne et aussi pour des applications pratiques.
Classification automatique des consommateurs selon leur personnalité et leurs valeurs exprimées à partir du discours spontané issu des réseaux sociaux dans le domaine du parfum
Boyu Niu (date de soutenance prévue : 2023)
Direction de recherche : Frédérique Segond
Résumé :
Cette thèse CIFRE sera réalisé au sein de l'ER-TIM et de l'équipe Consumer & Sensory Innovation de l'entreprise International Flavors & Fragrances Inc. (IFF) sous la direction de Dr Frédérique SEGOND.
Pendant la réalisation de la thèse, nous allons implémenter un système capable de détecter des valeurs de la personnalité à partir du discours spontané des consommateurs des parfums et de classifier ceux-là. Les valeurs ont été inspirées des études de Schwartz (1996, 2003, 2006). Pour implémenter ce système, nous allons utiliser des techniques dans le domaine du traitement automatique du langage naturel (TALN), en s'appuyant sur des techniques psycholinguistique et sociolinguistique. Après l'implémentation, nous ferons une campagne d'évaluation sur la performance du système, avant de le mettre en application pour que ce soit fonctionnel pour l'entreprise.
Plus concrètement, les sous-domaines du TALN que nous allons utiliser comprennent l'analyse des styles, l'analyse des sentiments, la détection du sarcasme, l'extraction de thématique, etc.
Pour commencer, nous allons étudier les connaissances d'IFF sur les consommateurs : serait-il possible de transformer ces connaissances en des outils du TALN pour que ces connaissances puissent être appliquées sur des textes en langage naturel ?
Il est aussi l'occasion de poser la question si les valeurs de personnalité de Schwartz peuvent être détectées à travers le langage naturel, et la réalisation langagière de ces valeurs correspondrait-elle à la description de celles-ci ? Serait-il possible que nous trouvions de nouvelles valeurs pendant notre recherche, plus ou moins spécifiques au monde des parfums ?
Pendant la réalisation de la thèse, nous allons implémenter un système capable de détecter des valeurs de la personnalité à partir du discours spontané des consommateurs des parfums et de classifier ceux-là. Les valeurs ont été inspirées des études de Schwartz (1996, 2003, 2006). Pour implémenter ce système, nous allons utiliser des techniques dans le domaine du traitement automatique du langage naturel (TALN), en s'appuyant sur des techniques psycholinguistique et sociolinguistique. Après l'implémentation, nous ferons une campagne d'évaluation sur la performance du système, avant de le mettre en application pour que ce soit fonctionnel pour l'entreprise.
Plus concrètement, les sous-domaines du TALN que nous allons utiliser comprennent l'analyse des styles, l'analyse des sentiments, la détection du sarcasme, l'extraction de thématique, etc.
Pour commencer, nous allons étudier les connaissances d'IFF sur les consommateurs : serait-il possible de transformer ces connaissances en des outils du TALN pour que ces connaissances puissent être appliquées sur des textes en langage naturel ?
Il est aussi l'occasion de poser la question si les valeurs de personnalité de Schwartz peuvent être détectées à travers le langage naturel, et la réalisation langagière de ces valeurs correspondrait-elle à la description de celles-ci ? Serait-il possible que nous trouvions de nouvelles valeurs pendant notre recherche, plus ou moins spécifiques au monde des parfums ?
Détection de nouveautés sur les réseaux sociaux
Yizhou Xu (date de soutenance prévue : 2023)
Direction de recherche : Frédérique Segond, Kata Gabor
Résumé :
À l'ère de l'explosion de l'information, l'internaute, se trouvant régulièrement face à un ensemble volumineux de données textuelles disponibles sur Internet, devra parcourir des piles de pages similaires portant sur le même sujet pour trouver quelques « informations nouvelles », ce qui met en exergue la nécessité de détecter et d'extraire automatiquement des nouveautés. La détection de nouveautés consiste à récupérer des éléments qui n'ont pas apparu auparavant et qui sont inconnus et originaux par rapport aux références pré-déterminées.
Les réseaux sociaux, tels que Twitter et Facebook, deviennent de plus en plus importants en tant que sources majeures de ces nouveautés : les utilisateurs partagent, discutent et suivent des actualités sur ces plateformes ; les entreprises utilisent ces plateformes pour lancer de nouveaux produits. Détecter automatiquement des nouveautés sur les réseaux sociaux est ainsi une tâche essentielle pour les systèmes de surveillance ou d'analyse dans de nombreux domaines, et parmi eux l'intelligence économique et l'intelligence dans le domaine de la défense et de la sécurité.Cette thèse, réalisée chez Bertin IT, vise donc à d'élaborer des outils et des méthodes permettant de détecter et d'extraire automatiquement les nouveautés dans les textes provenant des réseaux sociaux. Dans cette étude, nous aborderons différents aspects de cette tâche (nouvelles entités, nouvelles relations ou nouveaux événements) et proposerons solutions pour différents scénarios d'applications (l'intelligence économique et l'intelligence dans le domaine de la défense et de la sécurité).
Les réseaux sociaux, tels que Twitter et Facebook, deviennent de plus en plus importants en tant que sources majeures de ces nouveautés : les utilisateurs partagent, discutent et suivent des actualités sur ces plateformes ; les entreprises utilisent ces plateformes pour lancer de nouveaux produits. Détecter automatiquement des nouveautés sur les réseaux sociaux est ainsi une tâche essentielle pour les systèmes de surveillance ou d'analyse dans de nombreux domaines, et parmi eux l'intelligence économique et l'intelligence dans le domaine de la défense et de la sécurité.Cette thèse, réalisée chez Bertin IT, vise donc à d'élaborer des outils et des méthodes permettant de détecter et d'extraire automatiquement les nouveautés dans les textes provenant des réseaux sociaux. Dans cette étude, nous aborderons différents aspects de cette tâche (nouvelles entités, nouvelles relations ou nouveaux événements) et proposerons solutions pour différents scénarios d'applications (l'intelligence économique et l'intelligence dans le domaine de la défense et de la sécurité).
Développement d'outils TAL pour une variété de quechua
Johanna Cordova (date de soutenance prévue : 2023)
Direction de recherche : Damien Nouvel, César Itier
Résumé :
Les langues quechua constituent la famille de langue amérindienne comptant le plus grand nombre de locuteurs natifs. Au Pérou, selon le recensement de 2017, 13,9 % de la population a le quechua pour première langue et environ 20 % le parle. Pourtant, elle est presque totalement absente des usages numériques. En traitement automatique (TAL), c'est une langue peu dotée, avec une forte disparité de ressources selon la variété de quechua considérée. L'objectif de cette thèse est de développer un ensemble d'outils fondamentaux pour le traitement automatique d'une variété du quechua central, le quechua ancashino, parlé par environ 400 000 personnes (mais en danger d'extinction d'après la classification de l'UNESCO). Ce processus comporte trois étapes : la collecte de corpus oraux et écrits et la numérisation des ressources disponibles dans cette variété (dictionnaires, recueils de contes et de récits), l'implémentation d'un analyseur morphologique, et l'élaboration d'un corpus arboré (treebank). Les ressources développées seront valorisées à travers des applications telles qu'un correcteur orthographique et/ou un aligneur pour les corpus parallèles quechua-espagnol. Dans un contexte global de valorisation des langues originaires et alors que d'ambitieuses politiques liées aux droits linguistiques sont en cours de déploiement dans les pays de l'aire andine, la présence du quechua dans les technologies constituerait un important levier pour renforcer sa pratique et faciliter son enseignement.
adaptation d'agents conversationnels : génération automatique de réponses personnalisées
Manying Zhang (date de soutenance prévue : 2021)
Direction de recherche : Mathieu Valette, Damien Nouvel
Résumé :
Un agent conversationnel, aussi appelé système de dialogue, est un système computationnel qui consiste à interagir avec des humains par la langue naturelle. En prenant le message envoyé par l'utilisateur comme entrée, l'agent produit une réponse en sortie. Les agents conversationnels sont largement utilisés dans le secteur industriel pour différents usages : assistance technique, service client, psychothérapie, assistant personnel sur mobile, etc. La génération automatique de réponse, initialement réalisée par une architecture de chaîne de traitement, fonctionne de plus en plus à l'aide d'un seul module qui réalise tous les traitements de bout en bout (en anglais, end-to-end). Cette dernière architecture est rendue de plus en plus compétitive par les récents progrès de l'apprentissage profond et des réseaux de neurones.
Une problématique importante de l'agent conversationnel end-to-end est celle de générer des réponses pertinentes et diversifiées. Dans notre travail, nous nous concentrons sur la perspective de la personnalisation, d'un côté selon les différents utilisateurs pour leur proposer une réponse plus personnalisée, plus spécifique et moins vague, de l'autre côté pour conférer à l'agent conversationnel lui-même une personnalité cohérente.Deux enjeux sont à prendre en compte. D'une part, comment profiter de données publiques et générales pour s'adapter aux scènes personnalisées ? D'autre part, comment intégrer l'historique récent de la conversation pour améliorer la réponse actuelle ? Le projet prendra éventuellement l'approche de l'apprentissage par transfert (en anglais, transfer learning) et exige une enquête de méthodes hybrides pour compléter les end-to-end. Le travail sera fait en français, anglais et chinois.
Une problématique importante de l'agent conversationnel end-to-end est celle de générer des réponses pertinentes et diversifiées. Dans notre travail, nous nous concentrons sur la perspective de la personnalisation, d'un côté selon les différents utilisateurs pour leur proposer une réponse plus personnalisée, plus spécifique et moins vague, de l'autre côté pour conférer à l'agent conversationnel lui-même une personnalité cohérente.Deux enjeux sont à prendre en compte. D'une part, comment profiter de données publiques et générales pour s'adapter aux scènes personnalisées ? D'autre part, comment intégrer l'historique récent de la conversation pour améliorer la réponse actuelle ? Le projet prendra éventuellement l'approche de l'apprentissage par transfert (en anglais, transfer learning) et exige une enquête de méthodes hybrides pour compléter les end-to-end. Le travail sera fait en français, anglais et chinois.
Analyse automatisée de processus de nomination en corpus : apports de la reconnaissance d'entités et de la coréférence pour l'analyse discursive
Manon Cassier (date de soutenance prévue : 2021)
Direction de recherche : Julien Longhi, Damien Nouvel
Résumé :
Le contexte de la thèse se situe dans la perspective de travaux sur l'interprétation automatisée de manifestations complexes de faits de discours non saisissables par les méthodes actuelles de l'analyse de discours (AD) dans des données issues de transcription d'interviews politiques. Il se focalise sur le mécanisme linguistique de la « nomination », en lien avec les concepts de dénomination, désignation, référenciation. Il s'agit notamment, à partir d'un travail théorique et descriptif de faits de discours, de procéder à des prototypages, implémentations, expérimentations et validations d'approches pour la détection et caractérisation des nominations en lien avec les traitements développés par les équipes TAL du projet TALAD. En particulier, les sorties des reconnaissances d'entités et de coréférences pourront être exploitées, afin de déterminer leur apport pour un système expérimental de focalisé sur les nominations. Un retour sera fait à chaque traitement TAL afin d'évaluer son apport dans la reconnaissance des nominations, dans une optique d'intégration aux outils traditionnels de l'AD. Un des enjeux de cette thèse est aussi de proposer un système de classification pour l'entreprise Reticular afin de qualifier différents acteurs de la vie politique. En effet, Reticular s'intéresse à la qualification des acteurs comme des « concepteurs de doctrine », des « vulgarisateurs », des « relais d'opinion » (parfois « influenceurs ») et des « nouveaux convertis », « fans », ou encore « supporters ». Il s'agira ainsi de s'appuyer sur les marques identifiées formellement par les techniques TAL pour contribuer à caractériser les acteurs, non pas par leur « dit », mais par leur « (manière de) dire ».
Détection de personnes influentes dans une sélection de médias sociaux
Kevin Deturck (date de soutenance prévue : 2020)
Direction de recherche : Mathieu Valette, Frédérique Segond, Damien Nouvel
Résumé :
Dans cette thèse, nous développerons un cadre théorique pour identifier automatiquement les personnes influentes dans les médias sociaux à partir de leurs manifestations en termes d'interaction avec les autres utilisateurs et de leur profil aux traits particuliers.
Globalement, les approches à la détection d'influence se distinguent par le type de données auquel elles s'intéressent : structurées ou non structurées. Le cadre théorique retenu pour notre thèse a la particularité de combiner ces deux types de données pour tenter d'en obtenir la meilleure complémentarité et monter le système le plus performant. Nous traduirons les traits généraux de l'influenceur d'une part en des marqueurs discursifs qui demandent d'analyser des données non structurées comme le texte, d'autre part en des caractéristiques structurelles qui feront appel à des données structurées comme les métadonnées.
Notre thèse s'inscrit dans un contexte de TAL sur le français et les corpus déjà disponibles sont en français, nous travaillerons donc majoritairement sur cette langue. Toutefois, nous veillerons à ce que les modèles implémentés puissent être adaptés dans un contexte multilingue ; les technologies des médias sociaux restent les mêmes quelle que soit la langue des messages. Nos travaux pourront s'intégrer dans deux projets déjà amorcés à Viseo Technologies : l'un traite de l'enrichissement d'outil CRM (Customer Relationship Management) en y ajoutant les consommateurs les plus influents, l'autre a pour but la détection du recrutement des jeunes par les djihadistes, ajoutant une dimension politico-sociétale à l'application commerciale du projet. Les médias sociaux sont cruciaux pour le dynamisme des interactions entre leurs utilisateurs et donc l'influence qui peut s'y manifester. Notre projet permettra de mieux appréhender les mécanismes pour la transmission d'information sur ces supports.
Globalement, les approches à la détection d'influence se distinguent par le type de données auquel elles s'intéressent : structurées ou non structurées. Le cadre théorique retenu pour notre thèse a la particularité de combiner ces deux types de données pour tenter d'en obtenir la meilleure complémentarité et monter le système le plus performant. Nous traduirons les traits généraux de l'influenceur d'une part en des marqueurs discursifs qui demandent d'analyser des données non structurées comme le texte, d'autre part en des caractéristiques structurelles qui feront appel à des données structurées comme les métadonnées.
Notre thèse s'inscrit dans un contexte de TAL sur le français et les corpus déjà disponibles sont en français, nous travaillerons donc majoritairement sur cette langue. Toutefois, nous veillerons à ce que les modèles implémentés puissent être adaptés dans un contexte multilingue ; les technologies des médias sociaux restent les mêmes quelle que soit la langue des messages. Nos travaux pourront s'intégrer dans deux projets déjà amorcés à Viseo Technologies : l'un traite de l'enrichissement d'outil CRM (Customer Relationship Management) en y ajoutant les consommateurs les plus influents, l'autre a pour but la détection du recrutement des jeunes par les djihadistes, ajoutant une dimension politico-sociétale à l'application commerciale du projet. Les médias sociaux sont cruciaux pour le dynamisme des interactions entre leurs utilisateurs et donc l'influence qui peut s'y manifester. Notre projet permettra de mieux appréhender les mécanismes pour la transmission d'information sur ces supports.
Fréquence lexicale et lisibilité de textes en L2 : une étude comparative de textes birmans et anglais
Jennifer Lewis-Wong (date de soutenance prévue : 2020)
Direction de recherche : San San Hnin Tun, Mathieu Valette
Résumé :
Pour les apprenants comme pour les enseignants, les informations sur la fréquence lexicale des mots d'un texte, son profil lexical, permettent d'évaluer la difficulté relative des vocables à l'intérieur d'un texte. Ces informations peuvent s'utiliser pour calculer un indice de lisibilité, fournissant ainsi un moyen pratique de choisir automatiquement un texte qui correspondrait aux compétences linguistiques de l'apprenant en L2. Nous proposons d'examiner l'apport de la fréquence lexicale à l'évaluation du niveau de difficulté de textes pour les textes en birman. Nous testerons la méthode sur un corpus de textes en anglais déjà classifiés par niveau de difficulté avant de l'appliquer aux textes birmans de façon à avoir une base de comparaison. Ceci nous permettra non seulement d'élaborer une liste de fréquence lexicale de la langue birmane, mais aussi un dispositif qui fournira à la fois le profil lexical d'un texte en birman et un indice de lisibilité indiquant son niveau de difficulté.
Méthodes de fouille de textes pour la caractérisation d'opinions politiques : application à l'analyse des stratégies de communication sur les réseaux sociaux en Tunisie
Asma Zamiti (date de soutenance prévue : 2020)
Direction de recherche : Mathieu Valette
Résumé :
Etude d'un corpus en tunisien issu du web dans le but de cerner la mise en place et l'évolution de la stratégie de communication du parti islamiste Ennahdha après la révolution tunisienne de 2011. Notre projet s'articule autour de deux objectifs clés :
- le TAL du tunisien, langue peu dotée et non codifiée dont l'écriture sur les réseaux sociaux est diverses (arabizi, alphabet arabe, emprunts, etc.). Elle est peu étudiée malgré une quantité grandissante de données en tunisien disponibles notamment grâce à l'essor des réseaux sociaux. Le traitement automatique du tunisien est par ailleurs encore balbutiant. A l'échelle de l'état de l'art du TAL, les publications le concernant restent mineures
- l'analyse du discours politique tunisien outillée : le cas du parti Ennahdha Première force politique de Tunisie après les élections de 2011, le parti islamiste Ennahdha enregistre une forte baisse lors des élections législatives de 2014 en raison notamment de votes sanctions après trois années de gouvernance agitées. Le parti se distingue cependant par une stratégie de communication très soignée aussi bien pour mener des campagnes que pour répondre aux polémiques. C'est l'étude qualitative et quantitative de ce discours politique sur le web et notamment sur le réseau social Facebook que nous souhaitons effectuer.
- le TAL du tunisien, langue peu dotée et non codifiée dont l'écriture sur les réseaux sociaux est diverses (arabizi, alphabet arabe, emprunts, etc.). Elle est peu étudiée malgré une quantité grandissante de données en tunisien disponibles notamment grâce à l'essor des réseaux sociaux. Le traitement automatique du tunisien est par ailleurs encore balbutiant. A l'échelle de l'état de l'art du TAL, les publications le concernant restent mineures
- l'analyse du discours politique tunisien outillée : le cas du parti Ennahdha Première force politique de Tunisie après les élections de 2011, le parti islamiste Ennahdha enregistre une forte baisse lors des élections législatives de 2014 en raison notamment de votes sanctions après trois années de gouvernance agitées. Le parti se distingue cependant par une stratégie de communication très soignée aussi bien pour mener des campagnes que pour répondre aux polémiques. C'est l'étude qualitative et quantitative de ce discours politique sur le web et notamment sur le réseau social Facebook que nous souhaitons effectuer.
Acquisition de schémas prédicatifs verbaux en japonais
Pierre Marchal (thèse soutenue le 15 أكتوبر 2015)
Direction de recherche : Thierry Poibeau
Résumé :
L'acquisition de connaissances relatives aux constructions verbales est une question importante pour le traitement automatique des langues, mais aussi pour la lexicographie qui vise à documenter les nouveaux usages linguistiques. Cette tâche pose de nombreux enjeux, techniques et théoriques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à deux aspects fondamentaux de la description du verbe : la notion d'entrée lexicale et la distinction entre arguments et circonstants. A la suite de précédentes études en traitement automatique des langues et en linguistique nous posons qu'il existe un continuum entre homonymes et monosèmes ; de même nous faisons l'hypothèse qu'il n'y a pas de distinction marquée entre arguments et circonstants. Nous proposons une chaîne de traitement complète pour l'acquisition de schémas prédicatifs verbaux en japonais à partir d'un corpus non étiqueté de textes journalistiques. Cette chaîne de traitement intègre la notion d'argumentalité au processus de création des entrées lexicales et met en œuvre une modélisation de ces deux continuums. La ressource produite a fait l'objet d'une évaluation comparative qualitative, qui a permis de mettre en évidence la difficulté des ressources linguistiques à décrire de nouvelles données, plaidant par là même pour une lexicologie s'inscrivant dans le cadre épistémologique de la linguistique de corpus.
Analyse textuelle de corpus de discours écologiques relatifs au wu mai (brouillard de pollution) en Chine au moyen de méthodes de fouilles de textes
Qinran Dang (thèse soutenue le 29 يونيو 2020)
Direction de recherche : Mathieu Valette Co-encadrement : Nicolas Turenne
Résumé :
Du fait que la dégradation de l'environnement en Chine liée aux activités industrielles et à l'expansion de l'économie, le mot wù maí (le brouillard de pollution) est, depuis 2008, omniprésent sur les sites web, dans la presse, les réseaux sociaux, les forums, et les blogs, etc. Ce problème de pollution de l'air de Chine a non seulement suscité l'attention des instituts et médias chinois mais aussi celle de la presse occidentale. Notre projet est d'analyser les discours écologiques dans un corpus large et varié pour y relever la diversité des positions idéologiques et de leur expression. Les comparaisons s'effectueront selon les types de sites (institutionnel, médiatiques, informels), d'une part, et selon les contextes idéologiques (chinois ou occidental), d'autre part. Les méthodes d'analyses mettent en oeuvre l'analyse statistique des données textuelles (textométrie) et s'appuient sur un fond théorique articulant sémantique textuelle et analyse du discours.
Développement des méthodes linguistiques pour la fouille d'opinion en chinois (pour l'application XXX du Systran)
Liyun Yan (thèse soutenue le 5 يوليو 2021)
Direction de recherche : Mathieu Valette Co-encadrement : François Stuck
Résumé :
La fouille d'opinion intéresse à la fois la recherche académique et l'industrie. Son application au chinois apparaît nécessaire compte tenu de la croissance des masses de données sur internet et de l'insuffisance des recherches actuelles sur cette langue, par rapport aux langues européennes par exemple. Dans le cadre de l'entreprise, l'objectif de la fouille d'opinion est de développer des applications avec lesquelles les entreprises ou les clients peuvent obtenir une analyse synthétique des commentaires d'internautes permettant d'identifier leurs états subjectifs relatifs à des événements, objets, personnes, etc.
À partir de l'état de l'art, j'envisage d'adopter les méthodologies qui ont fait leur preuve dans les recherches existantes et d'innover en matière de méthodes linguistiques dans la lignée de travaux de sémantique effectués notamment à l'ERTIM. À travers des expérimentations variées, la solution validée sera intégrée à l'application du l'entreprise Systran dans laquelle je réaliserai ma thèse. Le corpus de l'expérimentation est constitué des commentaires du site Booking qui fournit des services du voyage, des hôtels et des locations en 41 langues, y compris le chinois.La première étape de mon travail consistera à affiner le programme de recherche et de constituer et normaliser les corpus. La 2e année sera consacrée à l'élaboration d'une méthode ou d'une combinaison de méthodes de fouille d'opinion à base de règles linguistiques. La 3e année sera consacrée à la rédaction de la thèse. Parallèlement, je développerai une application industrielle à partir des méthodes validées.
À partir de l'état de l'art, j'envisage d'adopter les méthodologies qui ont fait leur preuve dans les recherches existantes et d'innover en matière de méthodes linguistiques dans la lignée de travaux de sémantique effectués notamment à l'ERTIM. À travers des expérimentations variées, la solution validée sera intégrée à l'application du l'entreprise Systran dans laquelle je réaliserai ma thèse. Le corpus de l'expérimentation est constitué des commentaires du site Booking qui fournit des services du voyage, des hôtels et des locations en 41 langues, y compris le chinois.La première étape de mon travail consistera à affiner le programme de recherche et de constituer et normaliser les corpus. La 2e année sera consacrée à l'élaboration d'une méthode ou d'une combinaison de méthodes de fouille d'opinion à base de règles linguistiques. La 3e année sera consacrée à la rédaction de la thèse. Parallèlement, je développerai une application industrielle à partir des méthodes validées.
Elaboration d'une terminologie localisée pour l'aide à l'accès au droit des migrants hindiphones, ourdouphones et pendjabiphones
Bénédicte Diot-Parvaz (thèse soutenue le 30 نوفمبر 2019)
Direction de recherche : Annie Montaut, Mathieu Valette
Résumé :
Nul n'est censé ignorer la loi. Il est pourtant souvent difficile de comprendre le droit, discipline à la réputation absconse, surtout lorsqu'on est migrant dans un pays dont on ne maîtrise ni la langue, ni les codes culturels. Concerné par la garantie des droits du justiciable, l'Etat français prévoit la mise à disposition d'interprètes et de traducteurs pour ceux, défendants, plaignants ou victimes, qui ne comprennent pas le français afin de les intégrer au processus judiciaire. Le droit est un domaine technique qui impose un double niveau d'interprétation : heuristique (interprétation des textes) et sociolinguistique (d'une langue et d'un système culturel à l'autre), ce dernier aspect imposant l'adaptation du message pour en faciliter la compréhension par le public. Ce projet de thèse s'inscrit dans la continuité d'un master professionnel TRM et d'un master recherche en sciences du langage ciblant les communautés parlant le hindi, l'ourdou ou le pendjabi afin de leur rendre le droit accessible et faciliter leur intégration. En effet, si les populations venues d'Asie du Sud connaissent un contexte juridique empreint de common law (système anglo-saxon) et de droit coutumier spécifique à chaque religion pour le droit personnel (droit de la famille en général), de nombreux concepts du droit français leur semblent inintelligibles. Quelques pays à forte tradition migratoire dont le Canada ont toutefois développé des ressources et des techniques d'aménagement terminologique ou localisation terminologique. Par un travail de collection et d'étude de corpus du domaine judiciaire ainsi que d'une adaptation de la terminologie tenant compte des facteurs socio-culturels et linguistiques mis en jeux chez ces population migrantes, ce projet vise la production d'un dictionnaire qui servira d'interface entre les populations migrantes concernées et les intervenants sociaux.
Evolution du buzz sur internet - identification, analyse, modélisation et représentation dans un contexte de veille
Aurélien Lauf (thèse soutenue le 14 أكتوبر 2014)
Direction de recherche : Mathieu Valette
Résumé :
S'inscrivant principalement dans un contexte de veille informationnelle sur Internet, l'objectif de cette thèse est d'élaborer des outils et des méthodes permettant d'identifier, d'analyser, de modéliser et de représenter le cheminement d'une information circulant sur Internet (le buzz). Ces méthodes sont issues notamment de la linguistique de corpus et de la théorie des graphes. Il s'agit ici de remonter jusqu'aux sources primaires, ainsi qu'aux sources nécessaires et suffisantes d'une information, d'en dégager des sous-thématiques ainsi que des communautés de discours, et d'analyser les différences sémantiques pouvant apparaitre entre ces sources tout au long du cycle de vie de l'information.
Extraction en langue chinoise d'actions spatio-temporalisées réalisées par des personnes ou des organismes
Zhen Wang (thèse soutenue le 9 يونيو 2016)
Direction de recherche : Pierre Zweigenbaum
Résumé :
L'objectif final de cette thèse est l'extraction à partir de textes en chinois provenant du web, d'actions ayant pour agent et/ou pour objet une entité nommée de type personne ou organisme(chinois ou non). on y associe dans la mesure du possible un lien précis(géolocalisable) et un temps précis(date, heure).pour cela, on doit identifier et extraire les parties de la chaîne de caractères chinois correspondant à des noms propres ou des dates.on doit typer ces entités comme des personnes, des lieux, des organismes, des quantités numériques, des dates/heures.dans un même texte d'une occurrence à l'autre, on doit identifier une même entité même si elle est écrite de différentes manières. cela demande aussi de résoudre les anaphores.ensuite il faut identifier l'entité comme étant une personne, un organisme ou un lieu particulier. pour cela on s'appuiera sur des connaissances extérieures (répertoire de lieux, connaissances encyclopédiques structurées, etc.) qui seront mises sous forme d'ontologies. de plus les connaissances associées aux entités dans les différents textes doivent permettre d'une part de compléter certaines informations sur des faits qui sont relatés à différents endroits et aussi d'envisager de distinguer des activités qui ne peuvent être faites par la même personne (par exemple action en même temps en des lieux très distants).
Extraction interactive et non supervisée de lexique en chinois contemporain appliquée à la constitution de ressources linguistiques dans un domaine spécialisé
Gaël Patin (thèse soutenue le 31 يناير 2013)
Direction de recherche : Pierre Zweigenbaum
Résumé :
Les lexiques sont des ressources indispensables aux systèmes de recherche d'information. ils permettent d'améliorer notablement les résultats des procédés automatiques d'analyse linguistique— étiquetage morpho-syntaxique, interprétation sémantique ou indexation — dans des domaines particuliers. or la constitution de lexiques est confrontée à deux types de difficultés : les unes d'ordre pragmatique, telles que le coût de leur élaboration ou leur réutilisabilité, sont d'une grande importance pour la mise en oeuvre industrielle ; les autres d'ordre théorique, comme la définition de l'unité lexicale dans différentes langues ou la caractérisation des particularitéslexicales d'un corpus spécialisé, sont primordiales pour la pertinence et la validité des résultats. cette confrontation entre intérêt économique et qualitatif est une problématique récurrente dans le milieu de l'entreprise. la recherche scientifique appliquée doit être à même de proposer des solutions pour répondre à cette double exigence. cette étude propose un élément de réponse au problème de l'identification de lexique dans un corpus spécialisé en chinois contemporain via un système de classement de lexies (unités lexicales) candidates. cette étude s'intéresse en particulier au cas du chinois contemporain, langue pour laquelle nous ne disposons que de peu de ressources lexicales.
Lisibilité de textes et recherche automatique de contenus pédagogiques : le cas du hindi et de l'arménien
Satenik Mkhitaryan Direction de recherche : Mathieu Valette
Résumé :
Cette thèse vise à concevoir une formule de lisibilité afin de faciliter l'élaboration des contenus pédagogiques destinés à la lecture. Cette dernière a sa place particulière dans l'apprentissage d'une langue. De nombreux travaux ont montré que la pratique de la lectureen langue étrangère favorise son acquisition et améliore notamment la compréhension écrite. Mais la lecture peut ne pas atteindre son objectif pédagogique si les textes choisis sont trop faciles ou trop difficiles. Il est donc crucial que le texte soit adapté au niveau de l'apprenant ce qui n'est pas toujours le cas. La sélection des ressources textuelles en fonction du niveau des apprenants est souvent complexe et chronophage. Pour cette raison, de nombreux chercheurs ont tenté de trouver des moyens afin de rendre la tâche moins contraignante pour les enseignants. La mesure de lisibilité est un moyen pratique et efficace permettant d'évaluer la difficulté textes. (François, 1993) résume la lisibilité comme « un domaine qui étudie comment associer des textes à une catégorie de lecteurs, en fonction des aspects lexicaux, syntaxiques, de cohérence et de cohésion présents dans ces textes ». Ainsi, cette thèse permettra de créer une plateforme de recherche en ligne intégrant une formule de lisibilité qui aura deux fonctionnalités majeures : évaluation du niveau de difficulté du texte donné ; recherche de documents en ligne et classification automatique par niveau.
Méthodes et outils pour le traitement automatique du vietnamien - application en humanités numériques : fouille comportementale sur le web social
Océane Hô Dinh (thèse soutenue le 22 ديسمبر 2017)
Direction de recherche : Mathieu Valette
Résumé :
Cette thèse propose d'adapter et de développer des méthodes et des outils de traitement automatique de la langue vietnamienne, langue peu dotée, pour des applications de fouille de données extraites de forums de discussion sur Internet.
L'objectif est d'outiller au moyen de la linguistique de corpus l'étude des sociétés contemporaines afin d'appréhender les mutations sociétales les plus récentes, telles qu'elles sont rendues perceptibles par les technologies d'information et de communication (TIC).En ce qui concerne le cadre applicatif, nous nous situons dans le contexte d'un pays en voie de développement et d'ouverture à la globalisation, qui voit sa société évoluer rapidement et nous cherchons à étudier comment la jeunesse vietnamienne s'approprie les TIC comme nouveaux moyens d'expression et de partage de l'information, en mettant en valeur les tensions qu'elle subit entre traditions profondément ancrées et modernité attrayante. Dans ce but, le thème du VIH/SIDA a été choisi pour les nombreux enjeux de société qu'il recouvre (sanitaire et social, conflits générationnels, évolutions des mœurs, etc.) et les différents types de discours qui s'en emparent.
L'objectif est d'outiller au moyen de la linguistique de corpus l'étude des sociétés contemporaines afin d'appréhender les mutations sociétales les plus récentes, telles qu'elles sont rendues perceptibles par les technologies d'information et de communication (TIC).En ce qui concerne le cadre applicatif, nous nous situons dans le contexte d'un pays en voie de développement et d'ouverture à la globalisation, qui voit sa société évoluer rapidement et nous cherchons à étudier comment la jeunesse vietnamienne s'approprie les TIC comme nouveaux moyens d'expression et de partage de l'information, en mettant en valeur les tensions qu'elle subit entre traditions profondément ancrées et modernité attrayante. Dans ce but, le thème du VIH/SIDA a été choisi pour les nombreux enjeux de société qu'il recouvre (sanitaire et social, conflits générationnels, évolutions des mœurs, etc.) et les différents types de discours qui s'en emparent.
Méthodologie d'analyse textuelle semi-automatisée des discours voyageurs pour la qualification des déplacements multimodaux
Amélie Martin Direction de recherche : Frédérique Segond, Mathieu Valette
Résumé :
Le secteur du transport de voyageurs cherche aujourd'hui à proposer des services de plus en plus fins et personnalisés, basés sur une meilleure connaissance des clients. Ces derniers s'expriment de plus en plus en discours libre sur le web, mais aussi via des canaux plus traditionnels tels que les réclamations et les questions ouvertes d'enquêtes. Ils y décrivent notamment leurs itinéraires, quotidiens ou ponctuels, unimodaux ou intermodaux, combinant modes de transport classiques et modes émergents (comme le covoiturage, le vélopartage, etc), et y précisent parfois leur ressenti et leur opinion vis-à-vis de ces parcours.
Cette thèse (réalisée à la SNCF) vise donc à proposer une stratégie d'analyse qualitative semi-automatisée de la représentation des chaînes de déplacement des voyageurs à partir de ces discours. Il s'agit de mettre en œuvre des approches issues de la recherche d'information, de l'ingénierie des connaissances, de la sémantique de corpus et l'analyse de discours outillée afin de, dans un premier temps, reconstituer et comprendre les itinéraires des individus, puis de comprendre leurs motivations, leurs préférences, ou encore leurs habitudes de voyage à partir de ce premier socle d'analyse. Cette méthodologie pourra s'intégrer dans un outil d'aide à la décision de la SNCF pour évaluer, adapter dynamiquement et personnaliser l'offre de transport multimodale ainsi que les services de mobilité porte-à-porte.
Cette thèse (réalisée à la SNCF) vise donc à proposer une stratégie d'analyse qualitative semi-automatisée de la représentation des chaînes de déplacement des voyageurs à partir de ces discours. Il s'agit de mettre en œuvre des approches issues de la recherche d'information, de l'ingénierie des connaissances, de la sémantique de corpus et l'analyse de discours outillée afin de, dans un premier temps, reconstituer et comprendre les itinéraires des individus, puis de comprendre leurs motivations, leurs préférences, ou encore leurs habitudes de voyage à partir de ce premier socle d'analyse. Cette méthodologie pourra s'intégrer dans un outil d'aide à la décision de la SNCF pour évaluer, adapter dynamiquement et personnaliser l'offre de transport multimodale ainsi que les services de mobilité porte-à-porte.
Passage de données non structurées à des données structurées : extraction de relation entre entités à partir de corpus
Mani Ezzat (thèse soutenue le 6 مايو 2014)
Direction de recherche : Thierry Poibeau
Résumé :
Le développement des données disponibles sur Internet a considérablement changé le domaine du traitement des langues. Les systèmes qui traitaient, il y a peu encore, quelques phrases isolées, doivent maintenant faire face à des déluges de documents variés. Initié par les conférences MUC ( Message Understanding Conference ) au début des années 90, de nombreux travaux ont porté sur un type d'unités appelées entités nommées. Elles correspondent généralement à l'ensemble des noms propres (nom de personne, nom de lieu, etc…). L'état actuel des technologies montre une maîtrise satisfaisante pour la reconnaissance de séquences isolées, notamment pour les entités nommées et les termes techniques. Ces éléments sont importants pour indexer les textes et aider les analystes à en prendre connaissance. Cependant, ces séquences ne deviennent pleinement significatives que lorsqu'elles sont reliées entre elles. Il est par exemple intéressant de savoir qu'un texte contient des occurrences des mots Google et Youtube ; mais l'analyse devient beaucoup plus intéressante si le système est capable de détecter une relation entre ces deux éléments, voire de la typer comme étant une relation d'achat (Google ayant acheté Youtube il y a maintenant deux ans).
Le projet Infom@gic, au sein du pôle de Compétitivité Cap Digital, a permis d'explorer différentes techniques de reconnaissance des entités nommées. Ce point est loin d'être complètement maîtrisé : les performances sont très variables selon le type d'entité considéré, le genre du texte à analyser et la granularité des types considérés. Les performances sont toutefois suffisamment robustes pour qu'il soit permis d'aller plus loin vers la détection de relation.
Le projet Infom@gic, au sein du pôle de Compétitivité Cap Digital, a permis d'explorer différentes techniques de reconnaissance des entités nommées. Ce point est loin d'être complètement maîtrisé : les performances sont très variables selon le type d'entité considéré, le genre du texte à analyser et la granularité des types considérés. Les performances sont toutefois suffisamment robustes pour qu'il soit permis d'aller plus loin vers la détection de relation.
Sémantique des textes et didactique des langues-cultures : Application à un corpus de discours journalistiques et politiques en arabe moderne et contemporain
Nadia Makouar (thèse soutenue le 1 ديسمبر 2014)
Direction de recherche : Mathieu Valette, Driss El-Khattab
Résumé :
Aujourd'hui, les recherches en didactique des langues étrangères s'accordent à dire que les matériaux langagiers authentiques sont indispensables pour accéder à la réalité et aux représentations socio-culturelles véhiculées par la langue en question.
Aussi pouvoir lire et comprendre la langue à partir de ce type de contenus est plus facile grâce aux Technologies de l'Information et de la Communication et notamment par l'intermédiaire des outils d'exploration ciblée des textes pour une interprétation assistée. A partir d'un corpus journalistique et politique en langue arabe moderne et contemporaine et avec les instruments théoriques de la sémantique des textes de François Rastier, l'objectif de cette thèse est de proposer des pistes d'exploitation didactique pour la langue-culture arabe et un accès sémantique des textes numériques via les logiciels de textométrie.Il s'agit d'évaluer ces propositions pédagogiques et ainsi de donner à des étudiants de niveau intermédiaire et avancé la possibilité d'utiliser des contenus et des outils afin d'améliorer leur apprentissage et leur compétence en compréhension et production écrite de la langue-culture arabe dans une perspective plus globale d'une didactique des textes.
Aussi pouvoir lire et comprendre la langue à partir de ce type de contenus est plus facile grâce aux Technologies de l'Information et de la Communication et notamment par l'intermédiaire des outils d'exploration ciblée des textes pour une interprétation assistée. A partir d'un corpus journalistique et politique en langue arabe moderne et contemporaine et avec les instruments théoriques de la sémantique des textes de François Rastier, l'objectif de cette thèse est de proposer des pistes d'exploitation didactique pour la langue-culture arabe et un accès sémantique des textes numériques via les logiciels de textométrie.Il s'agit d'évaluer ces propositions pédagogiques et ainsi de donner à des étudiants de niveau intermédiaire et avancé la possibilité d'utiliser des contenus et des outils afin d'améliorer leur apprentissage et leur compétence en compréhension et production écrite de la langue-culture arabe dans une perspective plus globale d'une didactique des textes.