Soutenance de Thèse de Zhen WANG | Textes, Informatique, Multilinguisme

La soutenance de thèse de Zhen WANG :
"Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes"
se tiendra le jeudi 9 juin à 13h30 dans les Salons de l'INaLCO (2 rue de Lille, 75007 PARIS).

Le jury sera composé de :

M. Pierre ZWEIGENBAUM (LIMSI/CNRS), directeur de la thèse
M. Denis MAUREL (Université François-Rabelais), rapporteur
M. Stéphane FERRARI (Université de Caen), rapporteur
Mme. Christine LAMARRE (INALCO)
M. Damien NOUVEL (INALCO)
M. Christian FLUHR (GEOLSemantics)

Résumé :

La thèse a deux objectifs : le premier est de développer un analyseur de la langue chinoise en écriture simplifiée qui permet d'analyser automatiquement des sources textuelles en chinois afin de segmenter les textes en mots et d’étiqueter les mots par des catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités nommées et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes :

les ambiguïtés de segmentation et de catégorisation ;
le traitement des mots inconnus dans les textes chinois ;
l'ambiguïté de l'analyse syntaxique ;
la reconnaissance et le typage des entités nommées.

Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes suivantes :

extraire et annoter automatiquement des contenus à partir des textes analysés;
vérifier les contenus extraits et résoudre la cohérence à travers une ontologie.