catégorisation

Reconnaissance automatique de la structure "shi...de" en chinois contemporain

Résumé
Catégorisation, Chinois contemporain, Structure "shi...de", Langue parléeNous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain. Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

Reconnaissance automatique de la structure "shi...de" en chinois contemporain

Résumé
Nous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain.

Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

Critéres pour la catégorisation automatique des documents numériques

Résumé
La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.