Mémoires 2006-2007

Reconnaissance automatique de la structure "shi...de" en chinois contemporain

Auteur : Patin

Année : 2007

Mots clés : catégorisation, chinois contemporain, structure "shi...de", langue parlée

Résumé : Nous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain.

Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

Reconnaissance automatique de la structure "shi...de" en chinois contemporain

Auteur : Patin

Année : 2007

Mots clés : catégorisation, chinois contemporain, structure "shi...de", langue parlée

Résumé : Catégorisation, Chinois contemporain, Structure "shi...de", Langue parléeNous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain. Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

Pour une terminologie de la conception web

Auteur : Bonaparte

Année : 2007

Mots clés : terminologie, conception web, corpus bilingue, banque de données terminologiques, traduction technique

Résumé : Elaboration d'une terminologie de la conception web simple, fonctionnelle et accessible au plus grand nombre, à partir d'un corpus de textes bilingues.La partie théorique est complétée par l'élaboration d'un site visible sur la toile.Ce mémoire allie recherche la recherche d'information à l'ingénierie multilingue.

Du dictionnaire de langue au lexique TAL - la construction d'une ressource pour l'annotation sémantique des textes

Auteur : Ramdani

Année : 2007

Mots clés : annotation sémantique, lexique sémantique, normes lexicographiques, morphologie constructionnelle, sémantique textuelle

Résumé : Ce mémoire présente la construction d'une nouvelle ressource lexicale dans le cadre du projet DIXEM (ATILF).

Nous montrons en quoi ce lexique est alternative et complémentaire aux ressources existantes et quelles sont les utilisations envisagées. Nous présentons aussi de manière succincte les aspects de notre cadre théorique majeur (i.e. la sémantique textuelle) qui sont directement liés à la construction de la ressource.

La partie principale est consacrée à la description des stratégies mises en œuvre pour normaliser et structurer les données (semi)brutes issues de la conversion du TLFi.

La normalisation consiste surtout à regrouper les formes morphologiquement apparentées utilisées pour désigner les traits sémantiques des unités lexicales.

La structuration s'applique aux définitions lexicographiques. L'objectif est de récupérer le plus possible l'information sémantique encodée dans les structures formelles des définitions.

A la fin, nous décrivons quantitativement les résultats obtenus et nous donnons quelques exemples de sémèmes pour illustrer le travail effectué.

La génération automatique d'un corpus d'apprentissage pour les serveurs vocaux interactifs

Auteur : Lauf

Année : 2007

Mots clés : serveurs vocaux interactifs, SVI, dialogue homme-machine, DHM, génération automatique, GAT, grammaires d'arbres adjoints, TAG

Résumé : Les systèmes de dialogue homme machine tout public par téléphone, connus sous le nom de serveurs vocaux interactifs, ont bénéficié ces dernières années des progrès en reconnaissance vocale.

Cependant, les systèmes les plus robustes fonctionnant sur des modèles statistiques et nécessitant de constituer des corpus conséquents difficilement réutilisables d'une application à une autre, leur réalisation reste longue et coûteuse. Afin de réduire ce problème, ce mémoire proposera une méthode basée sur la génération automatique d'un corpus d'apprentissage, reposant très fortement sur le formalisme des grammaires d'arbres adjoints (TAG).

Les domaines d'application très restreints des serveurs vocaux interactifs se prêtent en effet très bien à la génération automatique (GAT). Ce sera aussi pour nous l'occasion de présenter de manière générale le dialogue homme-machine et la GAT.

Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle

Auteur : Pichon

Année : 2007

Mots clés : extraction de candidats termes, corpus parallèle, alignement, textométrie, filtrage à l’aide de patrons morpho-syntaxiques

Résumé : Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.

Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.

Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.

Recherche d'information multilingue et interlingue, un outil d'aide à la traduction.

Auteur : Hocine

Année : 2007

Mots clés : recherche/ extraction d’information/ documentaire/ multilingue/ plurilingue, moteurs/métamoteurs de recherche interlingue (ou interlangue ou translinguistique ou cross-lingue), Traduction assistée par ordinateur, TAO, (outils d’aide à la) traduction, corpus alignés/parallèles/comparables

Résumé : Après une brève introduction au domaine de la recherche d’information, nous nous intéresserons à l’un de ses sous-domaines, la recherche d’information multilingue.

Nous étudierons dans un premier temps les systèmes les plus aboutis dans le domaine. Nous examinerons les obstacles qui empêchent ces outils de coupler une requête avec un document cible. Nous verrons ensuite comment les corpus multilingues, source de terminologies, interviennent dans le processus de désambiguïsation et de traduction automatique des requêtes.

La seconde partie sera centrée sur un utilisateur de ces technologies en particulier, le traducteur. Nous décomposerons ses démarches et décrirons pour quels besoins il a recours aux moteurs de recherche interlingues et multilingues. En portant une attention particulière à la traduction spécialisée, nous verrons à travers quelques exemples concrets les limites des outils de recherche documentaire sur l’intranet et sur l’Internet. Nous proposerons en outre quelques techniques de recherche. Nous rapprocherons les mécanismes de telles applications des mécanismes de la TAO. Par la suite nous aborderons la question de la fiabilité des résultats des recherches que récolte l’interrogation des outils.

Enfin, nous suggérerons quelques axes de réflexion, notamment un outil dans le poste de travail du traducteur qui combinerait la fonction d’un outil de TAO et celle d’un moteur de recherche interlingue et multilingue.

Extraction et structuration de connaissances issues de Wikipedia pour la construction d'une ontologie des êtres humains

Auteur : Derazey

Année : 2007

Mots clés : extraction de données, base de connaissances, modélisation, acquisition de connaissances

Résumé : Ce mémoire a pour objectif la conception d'un outil d'aide à la construction d'une ontologie des entités nommées (EN) pour une application en désambiguïsation sémantique.

C'est un outil qui s'appuie sur les données structurées de Wikipedia, ayant pour fonction d'extraire des faits (entités et relations entre ces entités), de les injecter dans une base de données pour permettre de les interroger, et enfin de proposer des étiquettes à adjoindre aux entités qui aideront à les conceptualiser.

Networking social professionnel : quelle solution linguistique ?

Auteur : Kumalagova

Année : 2007

Mots clés : networking, réseaux sociaux, analyse de corpus, analyse lexicométrique, lexique bilingue

Résumé : Le présent travail présente une approche linguistique d’une nouvelle pratique sur Internet, le networking social professionnel. Notre étude est basée tout particulièrement sur des observations relatives au fonctionnement, à la structure et au contenu des sites de réseaux sociaux pour les professionnels.

Elle est accompagnée d'une analyse de corpus et d'une exploration lexicométrique par Lexico 3 dont les résultats nous ont permis d’établir un lexique bilingue.

EJE : Outil d’extraction d’entités nommées en japonais à partir de textes alignés japonais-langue2

Auteur : Guillaume

Année : 2007

Mots clés : entités nommées, japonais, extraction, textes alignés, EJE

Résumé : Le but de ce projet était d'automatiser l’extraction d’entités nommées en japonais afin de faciliter leur reconnaissance dans une autre langue et ce, dans le cadre d’un alignement textuel.L'outil créé prend donc en entrée un couple de textes alignés japonais-langue2 et effectue l'extraction des entités en japonais. L'utilisation de l'unicode pour les traitements et l'affichage autorise l'utilisateur à choisir en langue2 la langue de son choix.Un affichage sous forme de tableau html permet ensuite à l'utilisateur de visualiser les phrases japonaises contenant ces entités surlignées ainsi que les phrases équivalentes dans la deuxième langue.

L’indexation automatique de ressources pédagogiques numériques : élaboration d’une méthode d’application au projet Graines de Génie – Anglais

Auteur : Malaret

Année : 2007

Mots clés : Indexation automatique, PHP, recherche d'information, e-learning, mot-clé

Résumé : L'indexation s'inscrit dans le domaine de la documentation et plus particulièrement de la recherche d'information.

C'est un champ trés large dans lequel l'indexation manuelle a dû laisser sa place à l'indexation automatique, plus rapide et économique. Pourtant, certaines difficultés inhérentes au language naturel n'ont pas pu être contournées. L'indexation automatique semble n'être accéssible que grâce à des logiciels performants.

L'indexation du projet Graine de Genie propose un autre mode d'accès à l'indexation automatique tout en introduisant l'aspect pédagogique. En effet, un index destiné à un jeune public ne tiendra pas compte des mêmes exigences qu'un autre, employé par des adultes.