Mémoires 2001-2002

Évaluation des outils de TAO

Année : 2002

Mots clés : extraction de terminologie, TAO, évaluation, intégration, formats d'échange normalisés

Résumé : La traduction assistée par ordinateur manque cruellement d'outils pour la création de ressources terminologiques. C'est pour répondre à ce problème qu'une recherche d'extracteur terminologique a été entreprise depuis juin dernier chez STAR, éditeur de logiciel de TAO. Il a donc été nécessaire d'établir des critères de sélection stricts, de dresser un inventaire des logiciels existants et d'effectuer une analyse des logiciels retenus. L'extracteur sélectionné a suscité un intérêt tel qu'une intégration est actuellement envisagée chez STAR.

Identification des entités nommées dans un corpus français-anglais-arabe

Année : 2002

Mots clés : entités nommées, reconnaissance automatique, anglais, arabe, français

Résumé : Avec la montée en puissance des réseaux (Internet notamment), la taille des documents multilingues à traiter devient de plus en plus importante, ce qui augmente les besoins en outils de traitement automatique pour différentes langues. Parmi ces outils, beaucoup ont recours à la reconnaissance et l'extraction automatique des entités nommées : indexation automatique de documents, recherche d'information, traduction automatique, catégorisation, etc. Notre travail de stage consiste à repérer les entités nommées dans un corpus trilingue Anglais/Arabe/Français (non aligné) collecté à partir des ressources disponibles sur Internet. Dans notre mémoire, nous commencerons d'abord par la présentation d'un état de l'art pour passer en revue les récents systèmes développés pour la reconnaissance des entités nommées pour le Français et l'Anglais ayant notamment participé aux conférences MUC. Nous tenterons ensuite d'examiner ce qui a été fait pour le traitement automatique de l'Arabe et, si possible, ceux concernant l'extraction des entités nommées. Nous ferons ensuite le lien avec le travail réalisé durant notre stage et aborderons les difficultés rencontrées et les solutions mises en place pour les résoudre.

Évaluation d'analyseurs syntaxiques

Année : 2002

Mots clés : grammaire de dépendances, grammaire de constituants, extraction d'information, analyseur syntaxique, Link Parser

Résumé : Grammaire de dépendances ou grammaire de constituants? Quel type d'analyseur syntaxique choisir pour la création de classes sémantiques dans le cadre d'un projet d'extraction d'information appliqué à des textes scientifiques de langue anglaise?Les analyseurs les plus connus et les plus utilisés jusqu'alors pour l'anglais sont ceux développés à partir de grammaires syntagmatiques (dites de constituants).Nous verrons en quoi les analyseurs basés sur des grammaires de dépendances permettent d'obtenir de très bons résultats et s'adaptent particulièrement bien à une tâche de classification sémantique.Après avoir fait un état de l'art des deux familles d'analyseurs, nous ferons une présentation plus détaillée d'un analyseur à grammaire de dépendances appelé Link Parser. Nous verrons enfin de quelle manière il a été intégré à un système d'extraction d'information.

Les agents conversationnels

Année : 2002

Mots clés : agent conversationnel, TAL, AIML, applications, ALICE

Résumé : Ce mémoire propose d'étudier les agents conversationnels. La première partie sera consacrée à la définition et à la description des agents et de leur application. Elle comprendra également un état de l'art des outils existants et une présentation de l'agent ALICE et du langage AIML.La deuxième partie s'intéressera à l'aspect linguistique de ces agents. Elle sera introduite par une brève présentation du dialogue homme-machine et des systèmes de question réponse. Une étude relative aux agents de langue anglaise sera l'occasion de soulever les difficultés en matière d'adaptation de ces agents au français. Une présentation des quelques agents en langue française existants, permettra de vérifier certaines des hypothèses formulées. La conclusion sera l'occasion de faire un point sur le sujet et de poser la question du comportement des utilisateurs face à ces interfaces.

Traduction technique

Année : 2002

Mots clés : traduction technique, traducteur technique, théorie de la traduction, méthodologie de la traduction, langue spécialisée

Résumé : Le mémoire de DESS s’inscrit dans la continuité des travaux que j’ai effectués lors de mon stage au Ministère de la Défense. Il est centré sur la problématique de la traduction technique, appliquée ici à un travail de traduction vers l’anglais de la plaquette de l’Etat-Major des Armées, du point de vue du traducteur technique, mais aussi en se référant à la théorie de la traduction. Pour mener à bien ce mémoire, j’ai essayer de recenser les compétences essentielles qui font le traducteur technique, pour ensuite aborder la méthodologie de traduction, tant sur le plan de la problématique de la langue spécialisée en tant que telle, que sur les problèmes découlant des approches des langues spécialisées sur la traduction technique. Ainsi, nous verrons ce qu’est l’acte de traduction, ainsi que les opérations mises en oeuvres par le traducteur technique pour parvenir à un résultat satisfaisant.

Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Année : 2002

Mots clés : corpus, acquisition de terminologie, traduction automatique, réutilisabilité d'une terminologie, multilinguisme

Résumé : Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d'aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l'aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général.

La problématique d’un dictionnaire des collocations : analyse critique du Dictionnaire des coocurrences de J. Beauchesne (éd. Guerrin, 2001)

Année : 2002

Mots clés : dictionnaire, collocation, coocurrences, communauté linguistique, délimitation des collocations

Résumé : D’après l’auteur, son « vœu le plus cher (…) est d’aider ainsi toutes les personnes qui écrivent – pour leurs besoins personnels ou professionnels – à exploiter d’avantage les immenses ressources de la langue française. » Dans cette optique, on peut dire que le but est atteint : il s’agit en effet d’un outil utile pour un vaste public. Mais il semble nécessaire d’étudier cet ouvrage sous un angle plus étroit, notamment à la lumière des diverses problèmes soulevés par l’étude de la collocation. Comment peut-on définir le terme même de collocation ou coocurrence ? Quelle en est la limite : quel est le périmètre de la collocation qui la sépare d’une locution ? Quel(s) type(s) de mots se trouveraient dans la nomenclature d’un tel dictionnaire ? Autant de questions qui ont dû se poser à l’auteur pendant la création de cet ouvrage, qui inévitablement constitue une proposition de réponse.

Aide au codage d'un dictionnaire morphosyntaxique

Année : 2002

Mots clés : dictionnaire électronique, codage, données lexicales, multilinguisme, corpus

Résumé : Ce mémoire présente une réflexion sur le moyen d’améliorer les procédures utilisées pour l’acquisition et le codage de données lexicales dans un contexte multilingue, au sein de la société Sinequa.Après une observation de l’état des procédures et des ressources en cours, une évaluation des problèmes et des besoins sera effectuée et plusieurs propositions seront envisagées à différents termes.

Le traitement des expressions figées dans les dictionnaires bilingues: l'apport du dictionnaire électronique (l'exemple du Super Senior Robert & Collins)

Année : 2002

Mots clés : dictionnaire bilingue, dictionnaire électronique, expression figée, lexicographie, lexicologie

Résumé : Le traitement des " locutions " ou plus généralement des " expressions figées " en lexicographie apparaît problématique dans la plupart, si ce n'est la totalité des dictionnaires de langue générale, qu'ils soient monolingues ou bilingues. En effet, malgré leur importance capitale dans la compréhension et la maîtrise d'une langue (étrangère ou non), celles-ci ne rentrent pas dans le cadre de l'unité lexicale sur laquelle se basent les nomenclatures classiques. En outre, leur définition est loin d'être précise et établie, ce qui explique sans doute le fait qu'elles se retrouvent souvent plus ou moins noyées au milieu des exemples libres. Nous tentons donc tout d'abord de donner des critères linguistiques de définition de l'expression figée et d'en dresser une typologie. Nous procédons ensuite à l'analyse, à travers plusieurs dictionnaires, de la façon dont les lexicographes répondent (ou non) à ce problème: comment les locutions sont-elles repérées, marquées, réparties, intégrées, et dans le cas des bilingues, traduites. Dans cette perspective, nous insistons sur les solutions apportées par l'informatique dans certains dictionnaires électroniques, tout en considérant leurs limites et les améliorations encore possibles.

Terminologie d'entreprise : recherche de solutions pour la refonte de l'existant : proposition d'un outil de gestion de bases de données terminologiques

Année : 2002

Mots clés : base de données terminologique, linguistique de corpus, formats d’échange de données terminologiques, XML

Résumé : Les besoins en terminologie deviennent de plus en plus importants dans les entreprises. En effet, de nombreuses données terminologiques multilingues coexistent sans pour autant être homogènes et normalisées. Dans ce mémoire, nous nous interrogeons donc sur la méthodologie à utiliser afin d'obtenir une base de données terminologique structurée et de qualité. D'autre part, nous posons la question de savoir comment procéder pour éviter la « pollution » de la future base ? Nous comparons trois solutions différentes : extraction terminologique à partir de corpus, tri des données, reprise de l'existant. La première solution serait idéale. Cependant, dans quelle mesure est-il possible de changer les pratiques existantes au profit de la construction terminologique à partir des corpus textuels ? Plusieurs contraintes nous font pencher vers la deuxième solution à savoir tri et récupération d'un fond terminologique en associant un code de fiabilité à chaque terme par exemple.

Parallèlement à cette réflexion, nous proposons un modèle d'un outil de gestion de bases de données terminologiques accessible via l'Intranet. Il est nécessaire que cet outil tienne compte des évolution en matière d'échanges de données terminologiques au format XML (MARTIF, GENETER etc.).

Capitalisation des connaissances dans l'entreprise

Année : 2002

Mots clés : capitalisation, gestion des connaissances, diffusion, mémoire d’entreprise, capital immatériel

Résumé : Toute entreprise a une mémoire. Cette mémoire est composée de la connaissance de l’entreprise : le savoir, le savoir-faire, l’expérience et les compétences de chacun de ses collaborateurs mis en collectivité pour en faire une entité propre, le capital intellectuel de l’entreprise. Préserver ce capital revient à constituer la mémoire technique de l’entreprise en utilisant des méthodes et des outils adaptés. Cette mémoire participe à la problématique de la gestion des connaissances (GC) car elle permet d’augmenter les capacités de capitalisation et de gestion des connaissances et des expériences au sein des entreprises. Au cours des dix dernières années, les chefs d’entreprise se sont penchés sur la question même si beaucoup sont encore sceptiques. Pour cela, ils ont mis en place une infrastructure appelée système de capitalisation des connaissances (SCC) qui entraînent de profonds changements au sein de l’entreprise. Pour ces dirigeants, deux questions fondamentales se posent : comment gérer la mémoire de leur entreprise pour la mettre à profit dans le cadre des retours d’expériences par exemple ? Comment intégrer la mise en place d’un SCC au management de l’entreprise ?

La terminologie : de la théorie à la pratique

Année : 2002

Mots clés : terminologie, modélisation, normalisation, traduction, multilingue

Résumé : Dans un contexte global au sein de Valeo, nombreux sont ceux qui communiquent avec des collègues et partenaires extérieurs qui ne partagent pas la même langue. Tous les documents et communications devraient être rédigés en anglais, mais cet idéal, même avec les meilleures intentions de chacun, est difficile à atteindre du jour au lendemain et dans tous les domaines de spécialité.

Partant d’une dizaine de glossaires répertoriés dans une base documentaire, nous tenterons d’établir et de mettre en place une base terminologique de référence pour l’entreprise en vue d’aider à la compréhension et à la traduction des termes spécifiques.

Dans cette perspective, nous dressons une cartographie générale des positions abordées en terminologie, nous présenterons les normes existantes. Puis, nous décrirons les étapes qui nous conduirons à la décision de conserver ou d’adapter les normes pour un modèle de terminologie interne à l’entreprise. Et enfin, nous décrirons les étapes choisies et les outils utilisés pour normaliser les données.

Description et indexation de ressources vidéo

Année : 2002

Mots clés : vidéo, glossaire, index, corpus terminologique, XML

Résumé : Le programme « Manifestations scientifiques en lignes » présente des entretiens vidéo de chercheurs. Pour ce programme, un système de navigation, a été mis en place. Il s’appuie sur un glossaire qui permet d’indexer les séquences vidéo. La construction de ce système s’appuie sur trois principes : la description des séquences, la constitution du glossaire et d’un index de ces séquences par le glossaire, au format XML. Par un traitement XSLT, les séquences et le glossaire sont affichés au format HTML qui permet ainsi de naviguer dans le glossaire et les séquences. Ce projet ouvre une réflexion sur l’exploitation du corpus terminologique ainsi constitué.

Problèmes de classification dans les dictionnaires électroniques

Année : 2002

Mots clés : lexicographie, dictionnaires électroniques, locutions, expressions figées, classification

Résumé : Ce document porte sur la place des locutions dans les dictionnaires électroniques. Les locutions sont des unités mal définies et souvent malmenées. Dans les dictionaires de langue, elles n'ont pas droit à une entrée individuelle et elles se trouvent à un endroit (lequel ?) de l'article concernant un des mots (lequel ?) qui les constituent. Nous discuterons la possibilité et la pertinence d'une classification des locutions dans les dictionnnaires électroniques. Pour cela, il nous faudra au préalable définir les locutions, en les distinguant des autres unités avec lesquelles elles peuvent être confondues, comme les collocations, les métaphores, voire certains mots composés. Nous décrirons aussi les différents types de locutions. Ensuite, nous discuterons les choix réalisés pour l'index de locutions du dictionnaire électronique Le Robert & Collins. Enfin, sur la base de ces observations, nous établirons la pertinence des différentes définitions et hypothèses pour une classification efficace des locutions dans les dictionnaires électroniques.

Classification des images des sites racistes et étude de leur apport sémantique

Année : 2002

Mots clés : Princip.net, sémiotique de l’image, site internet raciste, typologie des images, relation texte-image

Résumé : S’inscrivant dans le cadre du projet européen Princip.Net (Plate-forme pour la recherche, l’Identification et la Neutralisation des Contenus Illégaux et Préjudiciables sur Internet), ce mémoire de sémiotique de l’image poursuit deux objectifs principaux : la classification des images utilisées dans les sites Internet racistes et l’analyse de leur apport sémantique.A partir d’un corpus d’images (constitué hors critère linguistique), la première partie de cette étude est consacrée à l’élaboration des trois typologies des images:

- une typologie physique à partir de critères de forme, de couleurs ou de format. Ex : logos, dessins, photos, …

- une typologie sémiotique à partir de paradigmes récurrents. Ex : symboles nazis, signes d’interdiction, personnages stéréotypés, …

- une typologie sémantique à partir de leur fonctionnement avec les textes. Ex : emblèmes, détournements, titre ou légende réinterprétant l’image, …

La seconde partie du mémoire est dédiée, outre à un état de l’art de la reconnaissance d’image, à l’étude de cas plus spécifiques. L’objectif est de dégager des hypothèses pour l’utilisation future d’un système de reconnaissance d’image associé, le cas échéant, à un filtrage des textes : règles de combinaison des paradigmes, association de paradigmes et de mots-clés, thèmes communs aux textes et aux images, …

Problématique de l'apprentissage à distance en entreprise

Année : 2002

Mots clés : apprentissage à distance, contenu pédagogique, tutorat en ligne, stratégies d'apprentissage, évaluation des acquis

Résumé : L’apprentissage à distance - ou e-learning - connaît une dualité : ce nouveau type de formation éveille tout à la fois intérêt et prudence.

D’un côté attractif, de par sa forte composante technologique, le e-learning se révèle comme un moyen d’apporter une meilleure flexibilité et une grande accessibilité de la formation pour les apprenants. Mais cela impose aussi une transformation du métier de pédagogue. Dans le sillage d’un marché qui a déjà explosé aux Etats-Unis, et qui « se cherche » encore en Europe, il s’agit d’un point de non-retour pour le monde de la formation. En effet, le e-learning affecte le secteur universitaire et les entreprises, à l’échelle de notre planète.

D’un autre côté, la convergence de la pédagogie vers les technologies multimédia pose des questions qui laissent le champ à de nouvelles propositions. Quelles contraintes ou limites l’informatique peut-elle représenter pour la formation ? Comment les organisations, les formateurs et les apprenants s’adaptent-t-il à ces évolutions ?

La conception et la qualité de contenus pédagogiques en ligne, l’évaluation des compétences acquises, le rôle du tuteur, sont autant de points-clefs encore peu formalisés dans les entreprises françaises, qui seront ici explorés. Cette étude s’appuie sur une expérience concrète en tant que chef de projet pour la création et le démarrage de modules de formation par apprentissage à distance dans un groupe industriel, Valeo.

Gestion de projet en agence de traduction

Année : 2002

Mots clés : traduction, projet, gestion, qualité, méthodes

Résumé : Gérer un projet dans une agence de traduction nécessite la prise en compte de divers paramètres et contraintes : respect des délais, réduction des coûts, exigences des clients, qualité. A l’heure où le marché de la traduction subit les effets négatifs de la conjoncture économique, analysons l’exemple d’une agence qui (en plus des considérations citées précédemment) a décidé de miser sur la qualité de ses services et de ses systèmes de production. Sa démarche, concrétisée par l’obtention de la certification ISO 9001 : 2000, consiste à établir des procédures de qualité qu’elle applique systématiquement à l’ensemble de ses activités, en amont comme en aval. Dans cette optique d’amélioration constante, il faut aussi savoir remettre en question certains outils et méthodes de travail, suivre des règles méthodiques et s’adapter aux attentes de la clientèle.

Le rôle des relations sémantiques en recherche d'information : évaluation de relations sémantiques propres au domaine de la cogénération dans le cadre du projet Safir

Année : 2002

Mots clés : recherche d'information, relations sémantiques entre termes, structuration de terminologie, extension de requêtes, évaluation

Résumé : Dans le cadre du projet SAFIR, une terminologie du domaine de la cogénération a été constituée à partir d'un corpus textuel. Elle comprend plusieurs milliers de termes et différentes relations sémantiques reliant ces termes. Cette terminologie doit servir à l'enrichissement de requêtes et au filtrage des documents reçus comme éponses à ces requêtes dans une application de recherche d'information (RI).L'objectif de ce mémoire est de faire une évaluation des relations sémantiques de la terminologie Safir pour la recherche d'information sur la cogénération. Nous avons choisi de limiter notre étude aux relations dites "propres au domaine de la cogénération" (autres que les relations de synonymie, hyperonymie, ingrédience, antonymie).Dans un premier temps (1), nous présentons un état de l'art de la recherche sur les relations sémantiques dans le domaine de la RI. L'objectif étant de présenter les différentes relations sémantiques existantes entre termes, les méthodes mises en place pour l'acquisition de ces relations et de présenter des situations concrètes d'utilisation de ces relations. Ensuite (2), nous présentons le projet Safir et les relations sémantiques qui structurent la terminologie et enfin (3) nous proposons une évaluation des relations propres au domaine de la cogénération pour la recherche d'information et une analyse des résultats.

La gestion des connaissances en entreprise : de l'engouement au pragmatisme

Année : 2002

Mots clés : gestion des connaissances, gestion documentaire, traitement de l'information, NTI, services informatiques et fonctionnels

Résumé : Dans les années 90, la capacité de calcul exponentielle des ordinateurs et la démocratisation des technologies Web ont engendré un fort intérêt de la part des entreprises désireuses d'accéder rapidement à une information pertinente. L'objectif principal consistait à mieux gérer ces contenus et ces flux informationnels en vue d'un partage des connaissances entre les acteurs de l'entreprise (employés, clients, fournisseurs…) et ainsi valoriser les compétences de chacun. Les nouveaux outils du traitement de l'information apparaissaient alors comme une solution et les entreprises n'ont pas hésité à investir dans ce domaine.Or, on constate aujourd'hui un affaiblissement de cet engouement. En effet, bon nombre de projets concernant la gestion des connaissances et la gestion documentaire prennent fin prématurément. Pourquoi un tel échec? Face à ce constat, on peut se demander s'il existe réellement un besoin qui justifierait un investissement dans des services informatiques dont le ROI reste incalculable ou si les passages à l'an 2000 puis à l'euro ont imposé une réduction des investissements dans ce type d'application. L'analyse de certains échecs permet de s'interroger sur la qualité et les performances des solutions proposées par les sociétés du domaine (éditeurs, intégrateurs, cabinets de conseil…). Les nouveaux outils répondent-ils aux attentes des utilisateurs et prennent-ils réellement en compte la culture d'entreprise dans ce type de projets étant donné les bouleversements qu'ils engendrent dans les méthodes de travail?

Le passif en espagnol dans le contexte d'une métagrammaire pour le formalisme TAG

Année : 2002

Résumé : Les nouvelles technologies de l'information basées sur le traitement de documents électroniques sont en train de devenir le noyau des systèmes informatiques actuels. Ces nouvelles technologies, de plus en plus basées sur le traitement linguistique, nécessitent des représentations fidèles pour la gestion et le traitement de l'information textuelle. Dans ce contexte, plus ces représentations sont fidèles, mieux on sera capable de travailler avec les structures linguistiques dans le domaine du TAL, de l'ingénierie des connaissances, et dans la gestion de l'information.

On présente dans ce mémoire une esquisse de métagrammaire pour la langue espagnole construite à partir d’une métagrammaire française développée par l’équipe ATOLL de l’INRIA. Cette petite métagrammaire constitue un embryon de ces nouvelles formes de représentation linguistique permettant d’envisager des travaux du TAL dans cette langue.