Mémoires 2002-2003

Etude comparative des accents britanniques et américains dans le cadre de la reconnaissance de la parole en anglais

Année : 2003

Mots clés : reconnaissance de la parole, phonétique, accent en anglais, anglais britannique, anglais américain, BIGs (Built-In Grammars)

Résumé : Dans ce mémoire, il est question d’une étude comparative des caractéristiques phonétiques et acoustiques des deux principaux accents anglais : anglais britannique et anglais américain. On applique cette étude dans le domaine de la reconnaissance de la parole. Il est important de s’interroger sur l’influence de l’accent dans un système de reconnaissance. Une étude théorique, présentée dans un premier temps, permet de recenser les différences entre les deux systèmes phonétiques (britannique et américain). Dans un deuxième temps, on introduit le fonctionnement et les différents types de systèmes de reconnaissance de la parole. Une évaluation des modèles britannique et américain sera ensuite effectuée à travers des tests utilisant des grammaires appelées BIGs (Built-In Grammars). Ces grammaires sont construites pour la reconnaissance des énoncés spécifiques, tels que les dates, les chiffres, les numéros de téléphone dans le cadre de serveurs vocaux. Une mise en œuvre d’un modèle universel pour la reconnaissance de l’anglais sera proposée.

Dictionnaires électroniques et hypertextualité – Analyse critique des renvois doubles du Grand Robert

Année : 2003

Mots clés : hypertextualité, dictionnaires électroniques, le Grand Robert, renvois, analogies, synonymes

Résumé : A quoi peut servir l’hypertextualité dans un dictionnaire électronique ? Quels sont les projets d’hypertextualisation proposés dans les dictionnaires électroniques ? Quelle est la réalisation de ces projets et est-elle satisfaisante ? Quels types de renvois trouve-t-on dans les dictionnaires électroniques et plus particulièrement dans le Grand Robert électronique ? Dans ce mémoire, nous tentons de répondre à ces questions, en présentant quelques dictionnaires électroniques, notamment le Grand Robert qui a servi comme source de données, outil et objet d’étude lors d’un stage effectué aux Dictionnaires le Robert. Nous présentons une typologie des renvois (en nous concentrant sur les analogies et les synonymes) et par la suite une analyse critique, notamment à travers le modèle à trois modules, qui nous amène à proposer des solutions aux problèmes rencontrés.

Vers une Traduction Assistée par Corpus : Une analyse de l’approche basée sur corpus et son application aux ressources TA dans la traduction japonais-anglais

Année : 2003

Mots clés : corpus, TA, japonais-anglais, désambiguïsation, ressources lexicales, productivité, global / local

Résumé : Dans le cadre de la traduction appliquée aux domaines non techniques (par exemple : journalistiques, éditoriaux et littéraires), les outils de TAO tels que les mémoires de traduction se révèlent inadaptés ou insuffisants. Par ailleurs, l’alternative que constituent les outils de TA classique montre depuis longtemps ses limites. Or, le concept de corpus inscrit dans une perspective textuelle a prouvé de réelles potentialités dans divers domaines. Au cours d’une analyse de la ressource et des applications des corpus, nous nous proposons donc d’explorer une approche basée sur corpus afin d’améliorer le rendement d’utilisation des outils de TA dans la perspective d’une stratégie de traduction globale et non pas locale. L’importance d’une telle démarche est particulièrement visible dans le cas de paires de langues telles que japonais-anglais, où les attentes de productivité dans chaque domaine s’avèrent élevées, et où les disparités culturelles et linguistiques constituent un vrai obstacle à la fluidité du processus de travail. Une étude de cas des aspects « novateurs » de trois outils de TA/TAO relevant de cette approche sera illustrée par des échantillons de traductions japonais-anglais authentiques. Cela nous permettra ensuite de dégager des conclusions et d’envisager des perspectives pour une amélioration concrète de la productivité et de la qualité pour les traductions japonais-anglais.

Proposition de méthode de création de corpus en anglais britannique et en anglais américain pour l’enrichissement de la partie anglais d’un dictionnaire bilingue

Année : 2003

Mots clés : corpus web, filtrage, script shell, reconnaissance de langue, américanisme, britannicisme

Résumé : La richesse du Web offre la possibilité de consulter divers genres et types de textes publiés en anglais. L’objet du travail présenté est de constituer de façon automatique une collection de textes en anglais britannique et une autre en anglais américain.Le projet repose sur un processus en deux temps : génération de pages textes HTML via un appel à une sélection manuelle de sites puis filtrage grâce à des dictionnaires constitués d’indices de dialecte. Les données recueillies après traitement statistique et linguistique serviront à enrichir la partie anglais d’un dictionnaire bilingue.

Approche pour le filtrage de données audio à large vocabulaire

Année : 2003

Mots clés : filtrage, reconnaissance vocale, RAP, Traitement de la Parole, Recherche d’Information, Automates à nombre fini d’états, Sphinx

Résumé : Les performances des outils de reconnaissance vocale sur des données à large couverture lexicale permettent d’envisager des traitements automatiques de l’information contenue dans les textes oraux.

Le mémoire décrit une approche de filtrage audio menée au cours d’un stage de 6 mois dans l’entreprise Thales Recherche et Technologie. L’analyse menée sur l’existant et les besoins de l’entreprise a débouché sur la réalisation d’une plate-forme de filtrage audio : RAFT (Realtime Audio Filtering Tool). Elle intègre un système de reconnaissance vocale, Sphinx, et un module de filtrage à l’aide des FSM, librairie d’automates et de transducteurs pondérés. Le mémoire présente la plate-forme et les différents types de filtrage envisagés : à partir de la meilleure transcription, d’un treillis de mots ou d’un treillis de phonèmes.

Constitution d’un corpus bilingue aligné français-persan

Année : 2003

Mots clés : alignement, corpus parallèles, bitextes, concordancier, multilinguisme

Résumé : Ce mémoire présente une méthode d’alignement de corpus parallèles. Nous utiliserons un corpus journalistique bilingue français-persan constitué à partir des numéros d’avril à septembre 2003 du Monde diplomatique. La première phase consistera à aligner deux corpus, paragraphe par paragraphe. Ensuite, nous procéderons à une évaluation des problèmes rencontrés et nous proposerons des critères permettant d’améliorer les performances de cette méthode.

Notre objectif est d’aligner deux langues de système graphique différent, en l’occurrence le persan et le français, et d’en présenter les limites et par la même occasion, les outils qui ont été utilisés pour mener à bien ce travail. Après une brève description de la structure du persan, nous tâcherons de décrire les différences morpho-syntaxiques par rapport au français. Et enfin, l’analyse des résultats de l’alignement permettra de mettre en lumière les difficultés et les complexités de notre démarche.

Proposition d’une méthodologie pour l’apprentissage et la traduction : étude du différentiel culturel de la langue japonaise à travers des exemples d’interlocutions entre un médecin et des patients

Année : 2003

Mots clés : différentiel culturel, consultation médicale, langue japonaise, syntaxe structurale, L.Tesnière

Résumé : L’étude d’une langue étrangère est souvent réalisée selon une approche qui décontextualise cette langue, c’est la raison pour laquelle j’ai cherché à constituer des ressources qui intègrent les paramètres de la discursivité afin que le référentiel ainsi construit (dictionnaire ou bases de données) réponde à des besoins d’apprentissage et de traduction. Le frame qui constitue l’espace discursif correspondant à une expérience communicationnelle réelle est celui d’un scénario d’une consultation médicale japonaise présentant différents actes de discours. J’ai choisi de constituer mon corpus à partir d’un échange de questions et de réponses d’un patient à un médecin, issues d’un chat trouvé sur le réseau Internet. Le contexte est très proche de celui d’une consultation médicale en vis-à-vis et il fait état de l’utilisation d’une terminologie spécifique qui s’inscrit dans la langue courante d’un pseudo-dialogue. L’étude linguistique, quant à elle, suit le modèle développé par L.Tesnière. En effet, l’analyse structurale semble très appropriée pour l’étude de la morphosyntaxe de la phrase japonaise, notamment grâce au schéma actantiel et au modèle de construction des stemma.

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Année : 2003

Mots clés : linguistique de corpus, ressource terminologique, thesaurus, classification, base de données documentaire, indexation

Résumé : Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.

Lexicométrie et analyse de discours : la forme pour et les évaluations dans des projets présidentiels

Année : 2003

Mots clés : lexicométrie, analyse de discours, programme politique, évaluations, préposition pour

Résumé : L’observation des contextes de la préposition pour, qui fait partie des mots outils très fréquemment utilisés, offre la possibilité de repérer des phénomènes linguistiques qui se manifestent au fil d’un texte. Le but de ce mémoire est de décrire les catégories d’évaluations qui apparaissent dans des discours politiques, en prenant la forme pour comme point de repère ; ces évaluations sont classées en deux grands groupes : expressions d’opinions et annonces de projets. Il est également montré de quelle manière les occurrences de pour sont réparties dans les discours. Cette étude est réalisée à partir d’un corpus de programmes présidentiels qui ont été publiés en 2002, et les observations sont menées à l’aide d’un outil d’analyse statistique textuelle qui permet de mettre en évidence les caractéristiques d’emploi de pour sous un angle lexicométrique.

Complémentarité entre fouille de données et fouille de textes

Année : 2003

Mots clés : fouille de données, fouille de textes, extraction de connaissance à partir de données, traitement de l’information

Résumé : L’objectif de ce mémoire est d’expliciter les liens qui existent entre fouille de données et fouille de textes. Nous commençons par une présentation générale de ces deux disciplines et de quelques disciplines du traitement de l’information telles que la recherche ou l’extraction d’information. Nous étudions ensuite la nature des données manipulées et des tâches accomplies ainsi que les principaux outils et domaines d’application. Nous abordons enfin la question de l’intégration, forte ou faible, de ces techniques dans un même processus, à partir d’exemples pris dans les domaines du biomédical et du marketing.

Gestion de l’information dans le cadre de l’internationalisation d’un logiciel

Année : 2003

Mots clés : structuration, rédaction, ontologie, localisation, logiciel

Résumé : Il existe aujourd’hui une grande diversité de logiciels sur le marché, et ceux-ci ont pris une place importante dans notre vie quotidienne, aussi bien au travail qu’à la maison. Désormais, l'objectif principal des éditeurs n'est plus seulement de vendre, mais aussi d'exporter leurs produits. On parle alors d’internationalisation, qui consiste à concevoir un logiciel de façon à ce qu'il s'adapte aisément à divers paramètres socioculturels : cela permet d’une part de faciliter sa localisation, et d'autre, de réduire les coûts et de d’accélérer la commercialisation. Le rédacteur technique à un rôle important à jouer : il participe à la création du logiciel en rédigeant la description de son contenu, mais également en écrivant la documentation utilisateur. Ce travail traitera des problèmes spécifiques liés à la conception d’un logiciel et à la structuration d'une aide en ligne, et couvrira une ontologie du domaine de la conception d'un logiciel, et plus particulièrement de l’aide en ligne en français et en anglais.

Une Application de Fouille de Données Textuelles : L’analyse de réponses à deux questions ouvertes d’une enquête de Satisfaction EDF

Année : 2003

Résumé : Le Multimédia Mining ou fouille de données multimédia est un domaine nouveau qui vise à traiter et analyser des informations multimédia en nombre important (texte, images, son, vidéo) en vue d'une exploitation pour une entreprise. Si le text mining (fouille de données textuelles) est un domaine qui comporte beaucoup de méthodes et d'outils, ce n'est pas le cas des autres médias. En partant de cette considération, mon mémoire va s'articuler autour de deux axes. La première partie a pour but de mettre en avant les méthodes utilisées, les applications existantes et les outils - quand ils existent. La seconde partie de mon mémoire s'articule autour d'un cas pratique : une utilisation concrète des méthodes de text mining sur un corpus textuel avec l'aide de l'outil Alceste.

Elaboration d’un outil d’enrichissement de terminologie pour un extracteur d’information

Année : 2003

Mots clés : extraction terminologique, recherche d'informations, veille technologique, fouille textuelle, acquisition de connaissances

Résumé : Ce projet vise à améliorer le processus d’acquisition de terminologie du système d’Extraction d’Information de TEMIS, Insight Discoverer Extractor (IDE). Un système d’extraction d’information analyse des textes libres afin d’extraire l’information se rapportant à des types d’évènements, d’entités ou de relations pré-déterminés. Le portefeuille de Temis, société spécialisée en « Text Intelligence », comprend des applications d’extraction d’information spécialisées en Intelligence Economique (CI) et en analyse de relations clients (Customer Relationship Management (CRM)) pour des domaines de l’industrie qui couvrent aussi bien l’automobile, l’énergie, les pharmaceutiques, la médecine ou les médias. Pour la maintenance et l’amélioration de ces applications et afin d’accéder à de nouveaux domaines, il est nécessaire d’acquérir rapidement une nouvelle terminologie et de mettre à jour les applications existantes. Ce besoin a permis de déterminer les tâches du projet. La partie du projet liée à la recherche porte sur des méthodes de fouille de textes portant sur des domaines spécifiques pour la constitution de terminologie. La partie du projet liée à l’application elle-même offre une vision du processus d’extraction d’information de TEMIS, processus fondé sur la technologie des transducteurs à états finis. Nous décrivons plus particulièrement l’intégration de ressources lexicales acquises à partir de bases de lexique et de règles déjà existantes (TEMIS possède un format propriétaire appelé Skill Cartridges) qui sont utilisées par l’IDE. L’intégration des nouvelles ressources a été implémentée avec un outil d’import (LexTool). Nous décrivons enfin l’implémentation de l’outil, ainsi que son cadre d’expérimentation.

Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale

Année : 2003

Mots clés : traitement automatique du langage naturel, langue arabe, étiquetage grammatical, voyellation automatique, agglutination, ambiguïté, approche distributionnelle, analyse syntaxique, analyse morphologique, segmentation

Résumé : Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.

Terminologie ponctuelle – De la « Feuille de route » à la « hudna » : la guerre des mots

Année : 2003

Mots clés : terme, contexte, emprunt, feuille de route, quatuor, hudna, intifada, jihad, mujahidin, barrière de sécurité, mur, idéologie, mot, arabe, hébreu, presse, multilingue, médias, informations, désinformation, terminologie, lexique, néologisme

Résumé : Le concept d’un processus de paix pour régler le conflit israélo-palestinien n’es pas récent, et pourtant, l’analyse des documents officiels liés à la « feuille de route », le dernier plan de paix international révèle une nouvelle terminologie : « feuille de route », « quatuor », « hudna », « intifada »… Le choix des termes n’est pas innocent et révèle la pensée profonde de ceux qui les utilisent. Dans ce conflit, la guerre des mots qui a lieu dans les médias est aussi importante que celle que les deux parties se livrent sur le terrain. La « hudna » n’est pas une simple « trêve », de même que le mot « intifada » ne signifie plus « guerre des pierres ». Si le sens réel de ces emprunts à l’arabe est difficilement perceptible pour nos consciences occidentales, quelle idéologie cachent-ils ? Qu’en est-il pour le traducteur, dont l’art repose sur le choix du terme juste ? Autant de questions auxquelles la terminologie ponctuelle tente de répondre.

Conception et Développement de l’Interface Graphique Utilisateur de TRICK™, synergiciel de TAO avec mémoire de traduction multilingue

Année : 2003

Mots clés : Interface Homme Machine (IHM), outils de Traduction Assistée par Ordinateur (TAO), base de données, multilingue, mémoire de traduction, TRICK™

Résumé : En traduction humaine assistée par la machine (THAM), le processus de traduction peut se résumer en 3 grandes phases : la préparation des documents, la traduction à proprement dite et la révision. Babeling, société d’édition de logiciels de traitement des langues et du savoir, lance le projet d’intégrer à Lexsyn (son synergiciel lexico-terminologique multilingue en ligne) un synergiciel multilingue d’aide à la traduction (TAO) en ligne, basé sur une Mémoire de Traduction (MT). Mon intervention dans le projet TRICK se situe au niveau du développement et de l’implémentation de l’Interface Graphique Homme-Machine (IGHM). Puisque traducteurs et réviseurs travaillent le même document, une seule interface modulaire devra gérer toutes les opérations. TRICK se veut donc conviviale et facile d’accès afin de gagner du temps dans l’apprentissage du logiciel tout en offrant toutes les fonctionnalités nécessaires à la gestion des traductions et des projets. Après une étude des outils présents sur le marché, il nous a fallu abattre les barrières levées par le multilinguisme ainsi que celles du partage des connaissances (en particulier de la MT) en temps réel tout en tenant compte des contraintes imposées par le cahier des charges.

Etude sur l’indexation automatique de documents dans un contexte de recherche d’information à caractère sensible

Année : 2003

Mots clés : indexation automatique, recherche d’information, recherche documentaire, extension de requêtes, Mnogosearch

Résumé : L’accroissement incessant des documents pouvant être accessibles aux utilisateurs rend les techniques de Recherche Documentaire (RD) toujours plus perfectibles et souvent exigeantes en ressources linguistiques et en traitements spécifiques. Par ailleurs, il est couramment admis que les outils de TAL pour la Recherche Documentaire requièrent de vastes connaissances linguistiques.

Nous étudierons en première partie, les techniques et méthodes actuelles souvent utilisées dans le domaine de la recherche d’information. Dans une deuxième partie, nous tenterons de montrer l’intérêt d’une lemmatisation tout en discutant les avantages et les inconvénients d’une telle méthode à travers différentes langues indo‑européennes et non indo‑européennes.

Enfin, dans une troisième et dernière partie nous dégagerons les méthodes adaptées à la spécificité du travail de la DST, où nous avons effectué notre stage. Nous présenterons dans une étude de faisabilité, l’enrichissement de l’indexeur Mnogosearch grâce à l’optimisation de la pertinence des requêtes et la recherche d’améliorations linguistiques. Ainsi, nous analyserons les performances linguistiques relevant de la technique de lemmatisation appliquée à un modèle statistique, compte tenu du caractère sensible des documents. Cette étude nous mènera à construire un prototype simple illustrant la méthode choisie.

La résolution des ambiguïtés des langues naturelles (polonais) et artificielles (espéranto) lors de leur traduction automatique

Année : 2003

Mots clés : traduction automatique, polonais, espéranto, ambiguïtés, connaissances, lexical, structurel

Résumé : La traduction automatique se heurte au phénomène des ambiguïtés. Ces ambiguïtés peuvent être d’ordre lexical (flexion, homonymie, catégorie) ou structurel (hiérarchie, syntaxe). Quel est donc le degré de ces ambiguïtés dans une langue naturelle hautement flexionnelle, telle que le polonais et dans une langue artificielle à forte structure auxiliaire telle l’espéranto? Comment l’acquisition des connaissances appliquée à la traduction automatique facilite-t-elle la résolution des ambiguïtés ? La présentation d’exemples d’ambiguïtés relatives aux langues polonais et espéranto permet de définir une typologie d’ambiguïtés spécifiques. L’utilisation des différents outils de traduction automatique fait apparaître les limites de la qualité des résultats. L’utilisation de capacités cognitives de plus en plus puissantes est un axe d’amélioration. L’étude d’une modélisation croisée, associant un système symbolique et statistique, corrélée à une optimisation de la compréhension des contextes, est un scénario probable pour résoudre les ambiguïtés.

Typologie raisonnée des textes sectaires sur Internet

Année : 2003

Mots clés : Internet, textes sectaires, typologie, caractérisation

Résumé : Typologie Raisonnée des Textes Sectaires sur Internet, est à la croisée de deux importantes composantes de notre époque. Alors que beaucoup d'hommes sont en quête d'un idéal, les sectes, religieuses ou non foisonnent. L'Internet a été pour tous ces groupements une chance incroyable de se faire connaître. Ils eurent tôt fait d'exploiter les possibilités multimédia d'Internet pour faire passer des messages variés alliant textes, images, sons, animations. Ce travail est une étude documentaire et une collecte d'informations destinées à fournir une base de données pour des analyses futures. Une recherche minutieuse permettant de dégager les caractéristiques générales des textes sectaires est donc l'objectif essentiel de ce mémoire. Le mémoire-papier sera accompagné de plusieurs CD-Rom : les textes des lois relatifs au mouvement sectaire, les sites de sectes les plus pertinents et les sites antisectes les plus fiables.

Etude comparative de deux outils de TAO

Année : 2003

Mots clés : multilinguisme, mémoire de traduction, segmentation, granularité, alignement

Résumé : Le service de traduction du Parlement européen est une structure unique qui présente des caractéristiques très spécifiques. En effet, il faut gérer un très grand nombre de couples de langues et les documents sont d'une diversité extrêmement grande. Les outils pour aider le traducteur dans sa tâche sont très nombreux et variés. C'est la traduction assistée qui se prête le mieux aux besoins internes des traducteurs. L'outil utilisé jusqu'à présent était le TWB de la société Trados. Cependant, un autre programme a été mis au point en interne et il est actuellement en phase finale de test. Le travail de recherche que j'ai effectué au sein de cette institution pendant mon stage consiste à confronter le TWB avec FUSE, le nouvel outil de traduction assistée mis au point par un informaticien interne. Dans mon étude je cherche à savoir pourquoi un outil généraliste tel que le TWB ne s'est pas montré totalement efficace pour certains documents et a nécessité la création d'un nouvel outil. S'agit-il d'une faille au niveau du programme lui-même (problème structurel) ou bien, est-ce dû au contexte dans lequel cet outil est utilisé (problème environnemental) ? A travers une étude comparative des performances de ces deux outils sur un type de document particulier j'essaierai de montrer les aspects positifs et négatifs de chacun d'eux.