Mémoires 2005-2006

Quelques axes méthodologiques pour le développement d'un outil de recherche

Auteur : Lam

Année : 2006

Mots clés : indexation, page-ranking, sac de mot, OpenSource, tokenisation

Résumé : La recherche d'informations opérant sur des données privées constitue un besoin important dans de multiples domaines. Elle est particulièrement utile pour les organisations ou les entreprises qui souhaitent exploiter une base de connaissances. Si l'on souhaite disposer de services comparables à ceux proposés par les moteurs que l'on utilise pour faire des recherches sur le Web, le contrôle des différents processus impliqués dans la mise en œuvre ("page ranking", stratégie d'indexation, méthodes de recherche, etc..) garantit que les spécificités de l'organisation et du corpus seront effectivement prises en compte. Nous proposons ici de faire l'inventaire des différentes problématiques impliquées dans la mise en oeuvre d'un moteur de recherche au sein d'une organisation souhaitant exploiter un corpus de données spécifiques. Nous étudions en outre comment cette mise en œuvre peut se faire à partir de solutions Open source, celles ci proposant à la fois le matériel adéquat et le niveau de qualité requis pour mener à bien ce type de projet. Cet inventaire est abordé sous deux aspects. Le premier concerne les phénomènes linguistiques à traiter, le second, le cadre dans lequel on peut effectivement les mettre en œuvre, c'est à dire à la fois les programmer, les faire évoluer et en assurer une exploitation efficace.

Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie.

Auteur : Ramdani

Année : 2006

Mots clés : recherche d’information, moteur de recherche cross-lingue, langue arabe, campagnes dévaluation, critères de pertinence

Résumé : Dans ce mémoire nous nous intéressons aux moteurs de recherche et plus particulièrement aux moteurs de recherche cross-lingues qui traitent la langue arabe.

Nous décrivons également les méthodologies d’évaluation des systèmes de recherche d’information appliquées lors des campagnes d’évaluation de grande envergure.

Par la suite nous procédons à l’évaluation de l’interrogation monolingue arabe d’un moteur de recherche cross-lingue développé par le LIC2M (Laboratoire d'Ingénierie de la Connaissance Multimédia Multilingue, CEA-LIST), et nous proposons un certain nombre de suggestions pour améliorer les méthodes des campagnes d’évaluation existantes.

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Auteur : Guiraud

Année : 2006

Mots clés : alignement de mots, chinois, corpus parallèle, extraction de textes, segmentation

Résumé : Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus

Le web sémantique a-t-il un avenir

Auteur : Delahaye

Année : 2006

Mots clés : web sémantique, ontologie, métadonnées, folksonomie, web

Résumé : Le Web sémantique, imaginé en 1998 par Tim Berners-Lee, se propose d'étendre le World Wide Web aux machines, de créer un réseau d'informations qui soit accessible et utilisable par des programmes informatiques.

Depuis que l'idée du Web sémantique a émergé, le Web a évolué de son côté, de façon parfois incompatible avec la proposition du Web sémantique.

Dans notre mémoire, nous nous attacherons à étudier les différentes évolutions du Web et du Web sémantique, les problèmes que pose l'implémentation de ce dernier et les évolutions qui le concurrencent.

Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »

Auteur : Semenova

Année : 2006

Mots clés : corpus, presse, textométrie, segmentation, Lexico 3

Résumé : Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal "Le Monde".

Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.

Evaluation d'un outil de veille à travers la mise en place de thématiques de veillée

Auteur : Gagoum Tchamgoue

Année : 2006

Mots clés : Information, pertinence, exploration du Web, requête, indexation

Résumé : Ce travail a pour but d’évaluer un outil de veille multilingue déployé au sein d’une entreprise industrielle multinationale.

A travers les différentes étapes de la mise en place de profils de veille (enrichissement de la base de connaissances, collecte des documents, surveillance, traitement et analyse) sur différents thèmes, nous découvriront les principales fonctionnalités de l’outil et les résultats obtenus.

Nous montrerons en quoi les ontologies, la terminologie, les méthodes d’extraction utilisées dans le domaine du traitement automatique du langage naturel (TALN) peuvent contribuer à l’amélioration de la qualité de l’exploration des sources, la pertinence des documents récupérés, et faciliter la recherche de l’information, améliorer la pertinence des résultats, réduire le bruit et donner satisfaction aussi bien aux documentalistes qu’aux utilisateurs finaux.

Les utilisateurs finaux peuvent soit recevoir leur commande sous forme d’alerte dans leur boite à lettre électronique, soit consulter le forum dédié ou encore le effectuer leur requête sur le portail dédié à cet effet, qui se présente sous forme de moteur de recherche.

Elaboration d’une terminologie du domaine de l’optométrie

Auteur : Tsarkova

Année : 2006

Mots clés : base terminologique, corpus bilingue, optométrie, terminologie textuelle, programme Perl

Résumé : Dans ce mémoire, nous visons à présenter une méthodologie d’extraction d’une terminologie bilingue, anglo-russe, du domaine d’optométrie en nous basant sur un corpus spécialisé représentant la formation en optométrie du groupe français multinational GrandVision.Dans l’ordre de notre raisonnement, nous nous basons sur les principes de la terminologie textuelle en recourant à l’outil d’étiquetage morphosyntaxique, TreeTagger, et au langage de programmation, Perl.

Web sémantique, Multilinguisme, dans le domaine du Tourisme

Auteur : Ristic

Année : 2006

Mots clés : web sémantique, semantic web, multilinguisme, mutilingualism, tourisme, tourism, ontologie, ontology, traduction, translation

Résumé : Le Web Sémantique est au cœur du débat sur le futur du web.

Le rendre accessible à tous suppose qu’il soit ouvert à toutes les langues et c’est le cas grâce au langage XML. Or il se heurte aux problématiques liées au multilinguisme, notamment la modélisation des ontologies.

Dans le domaine du tourisme, les internautes ont massivement adopté l’Internet comme mode de recherche d’information pour préparer leurs vacances. C’est pourquoi cette industrie représente un domaine particulièrement favorable aux applications du web sémantique tant sur le plan de la gestion de l’information et de l’indexation que sur un plan multilingue.

L’étude du portail touristique de l’Agence de Développement Touristique de la Nièvre, dont le contenu et les connaissances sont gérés par l’entreprise Mondeca, permet de mesurer, à échelle réduite, l’état d’avancement et la pertinence du projet de Web Sémantique.

The Semantic Web is at the heart of the debate on the future of the Web.

Thanks to XML language it is now openly available to everyone. But it faces multilingual problems most notably the modeling of ontologies.

In the field of tourism, the web surfers massively adopted the Internet as a means to seek information to prepare their holidays. This is why this industry represents a field particularly favorable to the applications of the semantic Web as much as in indexing and information management as on a multilingual level.

The study of the tourist web site of the Tourist Agency of Development of Nievre, whose contents and knowledge are managed by the Mondeca company, makes it possible to measure, on a reduced scale, the progress and the relevance of the project of the Semantic Web.

Les ontologies à l'épreuve de l'épistémologie constructiviste

Auteur : Evguénia Krougovaïa

Année : 2006

Mots clés : sciences de l'information, épistémologies positiviste et constructiviste, ontologies, gestion de contenu, réseaux sémantiques

Résumé : L'ingénierie des connaissances se trouve au carrefour de plusieurs disciplines : les sciences exactes - logique, mathématiques et informatique pour l'élaboration et l'expression des modèles formels; les sciences du langage pour la recherche et l'organisation de la « matière première » linguistique d'un problème.

Dans le présent travail nous voudrions poser plusieurs questions liées aux fondements épistémologiques des pratiques des nouvelles disciplines de l'information, qui s'appuient sur des éléments apportés par les sciences formelles ainsi que par les sciences humaines.

Sans vouloir répondre à la question de la définition de leur statut, nous partirons des observations empiriques (sur l'exemple des ontologies informatiques) de cohabitation et de confrontation de paradigmes scientifiques opposés qui sont amenés pourtant à coexister au sein de ces nouvelles disciplines.

Définir l'internationalisation et la localisation. Approche théorique illustrée par la mise en place du projet d'internationalisation et de localisation pour le site Grammatici Latini

Auteur : Pantikina-Bernet

Année : 2006

Mots clés : internationalisation, localisation, traduction, site Web dynamique

Résumé :

La recherche d'information en entreprise: le cas de Total

Auteur : Bonasso

Année : 2006

Mots clés : recherche sémantique d'information, langage naturel, Internet et Deep Web, moteurs et métamoteurs de recherche, méthodes algorithmiques et sémantiques

Résumé : La recherche d'informations dans le cadre du centre de recherche de Total à Solaize nécessite des outils appropriés aux données disponibles sur Internet.

L'objectif consiste à localiser des informations, à créer des corpus et à les traiter avec des méthodes en local avec l'outil sémantique Goldfire.

Enfin, des informations précises sont retrouvées en posant des requêtes en langage naturel et ces réponses sont réorganisées sous forme de synthèses ordonnées.

L'évaluation des méthodes sémantiques et algorithmiques ainsi que des autres fonctionnalités de l'outil a permis de déterminer s'il correspondait aux besoins du centre de recherche.

Extraction d'une terminologie bilingue à partir d'un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux

Auteur : Maafa

Année : 2006

Mots clés : terminologie, système Linux, corpus parallèle, langue arabe, localisation

Résumé : Arabeyes est un projet qui vise à produire, et à maintenir à jour, une distribution arabe du système Linux. Ceci nécessite d’importants efforts de traduction, et le développement d’outils logiciels spécifiques. L’objectif de notre travail est d’exploiter tous les travaux de traduction, réalisés dans le cadre de ce projet, afin d’extraire des ressources terminologiques anglais /arabe concernant la localisation des logiciels libres.

La première étape du travail consiste à récupérer, et à filtrer, tous les fichiers contenant les traductions, puis ensuite regrouper les messages provenant de ces fichiers dans un seul corpus parallèle. Pour former une première liste de candidats termes bilingues, nous récupérons tous les messages susceptibles de contenir un seul terme, puis à l’aide d'outils d’analyse morphosyntaxique, nous isolons, dans cette liste, les suites de mots correspondant aux catégories qui présentent plus d’intérêts terminologiques.

La deuxième étape consiste à implémenter une méthode d’alignement basée sur le calcul des fréquences des cooccurrences. Cette technique d’alignement sera exploitée pour obtenir de nouveaux couples de candidats termes à partir du corpus. Pour filtrer les résultats, nous comparons les catégories des suites de mots obtenues, et nous gardons les couples de candidats termes qui se correspondent le plus