Mémoires 2007-2008

Passage de données non structurées à des données structurées : les relations entre entités nommées

Auteur : Ezzat

Année : 2008

Mots clés : extraction d'information, entité nommée, relation, T.A.L., sémantique

Résumé : Les études et méthodes qui assurent une cohérence entre textes et modèles de représentation du contenu textuel relèvent un enjeu de plus en plus important. Le nombre de travaux en industrie et en Recherche et Développement sur ce sujet en atteste. Avec l'explosion de la numérisation des documents et de leur diffusion avec Internet au sein d'une société désormais dite de l'information ou de la connaissance, la necéssité de répondre à une demande de plus en plus forte dans l'industrie et chez les particuliers se fait sentir.

Le travail présenté ici est d'ordre technique et méthodologique. Il s'agit de détecter les relations sémantiques entre entités nommées par des traitements issus du Traitement Automatique des Langues, sur de larges corpus plus ou moins techniques et de les organiser sous une représentation formelle structurée. Sans exclure les phénomènes linguistiques qui peuvent être génériques à tout type de texte, nous nous appuyons sur une méthodologie qui permet de trouver la réalisation des relations dans un corpus spécifique à un domaine, notamment en se concentrant sur la recherche de marqueurs discriminants. Nous considérons donc qu'il existe une forte dépendance entre les membres du triplets corpus/relation/marqueur.

Apport de l'analyse syntaxique en recherche d'information: Application à la recherche de documents dans la phase d'« e-discovery »

Auteur : Jean

Année : 2008

Mots clés : TREC, "dépendance syntaxique", évaluation, discovery, XIP

Résumé : Les recherches décrites dans ce mémoire sont motivées par un besoin concret des entreprises américaines en recherche d'information dans le cadre des « e-discovery » procédures propres au système judiciaire américain.

À partir des résultats de l'évaluation de la campagne d'évaluation TREC liée à cette problèmatique (Legal-track), nous nous demandons dans quelle mesure l'analyse syntaxique en dépendances peut améliorer ces résultats.

Pour répondre à nos interrogations nous mettons en place des expériences pour tenter de décrire la qualité descriptive d'une dépendance syntaxique générée par la requête. Nous utilisons 3 méthodes différentes de mise en correspondance entre cette dépendance et les documents ...

Etude de la conformité au modèle ontologique de la SNOMED CT outil de représentation des connaissances dans le domaine médical

Auteur : Rozanes

Année : 2008

Mots clés : modèle ontologique, représentation des connaissances, Domaine médical

Résumé : La SNOMED CT est un système de représentation des connaissances, pour le domaine médical. La manière dont les entités qu’il représente sont organisées, suggère qu’il pourrait s’apparenter à ce que l’on désigne sous le terme d’ontologie ou modèle ontologique.

Le terme d’ontologie recouvre une réalité dont les origines sont anciennes et diverses par les disciplines qui l’ont inspirée. Un modèle ontologique dont la conception épouse un certain nombre de règles en matière d’organisation des connaissances a pu se mettre en place en tenant compte de ces différents apports, et des méthodes ont été proposés pour valider le modèle sous différents aspects.

On désire vérifier que la SNOMED CT suit ces règles et qu’elle est conforme au modèle ontologique. Pour cela on met en place une méthodologie, un mode opératoire dont l’objectif est de montrer en quoi la SNOMED CT suit les principes observés pour l’élaboration du modèle ontologique, et on met en œuvre les méthodes de validation.On discute enfin, les résultats obtenus afin de proposer des éléments de réponse dans le cadre de la problématique.

La représentation du turc en Unitex

Auteur : Bisazza

Année : 2008

Mots clés : turc, turkish, Unitex, agglutination, analyse morphologique, morphological analysis, suffixes subordonnants, subordinating suffixes

Résumé : Cette étude présente un modèle pour la représentation du turc dans la plate-forme de traitement de corpus Unitex. Le choix du modèle est déterminé principalement par la morphologie agglutinante du turc et s'appuie sur une étude des outils linguistiques existants.

La solution proposée inclut l'emploi de l'analyseur morphologique Zemberek. La liaison entre l'analyse du texte turc produite par Zemberek et les formalismes reconnus par Unitex est assurée par le package Java implémenté. Des exemples d'application des fonctionnalités d'Unitex au turc sont donnés en guise d'évaluation.

****

This study presents a model for the representation of Turkish in the corpus processing platform Unitex. The choice of the model is mainly determined by the agglutinative morphology of Turkish and it relies on a study of the existing language processing tools.

The solution proposed makes use of the morphological analyzer Zemberek. The link between Zemberek-produced analysis of Turkish text and Unitex-recognized formalisms is carried out by the implemented Java package. Examples of Unitex functionalities applied on Turkish are provided by way of evaluation.

Extraction d'entités nommées en allemand : impact des spécificités linguistiques

Auteur : Brizard

Année : 2008

Mots clés : extraction d'entités nommées, allemand, impact des propriétés linguistiques, extraction d'information

Résumé : Les entités nommées correspondent traditionnellement à tous les noms propres présents dans un texte, soit les noms de personnes, de lieux et d’organisations ainsi que d’autres syntagmes tels que les dates ou les expressions numériques (pourcentages, sommes d’argent, etc.).

L’extraction d’entités nommées est souvent évoquée en relation avec l’extraction d’information dont elle est par ailleurs issue. Cependant, bien d’autres applications en linguistique computationnelle peuvent faire usage des entités nommées en tant qu’elles constituent des indicateurs fondamentaux pour un accès pertinent au contenu des textes : moteurs de recherche, systèmes de questions-réponses, traduction automatique, entre autres.

Ce mémoire a pour but d’étudier les problématiques liées à l’extraction d’entités nommées, notamment en langue allemande.

A ce titre, nous proposons dans les Chapitres I et II un état des lieux sur le statut théorique des entités nommées et un état de l’art sur l’extraction d’entités nommées. Le Chapitre III introduit les problématiques liées à l’allemand au travers des propriétés linguistiques de cette langue, propriétés dont nous nous attachons à démontrer l’impact sur l’extraction d’entités nommées dans le Chapitre IV. Enfin, dans le Chapitre V, nous présentons la mise en œuvre dans la pratique de ressources linguistiques pour l’extraction d’entités nommées en allemand.

L'expression du multilinguisme dans la gestion de l'information sur le net, cas de la cohabitation des langues de cultures et des langues congolaises

Auteur : Nziengue-A-Tombet

Année : 2008

Mots clés : multilinguisme, internet, gestion de l'information, langues de culture, langues congolaises

Résumé : Ce travail est une réflexion concernant la gestion d’une information commune sur un site internet multilingue, impliquant des langues de familles différentes.

Nous avons fait le choix d’une telle activité impliquant trois langues de grande culture (anglais, français, roumain) et trois langues congolaises (lingala, munukutuba et tsangui). Sachant que les deux premières langues congolaises ont des rapports d’influence réciproque avec le français du fait de la colonisation.

Nous tentons de répondre à la question de savoir, comment gérer une information commune sur un site internet multilingue, quand les langues en présence peuvent exprimer des paradigmes pour le moins différents ?<

Etude contrastive des données morphologiques dans les documents médicaux scientifiques et vulgarisés

Auteur : Chmielik

Année : 2008

Mots clés : morphologie, TAL, discours, apprentissage, corpus médicaux

Résumé : Dans ce travail, nous proposons une étude contrastive des documents médicaux catégorisés par trois discours : vulgarisé, étudiant et professionnel. Nous nous intéressons en particulier de savoir s'il existe des traits saillants du niveau morphologique dans ces types de documents.

Le travail est effectué avec des données de trois domaines médicaux : pneumologie, cardiologie et diabète.

Nous appliquons des méthodes du traitement automatique de langue et d'apprentissage supervisé, accompagnées d'une analyse manuelle détaillée et précise. Nos résultats montrent qu'il existe effectivement des traits morphologiques (et lexicaux associés) propres aux discours étudiés.

Qu'il s'agisse des familles morphologiques (leur composition, taille, ...) ou d'algorithmes d'apprentissage, des caractéristiques discursives propres à ces corpus émergent.

Filtrage de paragraphes : reconnaissance de la langue et de l'écrit informel

Auteur : Delpech

Année : 2008

Mots clés : identification automatique des langues, variation linguistique, nouvelles formes de communication écrite, lexicométrie, classification automatique

Résumé : Ce mémoire propose une étude en deux volets pour le repérage, au niveau du paragraphe, de la langue et de l'écrit informel issu d'Internet. Il répond à deux besoins : adapter les traitements linguistiques aux types de texte et sélectionner les paragraphes de textes pertinents pour une tâche de recherche d'information.

Le premier volet traite de l'identification automatique des langues, il rend compte de l'implantation et de l'évaluation de quatre méthodes. On s'attache surtout à leurs performances sur de courtes séquences de texte.

Le second volet concerne la reconnaissance de l'écrit informel.

La démarche est appuyée par des travaux en linguistique variationnelle et sur les nouvelles formes de communication écrite, puis appronfondie par une analyse lexicométrique. Enfin, on décrit l'implantation d'un arbre de décision qui utilise les indices remarqués lors de l'étude linguistique.

Traitement d’un corpus de réponses à des questions ouvertes pour définir les attentes des randonneurs par rapport aux cartes de l’IGN : une approche quantitative pour exploiter une étude qualitative

Auteur : Baldit

Année : 2008

Mots clés : extraction d’information, fouille de texte, analyse d’opinion, analyse lexicométrique, enquête questions ouvertes

Résumé : Comment exploiter les résultats d’une enquête marketing de type qualitative ?

Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique.

Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori. Nous présentons donc une approche quantitative, axée sur l’analyse lexicométrique des textes, afin de traiter un corpus d’entretiens collectifs retranscrits sur le thème de la randonnée. Il s’agit de définir les attentes des randonneurs par rapport aux cartes IGN et de catégoriser des profils-type.

La méthodologie présentée permet d’extraire des marqueurs linguistiques pour déterminer l’opinion des personnes interrogées et les caractéristiques de leur énonciation.

Le Phénicien : De la naissance d'un alphabet à la reconnaissance automatique de ses caractères

Auteur : Michiels

Année : 2008

Mots clés : caractères anciens, alphabet phénicien, reconnaissance automatique de caractères manuscrits, caractères bâtons, traitement automatique de langues anciennes

Résumé : La reconnaissance automatique de l’écriture et du document (RAED) n’a pas cessé d’évoluer dans divers secteurs technologiques et plus spécifiquement dans l’étude du patrimoine. Grâce aux recherches permanentes, l’écart entre les résultats obtenus sur l’imprimé et ceux sur le manuscrit, à priori plus difficile à traiter, semble se réduire rapidement.Dans le cadre de ce mémoire, nous décrivons une chaîne de traitement nécessaire à la reconnaissance automatique de caractères manuscrits anciens, et plus particulièrement les caractères phéniciens et leurs proches successeurs.