segmentation

’Infant Directed Speech’ serait-il la clé d’une meilleure segmentation ?

Résumé
Bien que de nombreux modèles computationnels aient été créés pour explorer la manière dont les enfants pourraient apprendre à segmenter un discours continu en mots, l’accent a été principalement mis sur l’amélioration des performances et l’exploration des indices suggérés par des expériences d’apprentissage artificiel. Ce mémoire explore le rôle d’un registre spécialisé de la parole ’Infant Directed Speech : discours adressé aux enfant IDS’ dans la tâche de segmentation en mots. Étant donné que ce registre est censé jouer un rôle important dans l’acquisition pré- coce du langage, nous visons à évaluer sa contribution à cette tâche. Nous étudions un corpus français authentique qui contient un registre IDS et ADS (Adult Direc- ted Speech : Discours adressé aux adultes) et appliquons sept modèles différents de segmentation en mots.

Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète

Résumé
Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L'intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d'un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L'analyse de quelques exemples linguistiquement représentatifs montre qu'aucun des outils de segmentation n'est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d'un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.

La segmentation pour la recherche d'information et/ou l'extraction d'information en langue chinoise avec l'outil Mecab

Résumé
La segmentation reste toujours un défi pour le traitement automatique du chinois. Cette tâche est également le point de départ d' autres traitements sophistiqués. Dans cette recherche, nous aborderons la question de la meilleure segmentation à l’aide de modèles divers. Ensuite, nous utiliserons ce modèle de la meilleure segmentation pour entraîner le Sinequa ES (moteur de recherche). Puis, nous évaluerons la pertinence de la recherche d’information. Enfin, nous effectuerons une comparaison de ce résultat avec la pertinence de la recherche d’information basée sur un modèle précédent.

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Résumé
Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

Etude comparative de deux outils de TAO

Résumé
Le service de traduction du Parlement européen est une structure unique qui présente des caractéristiques très spécifiques. En effet, il faut gérer un très grand nombre de couples de langues et les documents sont d'une diversité extrêmement grande. Les outils pour aider le traducteur dans sa tâche sont très nombreux et variés. C'est la traduction assistée qui se prête le mieux aux besoins internes des traducteurs. L'outil utilisé jusqu'à présent était le TWB de la société Trados. Cependant, un autre programme a été mis au point en interne et il est actuellement en phase finale de test. Le travail de recherche que j'ai effectué au sein de cette institution pendant mon stage consiste à confronter le TWB avec FUSE, le nouvel outil de traduction assistée mis au point par un informaticien interne. Dans mon étude je cherche à savoir pourquoi un outil généraliste tel que le TWB ne s'est pas montré totalement efficace pour certains documents et a nécessité la création d'un nouvel outil. S'agit-il d'une faille au niveau du programme lui-même (problème structurel) ou bien, est-ce dû au contexte dans lequel cet outil est utilisé (problème environnemental) ? A travers une étude comparative des performances de ces deux outils sur un type de document particulier j'essaierai de montrer les aspects positifs et négatifs de chacun d'eux.

Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale

Résumé
Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.

Constitution de ressources pour l'élaboration d'un lexique français-anglais-chinois du commerce international

Résumé
Ce mémoire présente une méthode de construction d'un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l'OMC traduits dans les 3 langues. Nous examinons d'abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d'automatiser l'étape d'extraction de termes. Durant la tâche d'acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.

Analyse des problèmes posés par le Japonais dans un contexte de recherche d’informations

Résumé
Le moteur de recherche Google s’est imposé ces dernières années comme l’outil de recherche d’information le plus performant pour le grand public. Ce mémoire propose de tester la version japonaise du moteur et d’en analyser les faiblesses. Nous nous pencherons tout d’abord sur les problèmes que pose la pluralité des écritures : en quoi l’utilisateur peut il passer à côté de résultats pertinents en effectuant des requêtes dans une langue où jusqu’à 4 graphies différentes peuvent être utilisées dans un même corpus ? Vient alors la question de la segmentation en Japonais : comment le moteur réagit il face à une langue où les espaces n’existent pas ? Enfin, notre travail se terminera par une étude des ambiguïtés phonétiques et lexicales propres à la langue de Mishima : comment peut on améliorer le traitement des néologismes et des transcription phonétiques à partir d’autres langues ? Après avoir effectué plusieurs tests sur le moteur, nous analyserons les problèmes pour finalement proposer des méthodes et solution permettant d’améliorer la pertinence des résultats.

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Résumé
Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus