Mémoires 2012-2013

Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Auteur : Chancerelle

Année : 2013

Mots clés : traduction automatique, lexicographie bilingue, désambiguïsation, corpus

Résumé : Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.

Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

Études lexico-morphosyntaxique des erreurs des systèmes de reconnaissance de la parole

Auteur : Goryainova

Année : 2013

Mots clés : reconnaissance automatique de la parole, erreurs de transcription automatique, analyse lexicale et morphosyntaxique, analyse statistique, distance d'édition, zone d'erreur, gravité d'erreur.

Résumé : Le mémoire porte sur les études lexico-morphosyntaxiques des erreurs de système de reconnaissance de la parole. Le travail effectué consiste en différentes analyses des erreurs de transcription automatique de la parole. Les analyses en question représentent notamment une étude lexicale et morphosyntaxique des mots se trouvant dans les zones d'erreur de la transcription, dans le contexte gauche et le contexte droit. De même l'analyse lexicale a été réalisée sur les cas de substitution de mots dans des zones d'erreur. Ces analyses ont été complétées par le calcul de la distance d'édition des zones d'erreur. Au final, l'analyse lexicale et morphosyntaxique a été appliquée sur le corpus supplémentaire qui était annoté par des humains au niveau de gravité d'erreur.

Les résultats révélés ont été comparés avec ceux qui étaient observés dans des articles mentionnés.

Étude de possibilites d'amélioration de l'apprentissage supervisé d'entites nomméés pour les institutions financières

Auteur : He

Année : 2013

Mots clés : classification, réseaux bayésiens, probabilité, reconnaissance d'entités nommées, solution opérationnelle

Résumé : Ce mémoire porte sur les possibilités d'augmenter le taux de reconnaissance des institutions financières désignées comme récepteurs dans les messages de paiement bancaire, dans le but de réaliser le STP (anglicisme qui signifie traitement sans rupture ni délai), c'est-à-dire la « réparation » et le routage automatique de ces messages. Les messages de paiement sont écrits par des êtres humains en langage naturel, ce qui fait que la reconnaissance des informations que ceux-ci contiennent nécessite des connaissances en traitement automatique des langues. Plus précisément, certaines techniques de classification sont utilisées pour reconnaître les catégories auxquelles les informations dans les messages de paiement appartiennent, afin de trouver l'entrée correspondante dans la base de référence fournie par le client et effectuer le routage de messages vers l'institution sélectionnée par le programme comme solution. La chaîne de STP est composée de plusieurs processus : la normalisation des champs extraits des messages de paiement, le découpage de champs en segments, l'étiquetage de segments, la requête à la base de référence, la décision à l'aide des réseaux de neurones et le renvoi de solution. Dans le cadre de ce mémoire seuls le découpage et l'étiquetage (en l'occurrence désignés par un seul terme « classification ») sont discutés. Afin de mieux comprendre le mécanisme de classification, plusieurs classifieurs (modèles graphiques) courants sont abordés : CRF, SVM et réseaux bayésiens renforcés par des fonctions de croyance. Ces derniers sont utilisés à FircoSoft parce qu'ils correspondent bien à notre besoin spécifique. Les problèmes existants de reconnaissance nous incitent à chercher des solutions adaptées. Cependant, les contraintes opérationnelles nous empêchent d'effectuer des changements profonds (notamment modification d'algorithmes) et nous optons pour des ajustements locaux tels que la manipulation de statistiques et la transformation virtuelle de corpus de test. Néanmoins, l'amélioration d'algorithme et la réorganisation de fichiers de ressource sont envisageables pour la nouvelle version de l'application de STP.

Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Auteur : Khalsa

Année : 2013

Mots clés : traduction automatique, système fondé sur des règles, rule-based, colloquial, langage familier, anglais-espagnol

Résumé : Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

Adaptation des outils d'aide à la rédaction au milieu industriel

Auteur : Sahin

Année : 2013

Mots clés : aide à la rédaction, langage contrôlé, rédaction technique, grammaires formelles, correcteur, documents

Résumé : La démarche décrite dans ce travail relève de l'étape d'évaluation de l'outil académique, Lélie, un outil d'aide à la rédaction en phase de développement par l'Institut de Recherche en Informatique de Toulouse (IRIT). EDF avec ses rédacteurs techniques intervient en tant que terrain d'expérimentation pour le déploiement de cet outil vers un milieu industriel. Partant de l'exemple d'EDF, l'objectif est de saisir les critères qu'il faut pour choisir l'outil le mieux adapté à un environnement industriel.

Les mots du luxe. Analyse du vocabulaire dans les textes de marketing en français et localisés en russe.

Auteur : Arnal

Année : 2013

Mots clés : lexicométrie, luxe, marketing, russe, Dior

Résumé : Le luxe est un domaine en plein développement qui produit un grand nombre de textes dans de nombreuses langues. Ces textes, publiés entre autre sur internet, rédigés dans la langue du pays dont est issue la marque, sont localisés pour les clients étrangers qui lisent ces textes dans leurs langues. L'étude est réalisée sur un échantillon de textes aux sujets variés avec un contenu à caractère marketing publiés de juillet 2013 à octobre 2013 sur le site internet d'une marque de luxe, rédigés en français et localisés en russe. En nous guidant des principes de l'analyse sémantique de F.Rastier, nous essayons d'établir les catégories de termes caractéristiques de ces textes et des correspondances lexicales parfois asymétriques entre les deux langues.

Critères acoustiques et linguistiques pour la construction d'une bonne alerte audio dans les cockpits des avions commerciaux

Auteur : Jahchan

Année : 2013

Mots clés : alarmes cockpit, aviation, facteurs humains, psycholinguistique, interactions audio-visuel, prosodie, perception d'urgence, précision de compréhension, désambiguïsation, compréhension phonétique, urgence dans la sémantique, explicitation, rythme, vitesse d'élocution, compréhension de mots-clés versus phrases

Résumé : Cette étude est une première approche pour le développement d'un ensemble plus cohérent et adéquat d'alarmes dans les cockpits des avions commerciaux d'Airbus. Les critères linguistiques et acoustiques du design et la construction des alarmes seront étudiés, et des suggestions pour des futures recherches vont être donnés.

Cette étude est faite dans le but de réduire les ambiguïtés potentielles dans les alarmes pour une meilleure compréhension et détection de signal par les pilotes, et ce pour réduire des potentiel erreurs de pilotage humaines. Le manque d'un système d'alarmes adapté aux besoins intuitifs des pilotes peut influencer la perception de degré d'urgence du message dans une situation de vol, qui peut potentiellement être dangereuse si la bonne action n'est pas exécutée. Dans ce mémoire, une expérience psycholinguistique sur la perception d'urgence dans les acoustiques d'une voix d'homme versus une voix de femme, et la précision/l'exactitude de la compréhension pour des locuteurs non-natifs de l'anglais est proposée. Le poids de la sémantique des mots sur la perception d'urgence était aussi mesuré.

L'ingenieurie linguistique appliquée à l'analyse automatique multilingue d'opinions sur corpus français et chinois

Auteur : Sisavanh

Année : 2013

Mots clés : opinion mining, e-réputation, Sentiment analysis, automatisation d'analyse de tonalités, analyse sémantique

Résumé : De nos jours, de plus en plus de personnes laissent leurs avis sur le web afin de parler d'une expérience ou de partager une opinion sur un service ou un produit.

En outre, l'analyse d'opinion reste une activité qui nécessite encore de la recherche et du progrès, et les outils actuellement proposés ne sont pas encore au point (version béta).

Pour mieux comprendre leurs attentes, nous avons tenté d'effectuer une veille et une analyse d'opinions automatisée et dans différentes langues. Pour cela, nous avons également développé un outil en Perl pour pré-catégoriser les opinions en positif / neutre / négatif.

La méthode développée est adaptable à la plupart des domaines et des langues.