corpus

Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère

Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.

En savoir plus sur Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère

Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.

Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

En savoir plus sur Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d'Agents pour le Filtrage de l'Information sur les Réseaux) concernant la recherche d'information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l'aide d'outils d'extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l'outil 'Twente', qui aligne des textes au niveau des mots, et d'un outil développé par nos soins ('MagicTermFinder'). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l'application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables

En savoir plus sur Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Aide au codage d'un dictionnaire morphosyntaxique

Ce mémoire présente une réflexion sur le moyen d’améliorer les procédures utilisées pour l’acquisition et le codage de données lexicales dans un contexte multilingue, au sein de la société Sinequa.Après une observation de l’état des procédures et des ressources en cours, une évaluation des problèmes et des besoins sera effectuée et plusieurs propositions seront envisagées à différents termes.

En savoir plus sur Aide au codage d'un dictionnaire morphosyntaxique

Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d'aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l'aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général.

En savoir plus sur Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Vers une Traduction Assistée par Corpus : Une analyse de l’approche basée sur corpus et son application aux ressources TA dans la traduction japonais-anglais

Dans le cadre de la traduction appliquée aux domaines non techniques (par exemple : journalistiques, éditoriaux et littéraires), les outils de TAO tels que les mémoires de traduction se révèlent inadaptés ou insuffisants. Par ailleurs, l’alternative que constituent les outils de TA classique montre depuis longtemps ses limites. Or, le concept de corpus inscrit dans une perspective textuelle a prouvé de réelles potentialités dans divers domaines. Au cours d’une analyse de la ressource et des applications des corpus, nous nous proposons donc d’explorer une approche basée sur corpus afin d’améliorer le rendement d’utilisation des outils de TA dans la perspective d’une stratégie de traduction globale et non pas locale. L’importance d’une telle démarche est particulièrement visible dans le cas de paires de langues telles que japonais-anglais, où les attentes de productivité dans chaque domaine s’avèrent élevées, et où les disparités culturelles et linguistiques constituent un vrai obstacle à la fluidité du processus de travail. Une étude de cas des aspects « novateurs » de trois outils de TA/TAO relevant de cette approche sera illustrée par des échantillons de traductions japonais-anglais authentiques. Cela nous permettra ensuite de dégager des conclusions et d’envisager des perspectives pour une amélioration concrète de la productivité et de la qualité pour les traductions japonais-anglais.

En savoir plus sur Vers une Traduction Assistée par Corpus : Une analyse de l’approche basée sur corpus et son application aux ressources TA dans la traduction japonais-anglais

Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »

Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal "Le Monde".

Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.

En savoir plus sur Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »

S'abonner à corpus