corpus https://ertim.inalco.fr/ fr Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère https://ertim.inalco.fr/node/712 <span class="field field--name-title field--type-string field--label-hidden">Analyse automatique de la lisibilité dans l’apprentissage du portugais comme langue étrangère</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 02/02/2021 - 11:37</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Lucas Elias Fonseca</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2020</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le présent travail a pour but d’explorer quelles variables et techniques de classification de textes présentent le meilleur gain de précision et d’information pour la classification de textes en portugais. Nous testons 30 variables extraites avec le système Pylinguistics, dont 21 sont des mesures basées sur la lisibilité textuelle et 9 sur les différentes parties du discours, considérées pertinentes pour la didactique des langues étrangères. On classe les textes selon leur niveau de difficulté selon l’échelle du Cadre Européen Commun de Référence pour les Langues, allant du niveau A1 au B2. Dans ce but, nous avons constitué un corpus d’entraînement composé de 4 sous-corpus correspondant aux niveaux. Les textes sont issus de méthodesd’enseignement du Portugais Langue Étrangère, de tests de compétence et de textes d’apprenants du corpus COPLE2. Nous analysons les performances de 4 méthodes de classification: Naïve-Bayes, machines de vecteur à support, régression logistique et arbres de décisions. Nous évaluons aussi la pertinence de différentes variables pour la tâche proposée selon leur corrélation avec les classes, leur gain d’information et leur ratio de gain d’information. La méthode de classification basée sur la régression logistique s’est montrée la plus performante avec 50,42% de textes classés correctement, avec une meilleure performance pour les niveaux A1 et A2. De façon générale, les classifieurs ont été moins performants pour les niveaux A2 et B1, impactant le résultat global des classificateurs. Le ratio de gain d’information a présenté le meilleur résultat dans la classification des variables, avec une amélioration de la performance des arbres de décision. Lesvariables basées sur la didactique des langues étrangères se sont montrées peu performantes dans l’optimisation de la classification des textes.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2648" hreflang="fr">portugais comme langue étrangère</a></div> <div class="field__item"><a href="/taxonomy/term/2649" hreflang="fr">algorithmes de classification</a></div> <div class="field__item"><a href="/taxonomy/term/2362" hreflang="fr">lisibilité</a></div> <div class="field__item"><a href="/taxonomy/term/2650" hreflang="fr">didactique des langues étrangères</a></div> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2364" hreflang="fr">apprentissage automatique</a></div> </div> </div> Tue, 02 Feb 2021 10:37:09 +0000 gestionnaire 712 at https://ertim.inalco.fr Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais https://ertim.inalco.fr/node/558 <span class="field field--name-title field--type-string field--label-hidden">Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Chancerelle</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2013</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.<br /> <br /> Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/875" hreflang="fr">traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2266" hreflang="fr">lexicographie bilingue</a></div> <div class="field__item"><a href="/taxonomy/term/2057" hreflang="fr">désambiguïsation</a></div> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 558 at https://ertim.inalco.fr Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération https://ertim.inalco.fr/node/188 <span class="field field--name-title field--type-string field--label-hidden">Recherche de termes équivalents à partir de corpus trilingues : constitution d&#039;une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2002</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d&#039;Agents pour le Filtrage de l&#039;Information sur les Réseaux) concernant la recherche d&#039;information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l&#039;aide d&#039;outils d&#039;extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l&#039;outil &#039;Twente&#039;, qui aligne des textes au niveau des mots, et d&#039;un outil développé par nos soins (&#039;MagicTermFinder&#039;). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l&#039;application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1873" hreflang="fr">terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/2207" hreflang="fr">cogénération</a></div> <div class="field__item"><a href="/taxonomy/term/2115" hreflang="fr">multilingue</a></div> <div class="field__item"><a href="/taxonomy/term/2013" hreflang="fr">français</a></div> <div class="field__item"><a href="/taxonomy/term/1936" hreflang="fr">allemand</a></div> <div class="field__item"><a href="/taxonomy/term/2150" hreflang="fr">anglais</a></div> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1895" hreflang="fr">alignement</a></div> <div class="field__item"><a href="/taxonomy/term/2208" hreflang="fr">SAFIR</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 188 at https://ertim.inalco.fr Aide au codage d'un dictionnaire morphosyntaxique https://ertim.inalco.fr/node/173 <span class="field field--name-title field--type-string field--label-hidden">Aide au codage d&#039;un dictionnaire morphosyntaxique</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2002</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire présente une réflexion sur le moyen d’améliorer les procédures utilisées pour l’acquisition et le codage de données lexicales dans un contexte multilingue, au sein de la société Sinequa.Après une observation de l’état des procédures et des ressources en cours, une évaluation des problèmes et des besoins sera effectuée et plusieurs propositions seront envisagées à différents termes.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2169" hreflang="fr">dictionnaire électronique</a></div> <div class="field__item"><a href="/taxonomy/term/1770" hreflang="fr">codage</a></div> <div class="field__item"><a href="/taxonomy/term/2170" hreflang="fr">données lexicales</a></div> <div class="field__item"><a href="/taxonomy/term/1761" hreflang="fr">multilinguisme</a></div> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 173 at https://ertim.inalco.fr Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle https://ertim.inalco.fr/node/171 <span class="field field--name-title field--type-string field--label-hidden">Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2002</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d&#039;aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l&#039;aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général. </div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2163" hreflang="fr">acquisition de terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/875" hreflang="fr">traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2164" hreflang="fr">réutilisabilité d&#039;une terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/1761" hreflang="fr">multilinguisme</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 171 at https://ertim.inalco.fr Vers une Traduction Assistée par Corpus : Une analyse de l’approche basée sur corpus et son application aux ressources TA dans la traduction japonais-anglais https://ertim.inalco.fr/node/145 <span class="field field--name-title field--type-string field--label-hidden">Vers une Traduction Assistée par Corpus : Une analyse de l’approche basée sur corpus et son application aux ressources TA dans la traduction japonais-anglais</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Dans le cadre de la traduction appliquée aux domaines non techniques (par exemple : journalistiques, éditoriaux et littéraires), les outils de TAO tels que les mémoires de traduction se révèlent inadaptés ou insuffisants. Par ailleurs, l’alternative que constituent les outils de TA classique montre depuis longtemps ses limites. Or, le concept de corpus inscrit dans une perspective textuelle a prouvé de réelles potentialités dans divers domaines. Au cours d’une analyse de la ressource et des applications des corpus, nous nous proposons donc d’explorer une approche basée sur corpus afin d’améliorer le rendement d’utilisation des outils de TA dans la perspective d’une stratégie de traduction globale et non pas locale. L’importance d’une telle démarche est particulièrement visible dans le cas de paires de langues telles que japonais-anglais, où les attentes de productivité dans chaque domaine s’avèrent élevées, et où les disparités culturelles et linguistiques constituent un vrai obstacle à la fluidité du processus de travail. Une étude de cas des aspects « novateurs » de trois outils de TA/TAO relevant de cette approche sera illustrée par des échantillons de traductions japonais-anglais authentiques. Cela nous permettra ensuite de dégager des conclusions et d’envisager des perspectives pour une amélioration concrète de la productivité et de la qualité pour les traductions japonais-anglais.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2055" hreflang="fr">TA</a></div> <div class="field__item"><a href="/taxonomy/term/2056" hreflang="fr">japonais-anglais</a></div> <div class="field__item"><a href="/taxonomy/term/2057" hreflang="fr">désambiguïsation</a></div> <div class="field__item"><a href="/taxonomy/term/2014" hreflang="fr">ressources lexicales</a></div> <div class="field__item"><a href="/taxonomy/term/2058" hreflang="fr">productivité</a></div> <div class="field__item"><a href="/taxonomy/term/2059" hreflang="fr">global / local</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 145 at https://ertim.inalco.fr Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde » https://ertim.inalco.fr/node/94 <span class="field field--name-title field--type-string field--label-hidden">Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Semenova</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal &quot;Le Monde&quot;.<br /> <br /> Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/1845" hreflang="fr">textométrie</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1846" hreflang="fr">Lexico 3</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 94 at https://ertim.inalco.fr