corpus parallèle https://ertim.inalco.fr/ fr Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation https://ertim.inalco.fr/node/140 <span class="field field--name-title field--type-string field--label-hidden">Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l&#039;alignement et l&#039;extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l&#039;alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2034" hreflang="fr">corpus multilingue</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1895" hreflang="fr">alignement</a></div> <div class="field__item"><a href="/taxonomy/term/2035" hreflang="fr">concordanciers</a></div> <div class="field__item"><a href="/taxonomy/term/1778" hreflang="fr">extraction de termes</a></div> <div class="field__item"><a href="/taxonomy/term/1936" hreflang="fr">allemand</a></div> <div class="field__item"><a href="/taxonomy/term/2036" hreflang="fr">polonais</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 140 at https://ertim.inalco.fr Etude du Present Perfect anglais à partir de corpus parallèles https://ertim.inalco.fr/node/123 <span class="field field--name-title field--type-string field--label-hidden">Etude du Present Perfect anglais à partir de corpus parallèles</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L’objectif de ce mémoire est d’étudier un phénomène linguistique qui s’appelle «The Present Perfect Puzzle » à travers l’analyse d’un corpus parallèle anglais – français de 15Mo.<br /> <br /> Pour illustrer ce phénomène, rappelons qu’à la différence du Passé composé français, le Present Perfect anglais ne peut pas apparaître avec les adverbes ponctuels. Un alignement de corpus dans les deux langues permettra d’étudier les cas précis de ce phénomène et de déterminer quels groupes d’adverbes peuvent apparaître avec ce temps dans chaque langue.<br /> <br /> A l’aide de programmes créés en langage « perl », j’ai normalisé le corpus et j’en ai extrait toutes les phrases contenant plus particulièrement des adverbes temporels, y compris les expressions adverbiales. Le résultat de l’extraction comprend désormais deux fichiers, un pour chaque langue. Les phrases extraites sont alignées dans une interface Access pour permettre l’analyse linguistique proprement dite.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1959" hreflang="fr">present perfect puzzle</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1960" hreflang="fr">syntaxe</a></div> <div class="field__item"><a href="/taxonomy/term/1919" hreflang="fr">sémantique</a></div> <div class="field__item"><a href="/taxonomy/term/1895" hreflang="fr">alignement</a></div> <div class="field__item"><a href="/taxonomy/term/1961" hreflang="fr">expressions régulières</a></div> <div class="field__item"><a href="/taxonomy/term/1962" hreflang="fr">adverbes</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 123 at https://ertim.inalco.fr Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle https://ertim.inalco.fr/node/107 <span class="field field--name-title field--type-string field--label-hidden">Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Pichon</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2007</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.<br /> <br /> Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.<br /> <br /> Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1894" hreflang="fr">extraction de candidats termes</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1895" hreflang="fr">alignement</a></div> <div class="field__item"><a href="/taxonomy/term/1845" hreflang="fr">textométrie</a></div> <div class="field__item"><a href="/taxonomy/term/1896" hreflang="fr">filtrage à l’aide de patrons morpho-syntaxiques</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 107 at https://ertim.inalco.fr Extraction d'une terminologie bilingue à partir d'un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux https://ertim.inalco.fr/node/101 <span class="field field--name-title field--type-string field--label-hidden">Extraction d&#039;une terminologie bilingue à partir d&#039;un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Maafa</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Arabeyes est un projet qui vise à produire, et à maintenir à jour, une distribution arabe du système Linux. Ceci nécessite d’importants efforts de traduction, et le développement d’outils logiciels spécifiques. L’objectif de notre travail est d’exploiter tous les travaux de traduction, réalisés dans le cadre de ce projet, afin d’extraire des ressources terminologiques anglais /arabe concernant la localisation des logiciels libres.<br /> <br /> La première étape du travail consiste à récupérer, et à filtrer, tous les fichiers contenant les traductions, puis ensuite regrouper les messages provenant de ces fichiers dans un seul corpus parallèle. Pour former une première liste de candidats termes bilingues, nous récupérons tous les messages susceptibles de contenir un seul terme, puis à l’aide d&#039;outils d’analyse morphosyntaxique, nous isolons, dans cette liste, les suites de mots correspondant aux catégories qui présentent plus d’intérêts terminologiques. <br /> <br /> La deuxième étape consiste à implémenter une méthode d’alignement basée sur le calcul des fréquences des cooccurrences. Cette technique d’alignement sera exploitée pour obtenir de nouveaux couples de candidats termes à partir du corpus. Pour filtrer les résultats, nous  comparons les catégories  des suites de mots obtenues, et nous gardons les couples de candidats termes qui se correspondent le plus</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1873" hreflang="fr">terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/1874" hreflang="fr">système Linux</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/1866" hreflang="fr">localisation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 101 at https://ertim.inalco.fr Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine https://ertim.inalco.fr/node/92 <span class="field field--name-title field--type-string field--label-hidden">Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Guiraud</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.<br /> <br /> Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1763" hreflang="fr">alignement de mots</a></div> <div class="field__item"><a href="/taxonomy/term/1818" hreflang="fr">chinois</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1838" hreflang="fr">extraction de textes</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 92 at https://ertim.inalco.fr