XML https://ertim.inalco.fr/ fr Entrées de dictionnaire multilingue pour traducteurs : méthode d’automatisation https://ertim.inalco.fr/node/730 <span class="field field--name-title field--type-string field--label-hidden">Entrées de dictionnaire multilingue pour traducteurs : méthode d’automatisation</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">lun 09/10/2023 - 16:11</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Kirsten BERLAND</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La terminologie est une part importante de la traduction. Elle permet de désambiguïser, mais permet également aux traducteurs de produire un document homogène et cohérent avec le texte de la langue d’origine. Les bases de données terminologiques, dictionnaires multilingues du traducteur, sont des ressources spécialisées dans cette application. Ce mémoire propose une méthode d’automatisation d’entrées de bases terminologiques dont l’approche consiste à extraire les définitions de termes donnés ainsi que la source de ces définitions, et de construire une structure XML compatible avec une base terminologique MultiTerm à partir des données. Les langues traitées ici sont l’anglais, l’allemand et le français, cependant le programme Python qui résulte de ce mémoire peut être adapté à diverses langues et diverses bases de données.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1796" hreflang="fr">traduction</a></div> <div class="field__item"><a href="/taxonomy/term/2587" hreflang="fr">dictionnaire multilingue</a></div> <div class="field__item"><a href="/taxonomy/term/2588" hreflang="fr">sdl multiterm</a></div> <div class="field__item"><a href="/taxonomy/term/2589" hreflang="fr">définition</a></div> <div class="field__item"><a href="/taxonomy/term/2590" hreflang="fr">programmation python</a></div> <div class="field__item"><a href="/taxonomy/term/1786" hreflang="fr">base de données terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2591" hreflang="fr">beautiful soup</a></div> <div class="field__item"><a href="/taxonomy/term/1989" hreflang="fr">XML</a></div> <div class="field__item"><a href="/taxonomy/term/2009" hreflang="fr">Traitement Automatique des Langues</a></div> <div class="field__item"><a href="/taxonomy/term/2592" hreflang="fr">site internet</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/BERLAND.pdf" type="application/pdf">BERLAND.pdf</a></span> </div> </div> Mon, 09 Oct 2023 14:11:20 +0000 gestionnaire 730 at https://ertim.inalco.fr Description et indexation de ressources vidéo https://ertim.inalco.fr/node/178 <span class="field field--name-title field--type-string field--label-hidden">Description et indexation de ressources vidéo</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2002</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le programme « Manifestations scientifiques en lignes » présente des entretiens vidéo de chercheurs. Pour ce programme, un système de navigation, a été mis en place. Il s’appuie sur un glossaire qui permet d’indexer les séquences vidéo. La construction de ce système s’appuie sur trois principes : la description des séquences, la constitution du glossaire et d’un index de ces séquences par le glossaire, au format XML. Par un traitement XSLT, les séquences et le glossaire sont affichés au format HTML qui permet ainsi de naviguer dans le glossaire et les séquences. Ce projet ouvre une réflexion sur l’exploitation du corpus terminologique ainsi constitué.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2179" hreflang="fr">vidéo</a></div> <div class="field__item"><a href="/taxonomy/term/2029" hreflang="fr">glossaire</a></div> <div class="field__item"><a href="/taxonomy/term/2180" hreflang="fr">index</a></div> <div class="field__item"><a href="/taxonomy/term/2181" hreflang="fr">corpus terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/1989" hreflang="fr">XML</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 178 at https://ertim.inalco.fr Terminologie d'entreprise : recherche de solutions pour la refonte de l'existant : proposition d'un outil de gestion de bases de données terminologiques https://ertim.inalco.fr/node/175 <span class="field field--name-title field--type-string field--label-hidden">Terminologie d&#039;entreprise : recherche de solutions pour la refonte de l&#039;existant : proposition d&#039;un outil de gestion de bases de données terminologiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2002</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Les besoins en terminologie deviennent de plus en plus importants dans les entreprises. En effet, de nombreuses données terminologiques multilingues coexistent sans pour autant être homogènes et normalisées. Dans ce mémoire, nous nous interrogeons donc sur la méthodologie à utiliser afin d&#039;obtenir une base de données terminologique structurée et de qualité. D&#039;autre part, nous posons la question de savoir comment procéder pour éviter la « pollution » de la future base ? Nous comparons trois solutions différentes : extraction terminologique à partir de corpus, tri des données, reprise de l&#039;existant. La première solution serait idéale. Cependant, dans quelle mesure est-il possible de changer les pratiques existantes au profit de la construction terminologique à partir des corpus textuels ? Plusieurs contraintes nous font pencher vers la deuxième solution à savoir tri et récupération d&#039;un fond terminologique en associant un code de fiabilité à chaque terme par exemple.<br /> <br /> Parallèlement à cette réflexion, nous proposons un modèle d&#039;un outil de gestion de bases de données terminologiques accessible via l&#039;Intranet. Il est nécessaire que cet outil tienne compte des évolution en matière d&#039;échanges de données terminologiques au format XML (MARTIF, GENETER etc.).</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1786" hreflang="fr">base de données terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2016" hreflang="fr">linguistique de corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2175" hreflang="fr">formats d’échange de données terminologiques</a></div> <div class="field__item"><a href="/taxonomy/term/1989" hreflang="fr">XML</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 175 at https://ertim.inalco.fr Les architectures de traitements linguistiques https://ertim.inalco.fr/node/129 <span class="field field--name-title field--type-string field--label-hidden">Les architectures de traitements linguistiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d&#039;obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d&#039;être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d&#039;information que de format des données. Notre objectif dans ce mémoire est de décrire l&#039;intégration d&#039;outils de TAL dans une plate-forme d&#039;enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l&#039;adéquation des jeux d&#039;étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d&#039;annotations. Nous apportons également un regard critique sur l&#039;enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d&#039;outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l&#039;art sur les plate-formes et outils d&#039;analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l&#039;ensemble des annotations linguistiques liées au corpus.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1987" hreflang="fr">traitement automatique des langues</a></div> <div class="field__item"><a href="/taxonomy/term/1988" hreflang="fr">plate-forme d&#039;annotation linguistique</a></div> <div class="field__item"><a href="/taxonomy/term/1989" hreflang="fr">XML</a></div> <div class="field__item"><a href="/taxonomy/term/1990" hreflang="fr">enrichissement de corpus textuel</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 129 at https://ertim.inalco.fr