segmentation https://ertim.inalco.fr/ fr ’Infant Directed Speech’ serait-il la clé d’une meilleure segmentation ? https://ertim.inalco.fr/node/605 <span class="field field--name-title field--type-string field--label-hidden">’Infant Directed Speech’ serait-il la clé d’une meilleure segmentation ?</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Yousef Abusalha</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Bien que de nombreux modèles computationnels aient été créés pour explorer la manière dont les enfants pourraient apprendre à segmenter un discours continu en mots, l’accent a été principalement mis sur l’amélioration des performances et l’exploration des indices suggérés par des expériences d’apprentissage artificiel. Ce mémoire explore le rôle d’un registre spécialisé de la parole ’Infant Directed Speech : discours adressé aux enfant IDS’ dans la tâche de segmentation en mots. Étant donné que ce registre est censé jouer un rôle important dans l’acquisition pré- coce du langage, nous visons à évaluer sa contribution à cette tâche. Nous étudions un corpus français authentique qui contient un registre IDS et ADS (Adult Direc- ted Speech : Discours adressé aux adultes) et appliquons sept modèles différents de segmentation en mots.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/2441" hreflang="fr">modèles non-supervisé</a></div> <div class="field__item"><a href="/taxonomy/term/2442" hreflang="fr">phonotactiques</a></div> <div class="field__item"><a href="/taxonomy/term/2443" hreflang="fr">aquisition du langage</a></div> <div class="field__item"><a href="/taxonomy/term/1960" hreflang="fr">syntaxe</a></div> <div class="field__item"><a href="/taxonomy/term/2444" hreflang="fr">statistique</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 605 at https://ertim.inalco.fr Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète https://ertim.inalco.fr/node/592 <span class="field field--name-title field--type-string field--label-hidden">Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L&#039;intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d&#039;un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L&#039;analyse de quelques exemples linguistiquement représentatifs montre qu&#039;aucun des outils de segmentation n&#039;est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d&#039;un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2396" hreflang="fr">comparaison</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1818" hreflang="fr">chinois</a></div> <div class="field__item"><a href="/taxonomy/term/2397" hreflang="fr">mandarin</a></div> <div class="field__item"><a href="/taxonomy/term/2398" hreflang="fr">forum</a></div> <div class="field__item"><a href="/taxonomy/term/2399" hreflang="fr">diabète</a></div> <div class="field__item"><a href="/taxonomy/term/2400" hreflang="fr">hoix outil de tal</a></div> <div class="field__item"><a href="/taxonomy/term/2401" hreflang="fr">démarche pragmatique</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/mem2_C_Thomas_V2.pdf" type="application/pdf">mem2_C_Thomas_V2.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 592 at https://ertim.inalco.fr La segmentation pour la recherche d'information et/ou l'extraction d'information en langue chinoise avec l'outil Mecab https://ertim.inalco.fr/node/573 <span class="field field--name-title field--type-string field--label-hidden">La segmentation pour la recherche d&#039;information et/ou l&#039;extraction d&#039;information en langue chinoise avec l&#039;outil Mecab</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2014</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La segmentation reste toujours un défi pour le traitement automatique du chinois. Cette tâche est également le point de départ d&#039; autres traitements sophistiqués. Dans cette recherche, nous aborderons la question de la meilleure segmentation à l’aide de modèles divers. Ensuite, nous utiliserons ce modèle de la meilleure segmentation pour entraîner le Sinequa ES (moteur de recherche). Puis, nous évaluerons la pertinence de la recherche d’information. Enfin, nous effectuerons une comparaison de ce résultat avec la pertinence de la recherche d’information basée sur un modèle précédent.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2332" hreflang="fr">traitement automatique de la langue chinoise</a></div> <div class="field__item"><a href="/taxonomy/term/2333" hreflang="fr">mecab</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1832" hreflang="fr">recherche d’information</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_ChingWen%20HUANG_M2.pdf" type="application/pdf">memoire_ChingWen HUANG_M2.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 573 at https://ertim.inalco.fr Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées https://ertim.inalco.fr/node/570 <span class="field field--name-title field--type-string field--label-hidden">Développement d&#039;une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2014</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n&#039;existe que peu de données. C&#039;est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d&#039;Antoine de Saint-Exupéry, qui a l&#039;avantage d&#039;être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d&#039;autres langues, et les phénomènes linguistiques traités serviront d&#039;exemples. Nous avons ensuite mis ces travaux à l&#039;épreuve, en démarrant la création de systèmes pour d&#039;autres langues.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/875" hreflang="fr">traduction automatique</a></div> <div class="field__item"><a href="/taxonomy/term/887" hreflang="fr">langues peu dotées</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1979" hreflang="fr">méthodologie</a></div> <div class="field__item"><a href="/taxonomy/term/2320" hreflang="fr">khmer</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/Memoire_G_DE_MALEZIEUX.pdf" type="application/pdf">Memoire_G_DE_MALEZIEUX.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 570 at https://ertim.inalco.fr Etude comparative de deux outils de TAO https://ertim.inalco.fr/node/162 <span class="field field--name-title field--type-string field--label-hidden">Etude comparative de deux outils de TAO</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le service de traduction du Parlement européen est une structure unique qui présente des caractéristiques très spécifiques. En effet, il faut gérer un très grand nombre de couples de langues et les documents sont d&#039;une diversité extrêmement grande. Les outils pour aider le traducteur dans sa tâche sont très nombreux et variés. C&#039;est la traduction assistée qui se prête le mieux aux besoins internes des traducteurs. L&#039;outil utilisé jusqu&#039;à présent était le TWB de la société Trados. Cependant, un autre programme a été mis au point en interne et il est actuellement en phase finale de test. Le travail de recherche que j&#039;ai effectué au sein de cette institution pendant mon stage consiste à confronter le TWB avec FUSE, le nouvel outil de traduction assistée mis au point par un informaticien interne. Dans mon étude je cherche à savoir pourquoi un outil généraliste tel que le TWB ne s&#039;est pas montré totalement efficace pour certains documents et a nécessité la création d&#039;un nouvel outil. S&#039;agit-il d&#039;une faille au niveau du programme lui-même (problème structurel) ou bien, est-ce dû au contexte dans lequel cet outil est utilisé (problème environnemental) ? A travers une étude comparative des performances de ces deux outils sur un type de document particulier j&#039;essaierai de montrer les aspects positifs et négatifs de chacun d&#039;eux.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1761" hreflang="fr">multilinguisme</a></div> <div class="field__item"><a href="/taxonomy/term/2123" hreflang="fr">mémoire de traduction</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/2138" hreflang="fr">granularité</a></div> <div class="field__item"><a href="/taxonomy/term/1895" hreflang="fr">alignement</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 162 at https://ertim.inalco.fr Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale https://ertim.inalco.fr/node/156 <span class="field field--name-title field--type-string field--label-hidden">Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2096" hreflang="fr">traitement automatique du langage naturel</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/2097" hreflang="fr">étiquetage grammatical</a></div> <div class="field__item"><a href="/taxonomy/term/2098" hreflang="fr">voyellation automatique</a></div> <div class="field__item"><a href="/taxonomy/term/1930" hreflang="fr">agglutination</a></div> <div class="field__item"><a href="/taxonomy/term/1965" hreflang="fr">ambiguïté</a></div> <div class="field__item"><a href="/taxonomy/term/2099" hreflang="fr">approche distributionnelle</a></div> <div class="field__item"><a href="/taxonomy/term/2100" hreflang="fr">analyse syntaxique</a></div> <div class="field__item"><a href="/taxonomy/term/1931" hreflang="fr">analyse morphologique</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 156 at https://ertim.inalco.fr Constitution de ressources pour l'élaboration d'un lexique français-anglais-chinois du commerce international https://ertim.inalco.fr/node/142 <span class="field field--name-title field--type-string field--label-hidden">Constitution de ressources pour l&#039;élaboration d&#039;un lexique français-anglais-chinois du commerce international</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire présente une méthode de construction d&#039;un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l&#039;OMC traduits dans les 3 langues. Nous examinons d&#039;abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d&#039;automatiser l&#039;étape d&#039;extraction de termes. Durant la tâche d&#039;acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2041" hreflang="fr">terme</a></div> <div class="field__item"><a href="/taxonomy/term/2042" hreflang="fr">candidat-terme</a></div> <div class="field__item"><a href="/taxonomy/term/2016" hreflang="fr">linguistique de corpus</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 142 at https://ertim.inalco.fr Analyse des problèmes posés par le Japonais dans un contexte de recherche d’informations https://ertim.inalco.fr/node/139 <span class="field field--name-title field--type-string field--label-hidden">Analyse des problèmes posés par le Japonais dans un contexte de recherche d’informations</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le moteur de recherche Google s’est imposé ces dernières années comme l’outil de recherche d’information le plus performant pour le grand public. Ce mémoire propose de tester la version japonaise du moteur et d’en analyser les faiblesses. Nous nous pencherons tout d’abord sur les problèmes que pose la pluralité des écritures : en quoi l’utilisateur peut il passer à côté de résultats pertinents en effectuant des requêtes dans une langue où jusqu’à 4 graphies différentes peuvent être utilisées dans un même corpus ? Vient alors la question de la segmentation en Japonais : comment le moteur réagit il face à une langue où les espaces n’existent pas ? Enfin, notre travail se terminera par une étude des ambiguïtés phonétiques et lexicales propres à la langue de Mishima : comment peut on améliorer le traitement des néologismes et des transcription phonétiques à partir d’autres langues ? Après avoir effectué plusieurs tests sur le moteur, nous analyserons les problèmes pour finalement proposer des méthodes et solution permettant d’améliorer la pertinence des résultats.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1783" hreflang="fr">japonais</a></div> <div class="field__item"><a href="/taxonomy/term/1758" hreflang="fr">moteur de recherche</a></div> <div class="field__item"><a href="/taxonomy/term/1965" hreflang="fr">ambiguïté</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/2033" hreflang="fr">néologisme</a></div> <div class="field__item"><a href="/taxonomy/term/1848" hreflang="fr">pertinence</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 139 at https://ertim.inalco.fr Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde » https://ertim.inalco.fr/node/94 <span class="field field--name-title field--type-string field--label-hidden">Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Semenova</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal &quot;Le Monde&quot;.<br /> <br /> Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/1845" hreflang="fr">textométrie</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1846" hreflang="fr">Lexico 3</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 94 at https://ertim.inalco.fr Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine https://ertim.inalco.fr/node/92 <span class="field field--name-title field--type-string field--label-hidden">Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Guiraud</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.<br /> <br /> Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1763" hreflang="fr">alignement de mots</a></div> <div class="field__item"><a href="/taxonomy/term/1818" hreflang="fr">chinois</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1838" hreflang="fr">extraction de textes</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 92 at https://ertim.inalco.fr