mandarin https://ertim.inalco.fr/ fr Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète https://ertim.inalco.fr/node/592 <span class="field field--name-title field--type-string field--label-hidden">Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L&#039;intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d&#039;un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L&#039;analyse de quelques exemples linguistiquement représentatifs montre qu&#039;aucun des outils de segmentation n&#039;est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d&#039;un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2396" hreflang="fr">comparaison</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1818" hreflang="fr">chinois</a></div> <div class="field__item"><a href="/taxonomy/term/2397" hreflang="fr">mandarin</a></div> <div class="field__item"><a href="/taxonomy/term/2398" hreflang="fr">forum</a></div> <div class="field__item"><a href="/taxonomy/term/2399" hreflang="fr">diabète</a></div> <div class="field__item"><a href="/taxonomy/term/2400" hreflang="fr">hoix outil de tal</a></div> <div class="field__item"><a href="/taxonomy/term/2401" hreflang="fr">démarche pragmatique</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/mem2_C_Thomas_V2.pdf" type="application/pdf">mem2_C_Thomas_V2.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 592 at https://ertim.inalco.fr