japonais

Analyse des problèmes posés par le Japonais dans un contexte de recherche d’informations

Résumé
Le moteur de recherche Google s’est imposé ces dernières années comme l’outil de recherche d’information le plus performant pour le grand public. Ce mémoire propose de tester la version japonaise du moteur et d’en analyser les faiblesses. Nous nous pencherons tout d’abord sur les problèmes que pose la pluralité des écritures : en quoi l’utilisateur peut il passer à côté de résultats pertinents en effectuant des requêtes dans une langue où jusqu’à 4 graphies différentes peuvent être utilisées dans un même corpus ? Vient alors la question de la segmentation en Japonais : comment le moteur réagit il face à une langue où les espaces n’existent pas ? Enfin, notre travail se terminera par une étude des ambiguïtés phonétiques et lexicales propres à la langue de Mishima : comment peut on améliorer le traitement des néologismes et des transcription phonétiques à partir d’autres langues ? Après avoir effectué plusieurs tests sur le moteur, nous analyserons les problèmes pour finalement proposer des méthodes et solution permettant d’améliorer la pertinence des résultats.

Outils d'extraction et d'alignement terminologiques franco-japonais

Résumé
Ce mémoire propose une méthode pour constituer des ressources lexicales type glossaire, lexique etc. bilingues japonais français. Dans ce but, un outil d’extraction terminologique pour le japonais, ACABIT, y sera présenté et testé. Sur la base des termes extraits à partir d’un corpus à l’origine bilingue et ensuite alignés, nous avons pu élaborer des unités de traduction qui peuvent servir de base à la construction de ressources lexicales bilingues. Ce mémoire apporte également une évaluation et une critique des outils et logiciels étudiés et de la méthode envisagée.

EJE : Outil d’extraction d’entités nommées en japonais à partir de textes alignés japonais-langue2

Résumé
Le but de ce projet était d'automatiser l’extraction d’entités nommées en japonais afin de faciliter leur reconnaissance dans une autre langue et ce, dans le cadre d’un alignement textuel.L'outil créé prend donc en entrée un couple de textes alignés japonais-langue2 et effectue l'extraction des entités en japonais. L'utilisation de l'unicode pour les traitements et l'affichage autorise l'utilisateur à choisir en langue2 la langue de son choix.Un affichage sous forme de tableau html permet ensuite à l'utilisateur de visualiser les phrases japonaises contenant ces entités surlignées ainsi que les phrases équivalentes dans la deuxième langue.

Exploitation de critéres de distinction automatique des textes scientifiques et vulgarisés autour des notions "diabéte / régime alimentaire"

Résumé
Aprés avoir constitué deux corpus japonais (scientifique et vulgarisé) dans le cadre du projet DECO, diverses analyses ont été effectuées sur ces corpus pour en dégager des critéres de la distinction automatique des textes scientifiques et vulgarisés.

Des critéres proposés par des études précédentes comme quelques critéres originaux (dont celui de la mise en rapport des styles "neutre / poli" avec les catégories "scientifique / vulgarisé") ont été examinés et exploités.