langues peu dotées

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Résumé
Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Résumé
Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles. L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.