analyse morphologique

Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale

Résumé
Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.

La représentation du turc en Unitex

Résumé
Cette étude présente un modèle pour la représentation du turc dans la plate-forme de traitement de corpus Unitex. Le choix du modèle est déterminé principalement par la morphologie agglutinante du turc et s'appuie sur une étude des outils linguistiques existants.

La solution proposée inclut l'emploi de l'analyseur morphologique Zemberek. La liaison entre l'analyse du texte turc produite par Zemberek et les formalismes reconnus par Unitex est assurée par le package Java implémenté. Des exemples d'application des fonctionnalités d'Unitex au turc sont donnés en guise d'évaluation.

**** 

  This study presents a model for the representation of Turkish in the corpus processing platform Unitex. The choice of the model is mainly determined by the agglutinative morphology of Turkish and it relies on a study of the existing language processing tools.

The solution proposed makes use of the morphological analyzer Zemberek. The link between Zemberek-produced analysis of Turkish text and Unitex-recognized formalisms is carried out by the implemented Java package. Examples of Unitex functionalities applied on Turkish are provided by way of evaluation.