enrichissement de corpus textuel

Les architectures de traitements linguistiques

Résumé
Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d'obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d'être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d'information que de format des données. Notre objectif dans ce mémoire est de décrire l'intégration d'outils de TAL dans une plate-forme d'enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l'adéquation des jeux d'étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d'annotations. Nous apportons également un regard critique sur l'enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d'outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l'art sur les plate-formes et outils d'analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l'ensemble des annotations linguistiques liées au corpus.