français

Étude du comportement des composants d’expressions polylexicales verbales dans les chaînes de coréférence

Résumé
La coréférence et les expressions polylexicales sont deux phénomènes linguistiques importants en traitement automatique des langues et notamment dans des tâches comme la traduction automatique ou encore la fouille de texte. Au cours de ce mémoire, nous chercherons à valider l’hypothèse selon laquelle les composants d’expressions polylexicales ne sont que très peu susceptibles d’être repris dans des chaînes de coréférence, et nous proposerons une façon d’utiliser ces résultats pour tenter d’améliorer les systèmes de résolution de coréférence.

Étude comparative des expressions polylexicales verbales en français et en chinois : éléments linguistiques, statistiques et TAL

Résumé
Ce travail porte sur une étude comparative des expressions polylexicales verbales en français et en chinois. Nous essayons d’abord de valider l’hypothèse sur la noncompositionnalité des expressions polylexicales et les chaînes de coréférence, selon laquelle les composants d’une expression polylexicale verbale sont peu susceptibles d’être repris dans une chaîne de coréférence. Ensuite, en se basant sur les fautes observées pendant l’annotation manuelle, les analyses statistiques des traits et nos connaissances sur la langue chinoise, nous supposons que l’hypothèse se comporte de manière similaire en chinois, et proposons des points à affiner dans l’hypothèse, ainsi que des pistes possibles pour améliorer l’identification automatique des expressions polylexicales verbales en français et en chinois.

Panorama sur la représentation des genres dans la presse française Une nouvelle approche basée sur l’Entity Linking

Résumé
De nos jours, les médias ont indéniablement une influence sur nos sociétés, et inversement. De nombreux travaux ont mis l’accent sur les inégalités de genre, en particulier au sujet de la sous représentation médiatique des femmes par rapport aux hommes, en abordant le genre comme un concept binaire. Les autres identités de genre sont encore très peu incluses dans les problématiques étudiées, notamment en TAL. Nous proposons dans ce mémoire une méthode d’analyse de la représentation d’un éventail plus large de genres (féminin, masculin, nonbinaire, gender queer, gender fluid, trans) dans un vaste corpus de presse française, basée sur de la liaison d’entités mentionnées dans les articles (Entity Linking). Cette démarche présente des avantages, elle permet par exemple de traiter automatiquement un volume de données important, ou encore de prendre en compte cette diversité de genres. Elle fait cependant face à la complexité de la problématique, autant d’un point de vue sociologique que TAL. Les résultats obtenus confirment une sous-représentation des genres minoritaires, dans la presse comme dans les méthodes et ressources (bases de connaissance), face à laquelle quelques pistes de travail sont proposées.

Recherche de termes équivalents à partir de corpus trilingues : constitution d'une terminologie multilingue français-anglais-allemand, application au domaine de la cogénération

Résumé
Les présentes recherches visent à constituer une terminologie multilingue dans le cadre du projet SAFIR (Système d'Agents pour le Filtrage de l'Information sur les Réseaux) concernant la recherche d'information (en français, anglais et allemand) dans le domaine de la cogénération. A partir de listes terminologiques indépendantes, construites à l'aide d'outils d'extraction de terminologie (LEXTER, XELDA), nous essayons de reconnaître les équivalents français,anglais et allemands dans des textes parallèles alignés. Nous comparons les résultats de l'outil 'Twente', qui aligne des textes au niveau des mots, et d'un outil développé par nos soins ('MagicTermFinder'). Les analyses nous montrent que le travail à effectuer se situe surtout au niveau de la préparation et de l'application des termes. Dans une perspective plus lointaine, cette mise en relation terminologique devra être adaptée à des corpus comparables

Identification des entités nommées dans un corpus français-anglais-arabe

Résumé
Avec la montée en puissance des réseaux (Internet notamment), la taille des documents multilingues à traiter devient de plus en plus importante, ce qui augmente les besoins en outils de traitement automatique pour différentes langues. Parmi ces outils, beaucoup ont recours à la reconnaissance et l'extraction automatique des entités nommées : indexation automatique de documents, recherche d'information, traduction automatique, catégorisation, etc. Notre travail de stage consiste à repérer les entités nommées dans un corpus trilingue Anglais/Arabe/Français (non aligné) collecté à partir des ressources disponibles sur Internet. Dans notre mémoire, nous commencerons d'abord par la présentation d'un état de l'art pour passer en revue les récents systèmes développés pour la reconnaissance des entités nommées pour le Français et l'Anglais ayant notamment participé aux conférences MUC. Nous tenterons ensuite d'examiner ce qui a été fait pour le traitement automatique de l'Arabe et, si possible, ceux concernant l'extraction des entités nommées. Nous ferons ensuite le lien avec le travail réalisé durant notre stage et aborderons les difficultés rencontrées et les solutions mises en place pour les résoudre. 

Outils d'extraction et d'alignement terminologiques franco-japonais

Résumé
Ce mémoire propose une méthode pour constituer des ressources lexicales type glossaire, lexique etc. bilingues japonais français. Dans ce but, un outil d’extraction terminologique pour le japonais, ACABIT, y sera présenté et testé. Sur la base des termes extraits à partir d’un corpus à l’origine bilingue et ensuite alignés, nous avons pu élaborer des unités de traduction qui peuvent servir de base à la construction de ressources lexicales bilingues. Ce mémoire apporte également une évaluation et une critique des outils et logiciels étudiés et de la méthode envisagée.