expressions polylexicales

Détection automatique de l’innovation lexicale dans des corpus diachroniques

Résumé
Le figement lexical est un phénomène central du langage et les expressions figées représentent une importante proportion du lexique de toute langue. Leur détection demeure un des enjeux du TAL. Après avoir effectué un résumé détaillé de l’état de l’art dans ce domaine, ce mémoire présente une méthode non supervisée permettant de détecter la formation de nouvelles expressions figées au sein de corpus diachroniques d’articles de presse en français. On utilisera un modèle LDA (allocation de Dirichlet latente) pour extraire les expressions les plus représentatives du corpus que l’on considèrera comme des candidats au figement. Puis, partant du principe établi par les linguistes qu’une expression est figée si ses termes n’admettent pas d’être remplacés par des synonymes, nous utiliserons des plongements de mots pour établir une liste d’expressions synonymes pour chaque expression candidate. Enfin, nous calculerons l’évolution au fil du corpus du taux d’apparition d’une expression par rapport à ses « synonymes » (nous dresserons automatiquement pour chaque candidat une liste de potentiels synonymes en remplaçant les mots de l’expression candidate par des mots dont la représentation en vecteur est similaire).

Étude du comportement des composants d’expressions polylexicales verbales dans les chaînes de coréférence

Résumé
La coréférence et les expressions polylexicales sont deux phénomènes linguistiques importants en traitement automatique des langues et notamment dans des tâches comme la traduction automatique ou encore la fouille de texte. Au cours de ce mémoire, nous chercherons à valider l’hypothèse selon laquelle les composants d’expressions polylexicales ne sont que très peu susceptibles d’être repris dans des chaînes de coréférence, et nous proposerons une façon d’utiliser ces résultats pour tenter d’améliorer les systèmes de résolution de coréférence.