traitement automatique des langues

Générateur automatique des exercices à partir d’un corpus étiqueté. Applications et didactique pour le Géorgien

Résumé
Ce travail se focalise sur le développement d'outils de traitement automatique des langues
(TAL) pour l'apprentissage du géorgien dédiés aux francophones, dans lequel nous décrivons
nos recherches.
L'objet de ce mémoire est de proposer un générateur d’exercices sur la plateforme Moodle
(avec un plugin H5P) pour les enseignants, dans des exercices de conjugaison de verbes
géorgiens. Notre travail présente la réalisation de ce générateur d'exercices pour mettre en ligne
des exercices à trous et propose la conception de différents niveaux de complexité.
Ce document contient la présentation de la sociolinguistique du géorgien, ainsi que de brèves
explications sur la structure grammaticale du géorgien et les problèmes didactiques de cette
langue. Nous ferons un bilan des quelques avancées en traitement automatique de la langue
géorgienne. Ce travail propose une double problématique : théorique et technique, qui sont
liées avec la générateur d’exercices.
Les résultats obtenus montrent la faisabilité pour générer des exercices en géorgien à partir d'un
corpus et de critères. Nous dresserons quelques perspectives sur ce travail en particulier et plus
généralement sur la didactique numérique à partir de corpus.

Optimisation du processus de recrutement par utilisation de méthodes d’intelligence artificielles

Résumé
Le marché du travail a connu le développement d’un grand nombre de sites d’offres d’emploicomme par exemple LINKEDIN, MONSTER qui ont permis de développer un marché de recrutement en ligne. Notre sujet porte sur le développement d’un outil permettant d’optimiser le temps de traitement des données lors du processus de recrutement. Ceci est en automatisant la présélection et l’évaluation des profils des candidats. L’objectif est de fournir un score de compatibilité entre une offre et chaque candidat, ce score reflète à quel point son profil correspond aux spécifications du poste. Notre travail se concentre sur l’analyse de CVs ainsi que les besoins métier du service de recrutement.

Pertinence de deux types d'analyse syntaxique dans le cadre d'un outil didactique d'aide à la lecture pour les apprenants serbes de FLE

Résumé
Dans cette étude nous cherchons à comparer l’apport didactique de deux analyseurs syntaxiques du français : TALISMANE, qui suit la norme d’annotation du French Treebank adaptée à la syntaxe du français et le Stanford Parser intégrant les dépendances universelles – une forme d’annotation universelle applicable à des langues éventuellement distantes syntaxiquement. L’enjeu consiste à découvrir quel type d’annotation est meilleur du point de vue de l’apprenant de FLE : celui proche de la langue cible ou celui, plus universel, se rapprochant potentiellement de sa langue maternelle ? Nous avons décidé d’évaluer cet apport didactique avec des locuteurs d’une langue syntaxiquement éloignée du français : une langue slave, le serbe, dont l’ordre des mots est libre et les cas expriment les fonctions syntaxiques. Nous avons choisi un groupe de 11 apprenants de FLE de langue maternelle serbe. Chaque apprenant a lu, via un dispositif d'aide à la lecture appelé Déjà Lu, un jeu de textes adaptés à son niveau : textes sans aucune analyse syntaxique, juste annotés en parties du discours; textes analysés par Talismane; textes analysés par Stanford Parser. Il a répondu ensuite à un questionnaire portant sur sa compréhension des textes et ses préférences vis-à-vis des trois types d’annotation proposés. Les résultats nous ont permis d'estimer : l’utilité d’un analyseur syntaxique intégré à notre dispositif d’aide à la lecture ; le type d’analyse le mieux adapté pour des apprenants slaves de FLE.

Les nouvelles technologies au service de l’apprentissage des langues

Résumé
Après avoir envahi la société industrielle, le développement des télécommunications et l’explosion du multimédia ont contribué à élargir les perspectives en matière de formation. Les enjeux économiques du domaine de la formation professionnelle sont tels que de plus en plus de nouvelles solutions sont envisagées. Petit à petit, lele-learning défini comme le processus d’apprentissage à distance et de mise à disposition de contenus pédagogiques reposant sur l’utilisation des nouvelles technologies s’est imposé comme un outil souple, accessible et applicable à de nombreux domaines.Notre réflexion au fil de ce mémoire s’interessera à l’application du e-learning dans un domaine bien particulier, celui de l’apprentissage des langues. Comment peut-on envisager l’apprentissage / enseignement des langues dans un environnement en ligne ? Le e-learning en langues est-il concevable d’un point de vue linguistique, pédagogique et technologique ? Comment utiliser les nouvelles méthodes de communication, le multimédia et Internet pour transmettre le savoir ? De quel ordre sont les changements conceptuels entre formation linguistique traditionnelle et en ligne ?Ainsi, après être revenus sur les particularités de l’apprentissage / enseignement des langues, nous nousintéresserons à la mise en place de projets de formation linguistique en ligne et à la nécessité d’y intégrer des outils de traitement automatique des langues. Nousillustrerons notre propos par la présentation d’applications existantes.

Alignement de corpus bilingue franco-arabe à l'aide d'un outil de segmentation automatique donné afin de créer des ressources et d'obtenir des informations linguistiques pour développer de nouveaux outils informatiques de traitement automatique de corpus

Résumé
Présentation d'une problématique donnée telle que l'alignement d'un corpus franco-arabe sous un double aspect : identification des principaux problèmes spécifiques à l'alignement de corpus bilingue à l'aide d'outils de traitement automatique des langues et identification des problèmes spécifiques à un corpus franco-arabe donné à l'aide d'un outil de segmentation automatique donné (AlignEdit). Identification des repères fiables et non-fiables (tels que les chiffres, les nombres, les dates et les entités nommées) susceptibles d'être utilisés par des outils de segmentation et d'analyse syntaxique automatique en fonction des particularités de la structure grammaticale et syntaxique de la langue arabe mise en comparaison avec celles de la langue française dans un corpus obtenu à l'aide d'un outil automatique de capture et constitution de corpus électroniques.

Les architectures de traitements linguistiques

Résumé
Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d'obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d'être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d'information que de format des données. Notre objectif dans ce mémoire est de décrire l'intégration d'outils de TAL dans une plate-forme d'enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l'adéquation des jeux d'étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d'annotations. Nous apportons également un regard critique sur l'enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d'outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l'art sur les plate-formes et outils d'analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l'ensemble des annotations linguistiques liées au corpus.