Mémoires 2002-2003
Les techniques de clustering appliquées à la catégorisation de textes
Année : 2003
Résumé : Les techniques de clustering initialement développées en data mining permettent de catégoriser les données structurées. Des algorithmes tels CURE, BIRCH ou CHAMELEON adoptent une approche de clustering hiérarchique (regroupement progressif des clusters) alors que d’autres algorithmes s’appuient sur un partitionnement des données, comme par exemple l’algorithme–Means. De nombreuses solutions ont ainsi été développées, suivant la nature et l’homogénéité des données, la taille des bases, les performances de rapidité et de robustesse. Le text mining qui s’intéresse à l’exploitation des données textuelles constitue un nouveau défi après le data mining. La grande question qui nous occupe est de savoir dans quelle mesure les travaux du data mining peuvent être repris dans le text mining. La catégorisation des textes soulève en effet des problèmes délicats liés à la nature des données textuelles dont la structuration n’est pas évidente (on parle données non structurées et semi-structurées). Des méthodes pour mesurer la similarité entre les textes ont néanmoins été établies afin de procéder à du clustering de documents et notamment de pages web. Nous essayerons d’analyser la pertinence de ces approches pour en cerner les limites et en entrevoir les possibilités. Ceci nous permettra de nous rendre compte si les techniques de clustering du data mining peuvent être réutilisées en text mining ou si au contraire, le problème doit être traité, abordé différemment.
Recherche méthodologique pour l’élaboration d’un dictionnaire de l’ingénierie nucléaire
Année : 2003
Résumé : A ce jour, il existe bien évidemment différents dictionnaires, lexiques, vocabulaires du nucléaire. Il convient donc de s’interroger sur l’intérêt de rajouter un nouveau dictionnaire à toutes ces publications. Mais consulter successivement l’ensemble des publications – incomplètes, obsolètes voir dépassées – peut s’avérer fastidieux. L’idée s’est faite jour d’un Dictionnaire complet de référence validé par les acteurs du nucléaire qui intégrerait l’ensemble des termes et expressions employés par les ingénieurs du nucléaire avec des définitions suffisamment explicites et des équivalences étrangères pour que toute personne en relation avec cette discipline puisse disposer d’un service complet, fiable et à sa portée. Enfin, il semble essentiel d’assurer la transmission des connaissances entre les générations du nucléaire.
La méthodologie, jugée la mieux adaptée à la réalisation de ce projet, comprend quatre étapes, à savoir l’élaboration d’un cahier des charges et des fiches terminologiques types pour les termes et expressions, une compilation pour chaque terme et expression des sources disponibles en un document « Master », la validation des termes à définir grâce à l’extraction de candidats termes sur corpus faite avec SYNTEX, la création d’un site intranet interactif accueillant les termes et définitions accessible aux membres du groupe constitué par dompaine pour entériner les termes et définitions, la création d’une base de données au format XML qui sera facilement exploitable par la suite et qui permettra d’enrichir le logiciel de t raduction automatique interne à Framatome.
La méthodologie, jugée la mieux adaptée à la réalisation de ce projet, comprend quatre étapes, à savoir l’élaboration d’un cahier des charges et des fiches terminologiques types pour les termes et expressions, une compilation pour chaque terme et expression des sources disponibles en un document « Master », la validation des termes à définir grâce à l’extraction de candidats termes sur corpus faite avec SYNTEX, la création d’un site intranet interactif accueillant les termes et définitions accessible aux membres du groupe constitué par dompaine pour entériner les termes et définitions, la création d’une base de données au format XML qui sera facilement exploitable par la suite et qui permettra d’enrichir le logiciel de t raduction automatique interne à Framatome.
Les nouvelles technologies au service de l’apprentissage des langues
Année : 2003
Résumé : Après avoir envahi la société industrielle, le développement des télécommunications et l’explosion du multimédia ont contribué à élargir les perspectives en matière de formation. Les enjeux économiques du domaine de la formation professionnelle sont tels que de plus en plus de nouvelles solutions sont envisagées. Petit à petit, lele-learning défini comme le processus d’apprentissage à distance et de mise à disposition de contenus pédagogiques reposant sur l’utilisation des nouvelles technologies s’est imposé comme un outil souple, accessible et applicable à de nombreux domaines.Notre réflexion au fil de ce mémoire s’interessera à l’application du e-learning dans un domaine bien particulier, celui de l’apprentissage des langues. Comment peut-on envisager l’apprentissage / enseignement des langues dans un environnement en ligne ? Le e-learning en langues est-il concevable d’un point de vue linguistique, pédagogique et technologique ? Comment utiliser les nouvelles méthodes de communication, le multimédia et Internet pour transmettre le savoir ? De quel ordre sont les changements conceptuels entre formation linguistique traditionnelle et en ligne ?Ainsi, après être revenus sur les particularités de l’apprentissage / enseignement des langues, nous nousintéresserons à la mise en place de projets de formation linguistique en ligne et à la nécessité d’y intégrer des outils de traitement automatique des langues. Nousillustrerons notre propos par la présentation d’applications existantes.