Mémoires 2010-2011

Spécification structurelles et redactionnelles des corpus issus du web : du text mining au web mining
Auteur : Dutrey
Année : 2011
Résumé : L'utilisation du Web comme réservoir de données confronte les outils de text mining à de nouveaux cas d'usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d'une phase de nettoyage visant à rapprocher les textes de la norme , à l'extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.
« Normalisation des expressions temporelles »
Auteur : Yankova
Année : 2011
Résumé : Le contexte des travaux réalisés est l'enrichissement d'une plateforme d'analyse et de traitements de grands volumes d'information de la filiale de Thales - Arisem (ARtificial Intelligence & SEMantic). Dans ce Mémoire de recherche, nous suggérons un module pour attribuer aux expressions de temps repérées dans des textes, un format d'écriture réutilisable a des différents niveaux des traitements dans la plateforme. En matière de principes d'annotation et de représentation des expressions temporelles, nous nous sommes inspires principalement de deux modèles de représentations de la temporalité : la norme TimeML et les expressions calendaires (Battistelli, Couto, Minel, Schwer). En analysant un corpus de textes journalistiques courts, nous avons étudié et formalisé des relations entre les expressions temporelles dans le but de prendre en considération la granularité du temps, l'ordre et la position des occurrences des expressions temporelles composantes dans une unité temporelle plus large, et aussi dans une phrase. Nous avons formulé des actions sur I ‘axe de temps, telles que: le déplacement par rapport a un point de repère «( iI y un an», « l'année prochaine »), la fraction et la quantification des unités «( trois quarts d'heures »), la substitution d'expressions de célébrations d'événements répétitives à l'année «( Noel», « Pentecôte). Nous avons transformés les relations identifiées entre les unités temporelles en grammaires d'annotation de type Arisem.

Notre recherche s'est déployée aussi sur la construction de nouvelles ressources Linguistiques pour l'annotation des expressions temporelles et la modélisation d 'algorithmes de calcul (en langage de programmation Java). Enfin, nous avons réalisé une démonstration de la normalisation, notamment sur les expressions temporelles complètes (comportant des expressions pour année, mois et jour).

Notre approche par flux , permet de modifier ou d'ajouter des traitements à des différentes étapes dans la chaine des transformations. Nous relevons aussi un certain nombre de points pouvant aider à améliorer la méthode de normalisation des expressions temporelles proposée.