textométrie

Définition d'un modèle d'émotions pour la catégorisation de textes narratifs courts

Résumé
Les plates-formes communautaires relatives à l'industrie culturelle sont aujourd'hui largement répandues. Si les plus connues d'entre elles concernent la musique ou les vidéos, certaines innovent et cherchent à exploiter le domaine de la littérature. Ainsi, Short Edition se présente comme l'éditeur communautaire de la littérature courte. Bien que le domaine soit novateur et les acteurs présents peu nombreux, la concurrence est déjà forte et la course à l'innovation fait rage. Dans ce contexte, Short Edition cherche à explorer de nouvelles voies, comme celle qui nous intéresse : la classification automatique des textes du site selon les émotions. Afin d'atteindre cet objectif, il est nécessaire de mettre en place un processus d'annotation manuelle des textes d'après un modèle original et encadré par des directives spécialement conçues. Les enjeux et les contraintes de ce projet sont multiples et complexes : projet novateur ne pouvant donc pas s'appuyer entièrement sur des travaux antérieurs, recours à des annotateurs bénévoles ayant pour effet de limiter les possibilités d'action, pluridisciplinarité de la problématique. Ce mémoire présente le travail réalisé dans le cadre de ce projet. Après avoir réalisé un état de l'art, nous présentons Short Edition et les données d'étude. Nous définissons ensuite un nouveau modèle et ses paramètres, ainsi que les documents et interfaces nécessaires au processus d'annotation. Enfin, nous procédons à la validation du modèle construit par une étude textométrique.

Études contextuelles des émissions avant les publicités de la télé (DRTV) pour augmenter la performance des plans d'achat

Résumé
Au cours du projet de ce mémoire, nous allons étudier l’impact des écrans publicitaires sur le trafic des sites e-commerces. À ces écrans sont associés certains types d’information, comme les émissions avant et après le passage de l’écran publicitaire. Chacune de ces informations peut impacter la performance de ces écrans. Dans un premier temps, le but de ce mémoire est de présenter un modèle prédictif de la performance des écrans publicitaires par le biais des émissions, avant ou après le passage de ceux-ci. Dans un second temps, nous nous pencherons sur la description de ces émissions pour mettre l’accent sur l’analyse des mots utilisés. Enfin, nous verrons s’il existe un lien établi entre le contexte de l’émission et la réussite de ces écrans.

Collecte et analyse exploratoire de données issues de Twitter sur le thème de la mobilité

Résumé
L'étude des pratiques de mobilité des voyageurs se fait majoritairement au travers d'enquêtes ou de données quantitatives. Or, les utilisateurs des réseaux sociaux, et notamment de Twitter, sont prompts à partager sur le web leurs habitudes de déplacement et leurs itinéraires ponctuels ou quotidiens. Quels types d'informations peut-on repérer sur Twitter afin de mieux connaître la mobilité, d'un point de vue à la fois géographique et socio-économique ? Ce mémoire, réalisé dans le cadre d'un stage à la Direction de l'Innovation et de la Recherche de la SNCF, présente une stratégie de collecte de tweets en rapport avec la mobilité, ainsi que des analyses thématiques sur le corpus obtenu qui montrent le potentiel de ces données. Ces analyses ont également servi de base pour établir une typologie des tweets "Expérience Voyageur" qui nous permet d'organiser les différents types d'informations que partagent les utilisateurs à travers leurs messages ; à partir de cette typologie, nous avons pu amorcer un travail de classification automatique des tweets. A terme, ce projet pourra être couplé à d'autres travaux d'analyse de données hétérogènes afin de produire de nouveaux indicateurs de l'évolution des pratiques de mobilité.

Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle

Résumé
Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.

Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.

Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.