filtrage

Approche pour le filtrage de données audio à large vocabulaire

Résumé
Les performances des outils de reconnaissance vocale sur des données à large couverture lexicale permettent d’envisager des traitements automatiques de l’information contenue dans les textes oraux.

Le mémoire décrit une approche de filtrage audio menée au cours d’un stage de 6 mois dans l’entreprise Thales Recherche et Technologie. L’analyse menée sur l’existant et les besoins de l’entreprise a débouché sur la réalisation d’une plate-forme de filtrage audio : RAFT (Realtime Audio Filtering Tool). Elle intègre un système de reconnaissance vocale, Sphinx, et un module de filtrage à l’aide des FSM, librairie d’automates et de transducteurs pondérés. Le mémoire présente la plate-forme et les différents types de filtrage envisagés : à partir de la meilleure transcription, d’un treillis de mots ou d’un treillis de phonèmes.

Proposition de méthode de création de corpus en anglais britannique et en anglais américain pour l’enrichissement de la partie anglais d’un dictionnaire bilingue

Résumé
La richesse du Web offre la possibilité de consulter divers genres et types de textes publiés en anglais. L’objet du travail présenté est de constituer de façon automatique une collection de textes en anglais britannique et une autre en anglais américain.Le projet repose sur un processus en deux temps : génération de pages textes HTML via un appel à une sélection manuelle de sites puis filtrage grâce à des dictionnaires constitués d’indices de dialecte. Les données recueillies après traitement statistique et linguistique serviront à enrichir la partie anglais d’un dictionnaire bilingue.