reconnaissance de langue

Proposition de méthode de création de corpus en anglais britannique et en anglais américain pour l’enrichissement de la partie anglais d’un dictionnaire bilingue

Résumé
La richesse du Web offre la possibilité de consulter divers genres et types de textes publiés en anglais. L’objet du travail présenté est de constituer de façon automatique une collection de textes en anglais britannique et une autre en anglais américain.Le projet repose sur un processus en deux temps : génération de pages textes HTML via un appel à une sélection manuelle de sites puis filtrage grâce à des dictionnaires constitués d’indices de dialecte. Les données recueillies après traitement statistique et linguistique serviront à enrichir la partie anglais d’un dictionnaire bilingue.