Filtrage de paragraphes : reconnaissance de la langue et de l'écrit informel
Résumé
Ce mémoire propose une étude en deux volets pour le repérage, au niveau du paragraphe, de la langue et de l'écrit informel issu d'Internet. Il répond à deux besoins : adapter les traitements linguistiques aux types de texte et sélectionner les paragraphes de textes pertinents pour une tâche de recherche d'information.
Le premier volet traite de l'identification automatique des langues, il rend compte de l'implantation et de l'évaluation de quatre méthodes. On s'attache surtout à leurs performances sur de courtes séquences de texte.
Le second volet concerne la reconnaissance de l'écrit informel.
La démarche est appuyée par des travaux en linguistique variationnelle et sur les nouvelles formes de communication écrite, puis appronfondie par une analyse lexicométrique. Enfin, on décrit l'implantation d'un arbre de décision qui utilise les indices remarqués lors de l'étude linguistique.
Le premier volet traite de l'identification automatique des langues, il rend compte de l'implantation et de l'évaluation de quatre méthodes. On s'attache surtout à leurs performances sur de courtes séquences de texte.
Le second volet concerne la reconnaissance de l'écrit informel.
La démarche est appuyée par des travaux en linguistique variationnelle et sur les nouvelles formes de communication écrite, puis appronfondie par une analyse lexicométrique. Enfin, on décrit l'implantation d'un arbre de décision qui utilise les indices remarqués lors de l'étude linguistique.