enrichissement de corpus textuel https://ertim.inalco.fr/ fr Les architectures de traitements linguistiques https://ertim.inalco.fr/node/129 <span class="field field--name-title field--type-string field--label-hidden">Les architectures de traitements linguistiques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2004</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d&#039;obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d&#039;être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d&#039;information que de format des données. Notre objectif dans ce mémoire est de décrire l&#039;intégration d&#039;outils de TAL dans une plate-forme d&#039;enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l&#039;adéquation des jeux d&#039;étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d&#039;annotations. Nous apportons également un regard critique sur l&#039;enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d&#039;outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l&#039;art sur les plate-formes et outils d&#039;analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l&#039;ensemble des annotations linguistiques liées au corpus.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1987" hreflang="fr">traitement automatique des langues</a></div> <div class="field__item"><a href="/taxonomy/term/1988" hreflang="fr">plate-forme d&#039;annotation linguistique</a></div> <div class="field__item"><a href="/taxonomy/term/1989" hreflang="fr">XML</a></div> <div class="field__item"><a href="/taxonomy/term/1990" hreflang="fr">enrichissement de corpus textuel</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 129 at https://ertim.inalco.fr