classification automatique https://ertim.inalco.fr/ fr Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine https://ertim.inalco.fr/node/620 <span class="field field--name-title field--type-string field--label-hidden">Développement en open source et évaluation d’un système de classification multi-classes pour des articles de presse du domaine </span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Xi Rong</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail s’inscrit dans le projet LEOnard des Études Économiques de BNP Paribas. Il s’agit du redéveloppement en logiciel libre et de l’évaluation d’un système de classification multi-classes pour des articles de presse du domaine bancaire. Pour construire le système, différentes expériences ont été menées afin de trouver les paramètres optimaux : pré-traitements du corpus, sélection de features, choix de l’algorithme, etc. C’est l’algorithme SGD (Stochastic Gradient Descent) qui a finalement été retenu avec une F-Mesure de 95% sur le corpus de test. Le nouveau système doit s’adapter aux contraintes réelles de la tâche et les évaluations doivent aussi être adaptables et comparables avec le dernier. Cependant, les mesures classiques ne permettent pas d’intégrer les évaluations adaptées à la tâche ni de qualifier globalement la performance du système. Par conséquent, nous avons proposé des métriques complémentaires, dont le « Leo-Score », pour évaluer le système de classification intégré dans la plate-forme. Notre système a eu un Leo-Score de 81,76% tandis que le système existant a eu un Leo-Score de 64,88% pour de nouvelles données présentées dans la plate-forme LEOnard.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2388" hreflang="fr">classification multi-classe des textes</a></div> <div class="field__item"><a href="/taxonomy/term/2491" hreflang="fr">apprentissage supervisé</a></div> <div class="field__item"><a href="/taxonomy/term/2492" hreflang="fr">système de classification</a></div> <div class="field__item"><a href="/taxonomy/term/1949" hreflang="fr">classification automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2493" hreflang="fr">open source</a></div> <div class="field__item"><a href="/taxonomy/term/2494" hreflang="fr">mesure d’évaluation</a></div> <div class="field__item"><a href="/taxonomy/term/2495" hreflang="fr">validation croisée</a></div> <div class="field__item"><a href="/taxonomy/term/2496" hreflang="fr">leo-score</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/RONG%20Xi.pdf" type="application/pdf">RONG Xi.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 620 at https://ertim.inalco.fr Variations Phonétiques des Accents de la Langue Italienne https://ertim.inalco.fr/node/613 <span class="field field--name-title field--type-string field--label-hidden">Variations Phonétiques des Accents de la Langue Italienne</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Giovanna Favia</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire de recherche vise à analyser les variations phonétiques des accents de l’italien contemporain, divisés en trois grandes zones (Nord, Centre et Sud) au sein d’un grand corpus de parole continue et semi-spontanée de journaux radiodiffusés. Les analyses acoustiques étant fondées sur la durée des phonèmes consonantiques d’une part et sur les valeurs des formants des voyelles de l’autre. Pour ce qui concerne la durée des phonèmes consonantiques, l’attention est posée sur les phénomènes de renforcement phono syntaxique et redoublement intervocalique qui se produisent sur toute classe de consonne, à l’exception des fricatives, chez les locuteurs des trois zones considérées. Pour les phonèmes vocaliques, une analyse des triangles vocaliques est menée d’abord, suivie d’une classification automatique des accents des locuteurs. Une dernière étude portera l’attention sur l’importance du genre du locuteur dans un contexte de détection automatique de l’origine.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2468" hreflang="fr">variation phonétique</a></div> <div class="field__item"><a href="/taxonomy/term/2469" hreflang="fr">accents</a></div> <div class="field__item"><a href="/taxonomy/term/2470" hreflang="fr">langue italienne</a></div> <div class="field__item"><a href="/taxonomy/term/2471" hreflang="fr">grand corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1949" hreflang="fr">classification automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2472" hreflang="fr">système consonantique</a></div> <div class="field__item"><a href="/taxonomy/term/2473" hreflang="fr">système vocalique</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoireGFavia.pdf" type="application/pdf">memoireGFavia.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 613 at https://ertim.inalco.fr Filtrage de paragraphes : reconnaissance de la langue et de l'écrit informel https://ertim.inalco.fr/node/120 <span class="field field--name-title field--type-string field--label-hidden">Filtrage de paragraphes : reconnaissance de la langue et de l&#039;écrit informel</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Delpech</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2008</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire propose une étude en deux volets pour le repérage, au niveau du paragraphe, de la langue et de l&#039;écrit informel issu d&#039;Internet. Il répond à deux besoins : adapter les traitements linguistiques aux types de texte et sélectionner les paragraphes de textes pertinents pour une tâche de recherche d&#039;information.<br /> <br /> Le premier volet traite de l&#039;identification automatique des langues, il rend compte de l&#039;implantation et de l&#039;évaluation de quatre méthodes. On s&#039;attache surtout à leurs performances sur de courtes séquences de texte.<br /> <br /> Le second volet concerne la reconnaissance de l&#039;écrit informel.<br /> <br /> La démarche est appuyée par des travaux en linguistique variationnelle et sur les nouvelles formes de communication écrite, puis appronfondie par une analyse lexicométrique. Enfin, on décrit l&#039;implantation d&#039;un arbre de décision qui utilise les indices remarqués lors de l&#039;étude linguistique.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1945" hreflang="fr">identification automatique des langues</a></div> <div class="field__item"><a href="/taxonomy/term/1946" hreflang="fr">variation linguistique</a></div> <div class="field__item"><a href="/taxonomy/term/1947" hreflang="fr">nouvelles formes de communication écrite</a></div> <div class="field__item"><a href="/taxonomy/term/1948" hreflang="fr">lexicométrie</a></div> <div class="field__item"><a href="/taxonomy/term/1949" hreflang="fr">classification automatique</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 120 at https://ertim.inalco.fr