méthode hybride https://ertim.inalco.fr/ fr Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés https://ertim.inalco.fr/node/624 <span class="field field--name-title field--type-string field--label-hidden">Adaptation des systèmes de traduction automatique neuronale aux domaines spécialisés </span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Yunbei Zhang</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La traduction automatique neuronale est une technique émergente dans la discipline de linguistique informatique. L’entraînement du modèle de traduction neuronale est basé sur un corpus parallèle. Traduire des textes d’un domaine non représenté dans le corpus d’entraînement s’avère difficile et produit une qualité de traduction peu satisfaisante. Ce travail de recherche a été effectué à l’aide du système de traduction automatique neuronale implémenté par Systran. Il s’agit d’entraîner des modèles de traduction français-chinois à travers un processus de spécialisation en fine-tuning, et également des modèles de classification automatique de texte. Nous avons investigué une méthode hybride qui consiste à calculer pour chaque phrase du document à traduire, la probabilité qu’elle appartienne à chaque classe prédéfinie. La probabilité sera considérée comme un poids sur le score de confiance assigné sur chaque phrase de traduction générée par le système de traduction, et la traduction recueillant un meilleur score pondéré sera sélectionnée et réécrite dans un nouveau fichier de sortie. La traduction sera accumulée phrase par phrase dans ce fichier de sortie en construisant une traduction synthétique. La tâche de classification automatique de texte a été réalisée avec l&#039;algorithme de Ngramme et Naïve Bayes qui nous permettent d’avoir une meilleure F-mesure (100%). L’adaptation du système de traduction aux domaines spécialisés améliore le score BLEU.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2507" hreflang="fr">adaptation des domaines</a></div> <div class="field__item"><a href="/taxonomy/term/2508" hreflang="fr">traduction automatique neuronale</a></div> <div class="field__item"><a href="/taxonomy/term/2428" hreflang="fr">méthode hybride</a></div> <div class="field__item"><a href="/taxonomy/term/2509" hreflang="fr">classification multi-classe</a></div> <div class="field__item"><a href="/taxonomy/term/2510" hreflang="fr">ngramme</a></div> <div class="field__item"><a href="/taxonomy/term/2511" hreflang="fr">naïve bayes</a></div> <div class="field__item"><a href="/taxonomy/term/2512" hreflang="fr">perplexité</a></div> <div class="field__item"><a href="/taxonomy/term/2513" hreflang="fr">valeur pondérée</a></div> <div class="field__item"><a href="/taxonomy/term/2514" hreflang="fr">traduction synthétique</a></div> <div class="field__item"><a href="/taxonomy/term/2515" hreflang="fr">f-mesure</a></div> <div class="field__item"><a href="/taxonomy/term/2516" hreflang="fr">bleu</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire-YunbeiZHANG.pdf" type="application/pdf">memoire-YunbeiZHANG.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 624 at https://ertim.inalco.fr Acquisition de connaissances à des fins d'analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue https://ertim.inalco.fr/node/615 <span class="field field--name-title field--type-string field--label-hidden">Acquisition de connaissances à des fins d&#039;analyse automatique : Extraction des différentes façons de nommer les ingrédients et actifs cosmétiques dans les conversations spontanées des internautes en français et anglais et comparaison multilingue</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Karolina Krygier</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2018</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L&#039;objectif de ce mémoire est de mettre en place une méthode qui permette d&#039;extraire les différents nommages d&#039;ingrédients et actifs cosmétiques à partir de commentaires postés sur le Web en français et en anglais. Les commentaires n&#039;étant pas normalisés, les diverses expressions qui s&#039;y trouvent, amènent à s&#039;intéresser à leurs variations graphiques et morphosyntaxiques. La méthode exposée est hybride, alliant patrons morphosyntaxiques et distance de Levenshtein. Employée dans un contexte d&#039;acquisition de connaissances, les candidats termes validés pourront être intégrés aux ressources linguistiques et réutilisés dans des analyses ultérieures.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1904" hreflang="fr">acquisition de connaissances</a></div> <div class="field__item"><a href="/taxonomy/term/865" hreflang="fr">extraction terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2477" hreflang="fr">variation terminologique</a></div> <div class="field__item"><a href="/taxonomy/term/2428" hreflang="fr">méthode hybride</a></div> <div class="field__item"><a href="/taxonomy/term/2462" hreflang="fr">patrons morphosyntaxiques</a></div> <div class="field__item"><a href="/taxonomy/term/2409" hreflang="fr">distance de levenshtein</a></div> <div class="field__item"><a href="/taxonomy/term/2034" hreflang="fr">corpus multilingue</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire_Krygier.pdf" type="application/pdf">memoire_Krygier.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 615 at https://ertim.inalco.fr Utilisation d'une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF https://ertim.inalco.fr/node/600 <span class="field field--name-title field--type-string field--label-hidden">Utilisation d&#039;une méthode hybride pour la détection automatique de la polarité dans les tweets concernant EDF</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2017</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce mémoire traite de la détection automatique de la polarité dans un corpus de tweets traitant d&#039;EDF. Le corpus est constitué des tweets extrais de Twitter via une application développée au sein d&#039;EDF Commerce, appelée TweetsTracker. Cette application réalise plusieurs pré-traitements notamment un filtrage des tweets traitant d&#039;EDF et une classification catégorie par thématique. Ces tweets sont ensuite stockés dans une base de données interne à EDF. Le corpus de l&#039;étude sera composé d&#039;un échantillon de ces tweets respectant la répartition par catégorie.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2428" hreflang="fr">méthode hybride</a></div> <div class="field__item"><a href="/taxonomy/term/2429" hreflang="fr">twitter</a></div> <div class="field__item"><a href="/taxonomy/term/2430" hreflang="fr">détection de sentiment</a></div> <div class="field__item"><a href="/taxonomy/term/2431" hreflang="fr">méthode symbolique</a></div> <div class="field__item"><a href="/taxonomy/term/2364" hreflang="fr">apprentissage automatique</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoire%20POULAIN%20Mathilde%202017.pdf" type="application/pdf">memoire POULAIN Mathilde 2017.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 600 at https://ertim.inalco.fr