reconnaissance automatique de la parole https://ertim.inalco.fr/ fr Construction de modèles grapheme-to-phoneme dans le système de reconnaissance automatique de la parole à base de ressources linguistiques accessibles sur le Web https://ertim.inalco.fr/node/738 <span class="field field--name-title field--type-string field--label-hidden">Construction de modèles grapheme-to-phoneme dans le système de reconnaissance automatique de la parole à base de ressources linguistiques accessibles sur le Web</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 15:11</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Hayoung SEO</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le système de reconnaissance automatique de la parole d’aujourd’hui a atteint un niveau significatif avec les avancées technologiques. Cependant, les ressources linguistiques à grande échelle constituant les modèles linguistiques tels que modèle de prononciation pour améliorer la qualité de ce système ne peuvent être appréciées que par les langues les plus économiquement réalisables. Répondre à ces problèmes dépendants des ressources linguistiques est l’un des défis majeurs dans le domaine de la reconnaissance vocale. Ce mémoire a donc pour l’objectif de proposer une méthode de développement rapide et pertinent de modèle de prononciation à l’aide de Phonetisaurus, un convertisseur Grapheme to-phoneme (G2P), s’appuyant sur l’ensemble des dictionnaires accessibles sur le Web afin de capitaliser le dictionnaire de prononciation de qualité. Nous utiliserons Wiktionnaire, un dictionnaire multilingue accessible sur le Web, et Lexique4linguists, une base de données lexicale du français. Ensuite, nous comparons ces dictionnaires avec un autre dictionnaire de prononciation, qui est le résultat de la prédiction d’un modèle de phonétisation existant, et corrigeons le résultat de la prédiction avec une connaissance phonologique et un effort humain minimal. Enfin, en répartissant l’ensemble des trois dictionnaires, nous entraînons trois modèles de phonétisation et les évaluons avec notre méthode d’évaluation WPER (Weighted Phoneme Error Rate) basée sur l’algorithme de Weighted Levenshtein. Nous avons obtenu un modèle grapheme-to-phoneme avec une performance de 97,88 % d’accuracy.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2622" hreflang="fr">dictionnaire de prononciation</a></div> <div class="field__item"><a href="/taxonomy/term/2623" hreflang="fr">weighted-levenshtein</a></div> <div class="field__item"><a href="/taxonomy/term/2267" hreflang="fr">reconnaissance automatique de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2624" hreflang="fr">phonetisaurus</a></div> <div class="field__item"><a href="/taxonomy/term/2625" hreflang="fr">g2p</a></div> <div class="field__item"><a href="/taxonomy/term/2626" hreflang="fr">per</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/SEO.pdf" type="application/pdf">SEO.pdf</a></span> </div> </div> Tue, 10 Oct 2023 13:11:11 +0000 gestionnaire 738 at https://ertim.inalco.fr Étude de la pertinence des évaluations des systèmes de reconnaissance automatique de la parole https://ertim.inalco.fr/node/721 <span class="field field--name-title field--type-string field--label-hidden">Étude de la pertinence des évaluations des systèmes de reconnaissance automatique de la parole</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mer 03/02/2021 - 15:38</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Lucie Warckol</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2020</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">La Reconnaissance Automatique de la Parole est devenue un outil incontournable dans les nouvelles technologies, et elle est de plus en plus utilisée dans des applications quotidiennes (automobile, domotique, aviation, administration, médical . . . ). Ces applications étant de plus en plus pointues, spécifiques, exigeantes, les modèles de RAP doivent s’adapter pour accompagner cette évolution. Pour les rendre plus sophistiqués et plus robustes sont utilisées des méthodes d’évaluation qui doivent elles aussi s’adapter. Ce mémoire a pour objet d’étudier la pertinence de ces méthodes d’évaluation. À travers l’état de l’art sont d’abord décrits les principaux modèles de RAP, les traditionnels et les modernes, ainsi que les principales méthodes d’évaluation correspondantes. Ensuite l’outil Kaldi a été testé sur deux corpus. Mais l’expérience a mis en évidence la complexité du processus, et ses résultats n’ont pas été probants. En conclusion, les méthodes d’évaluation présentent encore des faiblesses (formatage des chiffres, entités nommées et ponctuation ...) face aux applications<br /> d’aujourd’hui, mais la démocratisation des processus et le développement des techniques d’optimisation contribuent à leur perfectionnement.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2267" hreflang="fr">reconnaissance automatique de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2680" hreflang="fr">méthodes d’évaluation des systèmes de RAP</a></div> <div class="field__item"><a href="/taxonomy/term/2667" hreflang="fr">Kaldi</a></div> <div class="field__item"><a href="/taxonomy/term/2681" hreflang="fr">WER </a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/WARCKOL_Lucie_2020.pdf" type="application/pdf">WARCKOL_Lucie_2020.pdf</a></span> </div> </div> Wed, 03 Feb 2021 14:38:38 +0000 gestionnaire 721 at https://ertim.inalco.fr Mise en place d’un système robuste de reconnaissance automatique de la parole appliqué au domaine médical https://ertim.inalco.fr/node/717 <span class="field field--name-title field--type-string field--label-hidden">Mise en place d’un système robuste de reconnaissance automatique de la parole appliqué au domaine médical</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 02/02/2021 - 11:54</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Lucía Ormaechea Grijalba </div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2020</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le bon fonctionnement des systèmes de reconnaissance automatique de la parole s’avère un défi complexe dans le contexte de la traduction speech-to-speech utilisée dans le domaine médical. Ce mémoire présente un travail de recherche qui vise à construire un système robuste de reconnaissance vocale dans le cadre du projet BabelDr, un outil de traduction vocale quasi instantanée qui a été mis en place dans les Hôpitaux Universitaires de Genève (HUG) afin de favoriser l’interaction médecin-patient lorsqu’aucune langue n’est partagée. Actuellement, sa technologie de reconnaissance de la parole est issue d’un système boîte noire fourni par une société privée. Le but principal de cette étude est de rompre la dépendance à un dispositif externe en se basant sur des outils libres et qui pourront évoluer selon les besoins des HUG. Pour cela, nous proposons un système de reconnaissance vocale pour le français appuyé sur la boîte à outils Kaldi. Celle-ci permet d’effectuer une transcription automatique en temps réel, utilisant des modèles acoustiques hybrides HMM-DNN et une modélisation linguistique adaptée au discours médical caractéristique du contexte d’urgences. À la lumière des résultats globaux observés, une importante amélioration est constatée par rapport à l’approche boîte noire précédemment utilisée.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2267" hreflang="fr">reconnaissance automatique de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2665" hreflang="fr">modélisation acoustique</a></div> <div class="field__item"><a href="/taxonomy/term/2666" hreflang="fr">modélisation linguistique</a></div> <div class="field__item"><a href="/taxonomy/term/2667" hreflang="fr">Kaldi</a></div> <div class="field__item"><a href="/taxonomy/term/2668" hreflang="fr">BabelDr</a></div> <div class="field__item"><a href="/taxonomy/term/2669" hreflang="fr">traduction vocale quasi instantanée</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/memoireormaechea.pdf" type="application/pdf">memoireormaechea.pdf</a></span> </div> </div> Tue, 02 Feb 2021 10:54:09 +0000 gestionnaire 717 at https://ertim.inalco.fr Modèle de reconnaissance statistique pour le turc oral https://ertim.inalco.fr/node/596 <span class="field field--name-title field--type-string field--label-hidden">Modèle de reconnaissance statistique pour le turc oral</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Kristina est un agent social capable d&#039;interagir avec les humains. Le système ASR a besoin de trois modèles: modèle de langage modèle acoustique et lexique de prononciation. Le but du travail est de collecter des données en ligne et de trouver les meilleures données pour KRISTINA. Nous utilisons deux façons différentes de comparaison: selection par perplexité et par recherche de l&#039;information.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2412" hreflang="fr">traitement de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2267" hreflang="fr">reconnaissance automatique de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2413" hreflang="fr">modèle de langage</a></div> <div class="field__item"><a href="/taxonomy/term/2414" hreflang="fr">recherche de l&#039;information</a></div> <div class="field__item"><a href="/taxonomy/term/1927" hreflang="fr">turc</a></div> <div class="field__item"><a href="/taxonomy/term/2036" hreflang="fr">polonais</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 596 at https://ertim.inalco.fr Études lexico-morphosyntaxique des erreurs des systèmes de reconnaissance de la parole https://ertim.inalco.fr/node/559 <span class="field field--name-title field--type-string field--label-hidden">Études lexico-morphosyntaxique des erreurs des systèmes de reconnaissance de la parole</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Goryainova</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2013</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le mémoire porte sur les études lexico-morphosyntaxiques des erreurs de système de reconnaissance de la parole. Le travail effectué consiste en différentes analyses des erreurs de transcription automatique de la parole. Les analyses en question représentent notamment une étude lexicale et morphosyntaxique des mots se trouvant dans les zones d&#039;erreur de la transcription, dans le contexte gauche et le contexte droit. De même l&#039;analyse lexicale a été réalisée sur les cas de substitution de mots dans des zones d&#039;erreur. Ces analyses ont été complétées par le calcul de la distance d&#039;édition des zones d&#039;erreur. Au final, l&#039;analyse lexicale et morphosyntaxique a été appliquée sur le corpus supplémentaire qui était annoté par des humains au niveau de gravité d&#039;erreur.<br /> <br /> Les résultats révélés ont été comparés avec ceux qui étaient observés dans des articles mentionnés.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2267" hreflang="fr">reconnaissance automatique de la parole</a></div> <div class="field__item"><a href="/taxonomy/term/2268" hreflang="fr">erreurs de transcription automatique</a></div> <div class="field__item"><a href="/taxonomy/term/2269" hreflang="fr">analyse lexicale et morphosyntaxique</a></div> <div class="field__item"><a href="/taxonomy/term/2270" hreflang="fr">analyse statistique</a></div> <div class="field__item"><a href="/taxonomy/term/2271" hreflang="fr">distance d&#039;édition</a></div> <div class="field__item"><a href="/taxonomy/term/2272" hreflang="fr">zone d&#039;erreur</a></div> <div class="field__item"><a href="/taxonomy/term/2273" hreflang="fr">gravité d&#039;erreur.</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 559 at https://ertim.inalco.fr