lda https://ertim.inalco.fr/ fr Détection automatique de l’innovation lexicale dans des corpus diachroniques https://ertim.inalco.fr/node/747 <span class="field field--name-title field--type-string field--label-hidden">Détection automatique de l’innovation lexicale dans des corpus diachroniques</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 16:24</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Solveig PODER</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2021</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le figement lexical est un phénomène central du langage et les expressions figées représentent une importante proportion du lexique de toute langue. Leur détection demeure un des enjeux du TAL. Après avoir effectué un résumé détaillé de l’état de l’art dans ce domaine, ce mémoire présente une méthode non supervisée permettant de détecter la formation de nouvelles expressions figées au sein de corpus diachroniques d’articles de presse en français. On utilisera un modèle LDA (allocation de Dirichlet latente) pour extraire les expressions les plus représentatives du corpus que l’on considèrera comme des candidats au figement. Puis, partant du principe établi par les linguistes qu’une expression est figée si ses termes n’admettent pas d’être remplacés par des synonymes, nous utiliserons des plongements de mots pour établir une liste d’expressions synonymes pour chaque expression candidate. Enfin, nous calculerons l’évolution au fil du corpus du taux d’apparition d’une expression par rapport à ses « synonymes » (nous dresserons automatiquement pour chaque candidat une liste de potentiels synonymes en remplaçant les mots de l’expression candidate par des mots dont la représentation en vecteur est similaire).</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2641" hreflang="fr">expressions polylexicales</a></div> <div class="field__item"><a href="/taxonomy/term/2040" hreflang="fr">collocations</a></div> <div class="field__item"><a href="/taxonomy/term/2643" hreflang="fr">figement lexical</a></div> <div class="field__item"><a href="/taxonomy/term/2545" hreflang="fr">lda</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/PODER_Solveig.pdf" type="application/pdf">PODER_Solveig.pdf</a></span> </div> </div> Tue, 10 Oct 2023 14:24:06 +0000 gestionnaire 747 at https://ertim.inalco.fr Application des méthodes de l’extraction de thématique sur un corpus homogène dans le domaine des parfums d’ambiance https://ertim.inalco.fr/node/631 <span class="field field--name-title field--type-string field--label-hidden">Application des méthodes de l’extraction de thématique sur un corpus homogène dans le domaine des parfums d’ambiance</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Boyu Niu</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2019</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Nous avons étudié deux méthodes pour faire l’extraction automatique de thématique : la Latent semantic Indexing (LSI, ou Latent Semantic Analysis, LSA) et la Latent Dirichlet Allocation (LDA). Elles ont été appliquées sur un corpus composé des commentaires des consommateurs britanniques dans le domaine des parfums d’ambiance. Comme ces commentaires sont assez courts et homogènes dans leur contenu, nous avons pris en considération ces particularités et expérimenté des stratégies de la sélection des traits linguistiques et du paramétrage pour essayer d’améliorer la performance de ces deux méthodes. Nous avons aussi étudié une méthode pour évaluer automatiquement la cohérence des thèmes extraits. Elle a été mise en pratique pour évaluer les résultats obtenus avec la LSI/LSA et la LDA.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2539" hreflang="fr">tal</a></div> <div class="field__item"><a href="/taxonomy/term/2540" hreflang="fr">extraction de thématique</a></div> <div class="field__item"><a href="/taxonomy/term/2541" hreflang="fr">analyse exploratoire du corpus</a></div> <div class="field__item"><a href="/taxonomy/term/2542" hreflang="fr">sélection des traits linguistiques</a></div> <div class="field__item"><a href="/taxonomy/term/2543" hreflang="fr">lsa</a></div> <div class="field__item"><a href="/taxonomy/term/2544" hreflang="fr">lsi</a></div> <div class="field__item"><a href="/taxonomy/term/2545" hreflang="fr">lda</a></div> <div class="field__item"><a href="/taxonomy/term/2546" hreflang="fr">mesures de cohérence</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 631 at https://ertim.inalco.fr