presse https://ertim.inalco.fr/ fr Panorama sur la représentation des genres dans la presse française Une nouvelle approche basée sur l’Entity Linking https://ertim.inalco.fr/node/737 <span class="field field--name-title field--type-string field--label-hidden">Panorama sur la représentation des genres dans la presse française Une nouvelle approche basée sur l’Entity Linking</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">mar 10/10/2023 - 15:06</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Elodie PHOMMADY</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">De nos jours, les médias ont indéniablement une influence sur nos sociétés, et inversement. De nombreux travaux ont mis l’accent sur les inégalités de genre, en particulier au sujet de la sous représentation médiatique des femmes par rapport aux hommes, en abordant le genre comme un concept binaire. Les autres identités de genre sont encore très peu incluses dans les problématiques étudiées, notamment en TAL. Nous proposons dans ce mémoire une méthode d’analyse de la représentation d’un éventail plus large de genres (féminin, masculin, nonbinaire, gender queer, gender fluid, trans) dans un vaste corpus de presse française, basée sur de la liaison d’entités mentionnées dans les articles (Entity Linking). Cette démarche présente des avantages, elle permet par exemple de traiter automatiquement un volume de données important, ou encore de prendre en compte cette diversité de genres. Elle fait cependant face à la complexité de la problématique, autant d’un point de vue sociologique que TAL. Les résultats obtenus confirment une sous-représentation des genres minoritaires, dans la presse comme dans les méthodes et ressources (bases de connaissance), face à laquelle quelques pistes de travail sont proposées.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2618" hreflang="fr">entity linking</a></div> <div class="field__item"><a href="/taxonomy/term/2619" hreflang="fr">dbpedia spotlight</a></div> <div class="field__item"><a href="/taxonomy/term/2620" hreflang="fr">identité de genre</a></div> <div class="field__item"><a href="/taxonomy/term/2621" hreflang="fr">représentation des genres</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/2013" hreflang="fr">français</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/PHOMMADY_Elodie.pdf" type="application/pdf">PHOMMADY_Elodie.pdf</a></span> </div> </div> Tue, 10 Oct 2023 13:06:47 +0000 gestionnaire 737 at https://ertim.inalco.fr Une application d’algorithmes de densité pour la détection de citations en paraphrase https://ertim.inalco.fr/node/731 <span class="field field--name-title field--type-string field--label-hidden">Une application d’algorithmes de densité pour la détection de citations en paraphrase</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>gestionnaire</span></span> <span class="field field--name-created field--type-created field--label-hidden">lun 09/10/2023 - 16:19</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Noélie BOTTERO</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2022</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail porte sur la détection de reprises de citations d&#039;un corpus issu de la presse française, sur le thème de la guerre en Ukraine. Nous utilisons des méthodes de clusterisation par densité afin de repérer les citations identiques et similaires. Nous avons choisi d&#039;utiliser les algorithmes OPTICS et DBSCAN qui permettent de regrouper des formes textuelles similaires sans avoir au préalable de données annotées. Cette application permet également de questionner l&#039;importance du traitement en amont du contenu textuel, de quantifier les performances du modèle et de comparer les résultats des différentes clusterisations. Nous constatons que l&#039;algorithme OPTICS surpasse DBSCAN en termes de scores. La continuité de ce travail serait d&#039;une part, de pouvoir ordonner les citations de manière temporelle, de pouvoir les suivre dans la presse et d&#039;autre part, une aide à l&#039;annotation manuelle.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2593" hreflang="fr">clustering par densité</a></div> <div class="field__item"><a href="/taxonomy/term/2394" hreflang="fr">citations</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/2594" hreflang="fr">dbscan</a></div> <div class="field__item"><a href="/taxonomy/term/2595" hreflang="fr">optics</a></div> <div class="field__item"><a href="/taxonomy/term/2596" hreflang="fr">tfidf</a></div> <div class="field__item"><a href="/taxonomy/term/2597" hreflang="fr">word2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2527" hreflang="fr">doc2vec</a></div> <div class="field__item"><a href="/taxonomy/term/2598" hreflang="fr">scikit-learn</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/BOTTERO.pdf" type="application/pdf">BOTTERO.pdf</a></span> </div> </div> Mon, 09 Oct 2023 14:19:36 +0000 gestionnaire 731 at https://ertim.inalco.fr Extraction de citations dans le domaine de la presse avec la résolution d’anaphores https://ertim.inalco.fr/node/591 <span class="field field--name-title field--type-string field--label-hidden">Extraction de citations dans le domaine de la presse avec la résolution d’anaphores</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2393" hreflang="fr">extraction d’informations</a></div> <div class="field__item"><a href="/taxonomy/term/1951" hreflang="fr">fouille de texte</a></div> <div class="field__item"><a href="/taxonomy/term/2394" hreflang="fr">citations</a></div> <div class="field__item"><a href="/taxonomy/term/2395" hreflang="fr">anaphores</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/MemoireLucilleBlanchard_ExtractionCitations.pdf" type="application/pdf">MemoireLucilleBlanchard_ExtractionCitations.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 591 at https://ertim.inalco.fr Terminologie ponctuelle – De la « Feuille de route » à la « hudna » : la guerre des mots https://ertim.inalco.fr/node/157 <span class="field field--name-title field--type-string field--label-hidden">Terminologie ponctuelle – De la « Feuille de route » à la « hudna » : la guerre des mots</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Le concept d’un processus de paix pour régler le conflit israélo-palestinien n’es pas récent, et pourtant, l’analyse des documents officiels liés à la « feuille de route », le dernier plan de paix international révèle une nouvelle terminologie : « feuille de route », « quatuor », « hudna », « intifada »… Le choix des termes n’est pas innocent et révèle la pensée profonde de ceux qui les utilisent. Dans ce conflit, la guerre des mots qui a lieu dans les médias est aussi importante que celle que les deux parties se livrent sur le terrain. La « hudna » n’est pas une simple « trêve », de même que le mot « intifada » ne signifie plus « guerre des pierres ». Si le sens réel de ces emprunts à l’arabe est difficilement perceptible pour nos consciences occidentales, quelle idéologie cachent-ils ? Qu’en est-il pour le traducteur, dont l’art repose sur le choix du terme juste ? Autant de questions auxquelles la terminologie ponctuelle tente de répondre.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2041" hreflang="fr">terme</a></div> <div class="field__item"><a href="/taxonomy/term/2101" hreflang="fr">contexte</a></div> <div class="field__item"><a href="/taxonomy/term/2102" hreflang="fr">emprunt</a></div> <div class="field__item"><a href="/taxonomy/term/2103" hreflang="fr">feuille de route</a></div> <div class="field__item"><a href="/taxonomy/term/2104" hreflang="fr">quatuor</a></div> <div class="field__item"><a href="/taxonomy/term/2105" hreflang="fr">hudna</a></div> <div class="field__item"><a href="/taxonomy/term/2106" hreflang="fr">intifada</a></div> <div class="field__item"><a href="/taxonomy/term/2107" hreflang="fr">jihad</a></div> <div class="field__item"><a href="/taxonomy/term/2108" hreflang="fr">mujahidin</a></div> <div class="field__item"><a href="/taxonomy/term/2109" hreflang="fr">barrière de sécurité</a></div> <div class="field__item"><a href="/taxonomy/term/2110" hreflang="fr">mur</a></div> <div class="field__item"><a href="/taxonomy/term/2111" hreflang="fr">idéologie</a></div> <div class="field__item"><a href="/taxonomy/term/2112" hreflang="fr">mot</a></div> <div class="field__item"><a href="/taxonomy/term/2113" hreflang="fr">arabe</a></div> <div class="field__item"><a href="/taxonomy/term/2114" hreflang="fr">hébreu</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/2115" hreflang="fr">multilingue</a></div> <div class="field__item"><a href="/taxonomy/term/2116" hreflang="fr">médias</a></div> <div class="field__item"><a href="/taxonomy/term/2117" hreflang="fr">informations</a></div> <div class="field__item"><a href="/taxonomy/term/2118" hreflang="fr">désinformation</a></div> <div class="field__item"><a href="/taxonomy/term/1873" hreflang="fr">terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/2119" hreflang="fr">lexique</a></div> <div class="field__item"><a href="/taxonomy/term/2033" hreflang="fr">néologisme</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 157 at https://ertim.inalco.fr Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde » https://ertim.inalco.fr/node/94 <span class="field field--name-title field--type-string field--label-hidden">Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Semenova</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal &quot;Le Monde&quot;.<br /> <br /> Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1843" hreflang="fr">corpus</a></div> <div class="field__item"><a href="/taxonomy/term/1844" hreflang="fr">presse</a></div> <div class="field__item"><a href="/taxonomy/term/1845" hreflang="fr">textométrie</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> <div class="field__item"><a href="/taxonomy/term/1846" hreflang="fr">Lexico 3</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 94 at https://ertim.inalco.fr