langue arabe https://ertim.inalco.fr/ fr Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux https://ertim.inalco.fr/node/594 <span class="field field--name-title field--type-string field--label-hidden">Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2016</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Ce travail aborde le sujet de la translittération et la lemmatisation de la langue arabe pour l’analyse des sentiments des messages issues du web social. Nous avons développé un système de translittération à base de règles et contribué à l’amélioration du système de lemmatisation. Les règles morphologiques et grammaticales ont été implémentées sous forme d’une chaîne de traitement. Pour la translittération on s’est intéressé à l’arabizi, un arabe dialectal écrit en lettres latines, vers l’arabe en caractères standards. Pour pouvoir transcrire l’arabizi, on a besoin d’abord de l’identifier,ceci étant réalisé par un algorithme d’apprentissage automatique, à l’aide de l’outil Keras. La translittération et la lemmatisation sont des structures interconnectées qui sont exploitées pour le but final du projet, la détection des sentiments dans les documents issues de médias sociaux. L’approche de l’analyse des sentiments est réalisée par une méthode hybride reposant sur un lexique et de l’apprentissage automatique. La mesure d’évaluation des systèmes de translittération et de lemmatisation a été effectué avec la distance de Levenshtein. La performance du système est améliorée après chaque évaluation en définissant des règles plus précises et plus puissantes. Après toutes les expérimentations, nous avons atteint une de F-mesure de 75,23% pour la translitération, 93% pour la lemmatisation et 92% pour la détection des sentiments.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2406" hreflang="fr">translittération</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/2407" hreflang="fr">arabizi</a></div> <div class="field__item"><a href="/taxonomy/term/2408" hreflang="fr">analyse des sentiments</a></div> <div class="field__item"><a href="/taxonomy/term/2409" hreflang="fr">distance de levenshtein</a></div> <div class="field__item"><a href="/taxonomy/term/2410" hreflang="fr">apprentissage automatique.</a></div> </div> </div> <div class="field field--name-field-document field--type-file field--label-above"> <div class="field__label">Fichier</div> <div class="field__item"> <span class="file file--mime-application-pdf file--application-pdf"> <a href="/sites/default/files/Memoire_M2_FEREDJ_Lilia.pdf" type="application/pdf">Memoire_M2_FEREDJ_Lilia.pdf</a></span> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 594 at https://ertim.inalco.fr Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale https://ertim.inalco.fr/node/156 <span class="field field--name-title field--type-string field--label-hidden">Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2003</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/2096" hreflang="fr">traitement automatique du langage naturel</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/2097" hreflang="fr">étiquetage grammatical</a></div> <div class="field__item"><a href="/taxonomy/term/2098" hreflang="fr">voyellation automatique</a></div> <div class="field__item"><a href="/taxonomy/term/1930" hreflang="fr">agglutination</a></div> <div class="field__item"><a href="/taxonomy/term/1965" hreflang="fr">ambiguïté</a></div> <div class="field__item"><a href="/taxonomy/term/2099" hreflang="fr">approche distributionnelle</a></div> <div class="field__item"><a href="/taxonomy/term/2100" hreflang="fr">analyse syntaxique</a></div> <div class="field__item"><a href="/taxonomy/term/1931" hreflang="fr">analyse morphologique</a></div> <div class="field__item"><a href="/taxonomy/term/1839" hreflang="fr">segmentation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 156 at https://ertim.inalco.fr Extraction d'une terminologie bilingue à partir d'un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux https://ertim.inalco.fr/node/101 <span class="field field--name-title field--type-string field--label-hidden">Extraction d&#039;une terminologie bilingue à partir d&#039;un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Maafa</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Arabeyes est un projet qui vise à produire, et à maintenir à jour, une distribution arabe du système Linux. Ceci nécessite d’importants efforts de traduction, et le développement d’outils logiciels spécifiques. L’objectif de notre travail est d’exploiter tous les travaux de traduction, réalisés dans le cadre de ce projet, afin d’extraire des ressources terminologiques anglais /arabe concernant la localisation des logiciels libres.<br /> <br /> La première étape du travail consiste à récupérer, et à filtrer, tous les fichiers contenant les traductions, puis ensuite regrouper les messages provenant de ces fichiers dans un seul corpus parallèle. Pour former une première liste de candidats termes bilingues, nous récupérons tous les messages susceptibles de contenir un seul terme, puis à l’aide d&#039;outils d’analyse morphosyntaxique, nous isolons, dans cette liste, les suites de mots correspondant aux catégories qui présentent plus d’intérêts terminologiques. <br /> <br /> La deuxième étape consiste à implémenter une méthode d’alignement basée sur le calcul des fréquences des cooccurrences. Cette technique d’alignement sera exploitée pour obtenir de nouveaux couples de candidats termes à partir du corpus. Pour filtrer les résultats, nous  comparons les catégories  des suites de mots obtenues, et nous gardons les couples de candidats termes qui se correspondent le plus</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1873" hreflang="fr">terminologie</a></div> <div class="field__item"><a href="/taxonomy/term/1874" hreflang="fr">système Linux</a></div> <div class="field__item"><a href="/taxonomy/term/1837" hreflang="fr">corpus parallèle</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/1866" hreflang="fr">localisation</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 101 at https://ertim.inalco.fr Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie. https://ertim.inalco.fr/node/91 <span class="field field--name-title field--type-string field--label-hidden">Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie.</span> <span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>Anonyme (non vérifié)</span></span> <span class="field field--name-created field--type-created field--label-hidden">ven 06/11/2020 - 00:00</span> <div class="field field--name-field-auteur field--type-string field--label-above"> <div class="field__label">Auteur</div> <div class="field__item">Ramdani</div> </div> <div class="field field--name-field-annee field--type-integer field--label-above"> <div class="field__label">Année</div> <div class="field__item">2006</div> </div> <div class="field field--name-field-abstract field--type-string-long field--label-above"> <div class="field__label">Résumé</div> <div class="field__item">Dans ce mémoire nous nous intéressons aux moteurs de recherche et plus particulièrement aux moteurs de recherche cross-lingues qui traitent la langue arabe.<br /> <br /> Nous décrivons également les méthodologies d’évaluation des systèmes de recherche d’information appliquées lors des campagnes d’évaluation de grande envergure.<br /> <br /> Par la suite nous procédons à l’évaluation de l’interrogation monolingue arabe d’un moteur de recherche cross-lingue développé par le LIC2M (Laboratoire d&#039;Ingénierie de la Connaissance Multimédia Multilingue, CEA-LIST), et nous proposons un certain nombre de suggestions pour améliorer les méthodes des campagnes d’évaluation existantes.</div> </div> <div class="field field--name-field-tags field--type-entity-reference field--label-above"> <div class="field__label">Mots-clés</div> <div class="field__items"> <div class="field__item"><a href="/taxonomy/term/1832" hreflang="fr">recherche d’information</a></div> <div class="field__item"><a href="/taxonomy/term/1833" hreflang="fr">moteur de recherche cross-lingue</a></div> <div class="field__item"><a href="/taxonomy/term/1834" hreflang="fr">langue arabe</a></div> <div class="field__item"><a href="/taxonomy/term/1835" hreflang="fr">campagnes dévaluation</a></div> <div class="field__item"><a href="/taxonomy/term/1836" hreflang="fr">critères de pertinence</a></div> </div> </div> Thu, 05 Nov 2020 23:00:00 +0000 Anonyme 91 at https://ertim.inalco.fr