recherche d’information

Proposition d’une visualisation interactive pour la plateforme LEOnard. Quel est l’apport de la visualisation aux analyses sémantiques ?

Résumé
Ce travail s’inscrit dans le projet Dataviz de la plateforme LEOnard qui consiste
en l’amélioration d’une interface de recherche basée sur la datavisualisation. Dans
le but de satisfaire une demande de présentation différente de l’information en mettant en relation des entités nommées en plus d’un affichage dynamique des relations
sémantiques et événements les impliquant.
La nouvelle Dataviz interactive et dynamique doit pouvoir présenter différents
aspects des données transformées grâce à des outils d’analyses sémantiques, à travers différentes visualisations. Malgré les différentes contraintes liées aux données
elles-mêmes ou à la conception. Nous verrons notamment dans ce travail comment
la visualisation permet de définir de nouvelles questions ou hypothèses à propos des
résultats issus de l’analyse sémantique qu’il aurait été difficile de remarquer autrement.

Détection et caractérisation d’événements dans des rapports de maintenance

Résumé
Dans un contexte d’exploitation des retours d’expérience à des fins préventives, ce travail porte sur la détection de la réalisation d’événements dans des rapports de maintenance. Partant du constat qu’une simple recherche par mots-clés ne suffit à détecter leur réalisation, la chaîne de traitement présentée intègre des méthodes symboliques. Elle se concentre sur le problème du traitement de mention d’événements non-accomplis (négations et futur), ainsi que celui de la construction de ressources terminologiques (sous forme d’ontologie) adaptées à ces textes non formalisés. Ce travail porte également sur l’apport possible de méthodes statistiques en utilisant notamment l’apprentissage automatique pour la classification de ces événements selon un critère lié à l’anticipation des actions de maintenance.

L’analyse textuelle de corpus de discours écologiques relatifs au smog épais en Chine au moyen d’outils informatiques de text mining

Résumé
La dégradation de l’environnement surtout celle atmosphérique, qui résulte du développement industriel rapide de Chine, suscite l’attention générale de la société chinoise. Du fait que cette pollution de l’air est au détriment de tous les côtés de la vie quotidienne, et qu’elle affecte une zone très étendue en Chine, toute la société y prête leur attention, du milieu gouvernemental au peuple chinois. Dès lors, l’expression «雾wù霾 maí»(le brouillard de pollution) est devenu un mot-clé qui apparaît fréquemment sur les sites web de types divers. On discute de l’origine du smog épais en Chine à ses nocivités de cet air polluant sur la santé humaine et sur différents aspects de la vie courante. Ayant pour objectif de comparer et d’extraire les attitudes et les réactions différentes du gouvernement chinois et du grand public, à l’aide des outils informatiques, notre recherche vise à recueillir d’abord en grande quantité les textes publiés sur deux types de sites web chinois [1]: institutionnel et médiatique, puis catégoriser les textes en fonction de leur nature [2] et subdiviser ces textes encore à l’intérieur de chaque catégorie : les sous-type selon les rubriques que les textes subordonnent. Dans un second temps, à partir du corpus classé et basé sur le wù maí comme mot-clé, on analyse et compare entre les sous-corpus et entre les sous-types homogènes, les deux types de discours au niveau de la fréquence, de la cooccurrence et de la concordance du mot-clé. Quant à la conclusion, les caractéristiques manifestées par les trois sous-corpus montrent les différences des attitudes et des réactions du milieu gouvernemental et du grand public en Chine : le gouvernement met l’accent sur ses actions et mesures prises sur le problème wù maí, alors que le peuple chinois s’intéresse plutôt « D’où vient le smog épais ? » « Quelles sont les nocivités liées au smog épais dans la vie courante ? » « Comment se protéger contre le brouillard quotidiennement ? ».

Filtrage sémantique et visualisation de données textuelles

Résumé
Ce travail porte sur la question de la visualisation thématique en recherche d’informations. Dans un contexte de plus en plus prégnant de circulation d’informations et face à d’importants flux de données il convient de synthétiser l’information. A plus forte raison garantir un accès rapide et pertinent à l’information peut devenir délicat lorsque c’est un utilisateur qui définit le thème recherché. Nous proposons une approche par croisement de thèmes "simples" pour définir une thématique "complexe". Nous abordons ensuite un système d’enrichissement thématique basé sur des coefficients de similarité. Enfin nous traitons de la visualisation de données en nous appuyant sur les entités nommées contenues dans la thématique détectée . On considérera ici qu’un utilisateur peut obtenir une réponse à une information recherchée grâce à la synthèse visuelle d’entités nommées issues de la détection de thème.

La segmentation pour la recherche d'information et/ou l'extraction d'information en langue chinoise avec l'outil Mecab

Résumé
La segmentation reste toujours un défi pour le traitement automatique du chinois. Cette tâche est également le point de départ d' autres traitements sophistiqués. Dans cette recherche, nous aborderons la question de la meilleure segmentation à l’aide de modèles divers. Ensuite, nous utiliserons ce modèle de la meilleure segmentation pour entraîner le Sinequa ES (moteur de recherche). Puis, nous évaluerons la pertinence de la recherche d’information. Enfin, nous effectuerons une comparaison de ce résultat avec la pertinence de la recherche d’information basée sur un modèle précédent.

Etude sur l’indexation automatique de documents dans un contexte de recherche d’information à caractère sensible

Résumé
L’accroissement incessant des documents pouvant être accessibles aux utilisateurs rend les techniques de Recherche Documentaire (RD) toujours plus perfectibles et souvent exigeantes en ressources linguistiques et en traitements spécifiques. Par ailleurs, il est couramment admis que les outils de TAL pour la Recherche Documentaire requièrent de vastes connaissances linguistiques.

Nous étudierons en première partie, les techniques et méthodes actuelles souvent utilisées dans le domaine de la recherche d’information. Dans une deuxième partie, nous tenterons de montrer l’intérêt d’une lemmatisation tout en discutant les avantages et les inconvénients d’une telle méthode à travers différentes langues indo‑européennes et non indo‑européennes.

Enfin, dans une troisième et dernière partie nous dégagerons les méthodes adaptées à la spécificité du travail de la DST, où nous avons effectué notre stage. Nous présenterons dans une étude de faisabilité, l’enrichissement de l’indexeur Mnogosearch grâce à l’optimisation de la pertinence des requêtes et la recherche d’améliorations linguistiques. Ainsi, nous analyserons les performances linguistiques relevant de la technique de lemmatisation appliquée à un modèle statistique, compte tenu du caractère sensible des documents. Cette étude nous mènera à construire un prototype simple illustrant la méthode choisie.

Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie.

Résumé
Dans ce mémoire nous nous intéressons aux moteurs de recherche et plus particulièrement aux moteurs de recherche cross-lingues qui traitent la langue arabe.

Nous décrivons également les méthodologies d’évaluation des systèmes de recherche d’information appliquées lors des campagnes d’évaluation de grande envergure.

Par la suite nous procédons à l’évaluation de l’interrogation monolingue arabe d’un moteur de recherche cross-lingue développé par le LIC2M (Laboratoire d'Ingénierie de la Connaissance Multimédia Multilingue, CEA-LIST), et nous proposons un certain nombre de suggestions pour améliorer les méthodes des campagnes d’évaluation existantes.