Implémentation et évaluation d’une approche qui réduire les problèmes d’ambiguïté et de disparité des termes en recherche d’information

Loading...
Thumbnail Image

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Vue du nombre sans cesse croissant de documents électroniques disponibles sur Internet et dans les bases de données, retrouver des informations correspondant à un besoin est bien souvent considéré comme un processus cognitif très complexe, qui fait appel à de nombreux savoirs et se compose de diverses tâches, allant de la prise en compte du manque d'information jusqu'au traitement des données identifiées.Cette discipline est appelée Recherche d'Information (RI). Elle s'intéresse au développement des techniques et des outils qui permettent de retrouver une information intéressante afin de satisfaire un besoin en information, dite information pertinente. Ces outils sont appelés des Systèmes de Recherche d'Information (SRI). Ainsi, un SRI permet de sélectionner parmi un volume d'information, les informations pertinentes vis-à-vis d'un besoin en information. Dans ce système, ce dernier est exprimé sous forme de requête. Pour retrouver les documents pertinents vis-à-vis d'une requête, le SRI compare la représentation de cette requête à la représentation de chaque document. Cette comparaison est réalisée au moyen d'une fonction de correspondance (RetrievalStatus Value: RSV) et un score de pertinence est affecté à chaque document. Ces scores permettent de présenter à l'utilisateur les documents pertinents ordonnés. Les modèles de recherche et représentation d'information sont basés sur le processus de mise en correspondance entre la requête utilisateur et documents de la collection .Le mécanisme de recherche détermine alors sur la base de degré de pertinence supposé des documents, ceux qui répondent au besoin de l'utilisateur. De nombreux modèles et stratégies sont développés. Les modèles classiques, le modèle booléen, le modèle vectoriel et le modèle probabiliste sont fondés sur l'utilisation de théories mathématiques tant pour représentation des unités textuelles que pour le calcul de la pertinence des documents. Dans le processus d'indexation, l'ensemble des descripteurs ou mots clés représentent des documents, ce qu'on appelle une présentation par le sac des mots. Plusieurs méthodes en développements, parmi où on trouve celle prenant en compte la proximité entre les termes (des termes adjacents) et utilisation d'unité de présentation plus complexe (N-grammes). La difficulté pour l'utilisateur de formulée sa requête de recherche de manière efficace. Il a été montré que la faible pertinence des systèmes de recherche est du principalement a des requêtes mal formés.les termes d'une requête formuler peuvent avoir plusieurs sens, termes nulle ou une requête très courte. Notre travail s'inscrit dans le cadre de recherche d'information .Nous basons sur les deux points: (1) l'expansion de la requête automatique pour remédie le problème la disparité des termes (2) utilisation des mots composée comme unité d'indexe pour réduire problème d'ambiguïté. L'expansion de la requête :c'est l'approche la plus utilisée pour pallier le problème de disparité des termes en recherche d'information. Le rôle major de cette technique est la sélection des termes à ajouter à la requête (extension de la requête utilisateur. Notre travail s'intéresse à la technique réinjection de pertinence. Le choix de terme se base sur la relation de cooccurrence entre les termes de la requête initiale et les termes des premiers documents retournes par la première recherche. Traitement le problème d'ambiguïté : Pour résoudre ce problème, nous proposons une approche permettantune représentation plusprécisedes documents et des requête elle se base sur les termescomposés. Il est généralementsupposé queles termes composéssontmoins ambigusque les motssimples, et ils représententun sens plus précis. Nous avons expérimenté et évalué les approche proposée sur la plateforme terrier1.2 avec l'implémentation le modèle de langue mixte pour la recherche avec mot composée et le modèle Dirichlet pour la recherche avec terme simple et l'expansion, la collection de test TRC(WT10g) et les requêtes (Topic451-550). La première solution se base sur la expansion de requête d'utilisateur, pose le problème de disparité des termes, nous choisissons la technique l'expansion de requêtes automatique .L'amélioration relative à cette démarche a permis d'une part, de se focaliser sur le sens dominant de ces requêtes, d'améliorer la qualité des requêtes traduites et donc d'améliorer la qualité des résultats recensés La deuxième solution proposée. Cette représentation du contenu sémantique des documents est implémenté dans le but de remédie le problème d'ambiguïté. L'extraction des mots composés est basée sur l'utilisation de la relation de cooccurrence entre termes. Evaluation les deux solutions donnent des résultats très importante, dans chaque solution des améliorations remarquable. Les valeurs de la MAP s'améliorent d'une MAP à un autre la MAP, de la recherche classique par rapport à la recherche expansion terme simple d'une part. d'autre part la MA

Description

75 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

SRI, Expansion de requete, Net Beans, Java, Thésaurus

Citation

Systéme Informatique