Implémentation et évaluation d'une méthode de sélection de document pour l'expansion de requête sous la plateforme de RI terrier

Loading...
Thumbnail Image

Date

2012

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

L’objectif fondamental de la RI consiste à mettre en oeuvre un mécanisme d’appariement entre requête utilisateur et documents d’une base afin de restituer l’information pertinente, l’accès à l’information peut être effectué à travers un système de recherche d’information (SRI). L’objectif d’un système de recherche d’information est d’aiguiller la recherche dans le fond documentaire, en direction de l’information pertinente relativement à un besoin en information exprimé par une requête utilisateur. Il est souvent difficile, pour l’utilisateur, de formuler son besoin exact en information. Par conséquent, les résultats que lui fournit le SRI ne lui conviennent pas toujours. Retrouver des informations pertinentes en utilisant la seule requête initiale de l’utilisateur est très difficile, et ce à cause du volume croissant des bases documentaires. Afin de faire correspondre au mieux la pertinence utilisateur et la pertinence du système, une étape de reformulation de la requête est souvent utilisée. La requête initiale est traitée comme un essai pour retrouver de l’information. Les documents initialement présentés sont examinés et une formulation améliorée de la requête est construite, dans l’objectif de retrouver plus de documents pertinents. Notre travail se situe dans le contexte de la reformulation de requête plus particulièrement dans le cadre de réordonnancement des documents retournés avec la première requête formulée par l’utilisateur , en utilisant deux facteurs (la similarité et la taille du document) on considérant toujours que le score des documents de la première recherche comme une évidence. Ces documents ainsi réordonné vont être utilisés pour choisir les termes d’expansion. L’idée de l’approche proposée et implémentée est de combiner les résultats de la première recherche avec le facteur de similarité d’une part et avec la taille du document d’une autre part. Pour la réalisation et l’évaluation de nos expérimentations nous utilisons la plateforme de RI Terrier (détaillé en annexe). L’organisation retenue pour la présentation de notre travail et le domaine dans lequel il s’inscrit, s’articule en trois chapitres : Le premier chapitre présente les concepts et notions du domaine de la recherche d’information d’une manière générale. Le travail développé dans ce mémoire s’inscrit dans le cadre de la reformulation de requêtes, nous nous sommes particulièrement intéressés au réordonnancement des documents retournés dans la première recherche. Afin de sélectionner les documents susceptibles de répondre à une requête, un SRI évalue la pertinence d’un document vis-à-vis d’une requête , mais les documents retournés par le SRI, ne répondent pas toujours au besoin de l’utilisateur. Pour prendre en compte cette difficulté, des techniques de reformulation (expansion) de la requête sont utilisées, afin d’obtenir des requêtes optimales, le fait que pour sélectionner les bons termes à ajouter à la requête il faut au préalable choisir les bons documents dans lesquels on recherche les termes. Pour optimiser les résultats retournés on a proposé dans notre approche d’améliorer le processus de sélection de documents utilisés pour l’expansion en se basant sur deux facteurs : le premier porte sur la combinaison de la similarité des documents avec le score initial (le score des documents obtenus dans la première recherche) et le second porte sur la combinaison de la taille des documents avec le score initial. Dans notre approche nous avons utilisé le facteur de similarité calculé avec la mesure de cosinus proposé dans le modèle vectoriel, par ailleurs plusieurs formules sont dérivées par la combinaison de similarité, taille document et le score initial. Pour valider les formules proposées, nous les avons évalué en utilisant deux collections de test TREC (AP88, WSJ9092), sous de la plateforme de RI "Terrier" qui est un système de recherche robuste et efficace. L’évaluation de notre nouvelle approche a montré son impact positif sur les résultats de la recherche. Plus précisément, l’analyse des expérimentations révèlent des améliorations assez importantes de la précision moyenne (MAP) ce qui a confirmé la validité de cette approche. Il est également à noter que nos formules sont applicables sans avoir de restrictions sur des collections de documents précises.

Description

92 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Expansion, Document plat, Refomulation

Citation

Conduite De Projets Informatiques