Implémentation d’une méthode de calcul de pertinence à priori d’un document

Loading...
Thumbnail Image

Date

2012

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

L’information joue certainement un rôle essentiel dans la société d’information d’aujourd’hui et la croissance exponentielle de sa volumétrie et de son nombre potentiel d’utilisateurs entrainent de nouveaux défis scientifiques dans tous les domaines dont la tâche principale est la gestion de l’information. La Recherche d’Information (RI) est sans conteste l’un des domaines les plus concernés. En effet, l’objectif principal de la RI est de fournir des modèles techniques et des systèmes pour stocker, organiser des masses d’informations et sélectionner dans ces masses celles qui répondent à certains critères. D’énormes efforts ont été déployés pour développer des approches et des techniques permettant de retrouver l’information voulue effectivement et efficacement à partir de vastes collections de données textuelles. Cependant, en raison de la surabondance de l’information d’une part et de sa large accessibilité à travers notamment le Web, d’autre part, leur mise en oeuvre est confrontée à de nouveaux problèmes. En effet, retrouver au sein d’un corpus de documents volumineux et hétérogène, les seuls documents qui répondent précisément aux besoins des utilisateurs est devenu difficile car cette croissance accentue le retour de documents non pertinents pour l’utilisateur final. Parmi les limites des systèmes actuels de RI est la non prise en compte de toutes les dimensions d’un document lors du processus de l’indexation et de la recherche. Ce qui engendre beaucoup de bruits en réponse à une requête d’un utilisateur. Parmi ces dimensions on peut citer : la taille d’un document, la structure des liens, le type d’URL d’un document,…etc. Dans notre cas, la caractéristique qu’on va utiliser est le score de dissemblance d’un document par rapport à une collection de documents c’est-à-dire qu’un document qui est dissemblable au reste des documents de la collection est à priori plus pertinent. Par la suite, on va formaliser cette hypothèse dans le cadre du modèle de langage. L’objectif de notre projet est d’implémenter une méthode pour calculer la pertinence à priori d’un document par rapport à une collection de documents. Pour ce faire, on l’a partagé en trois chapitres : - Le premier chapitre comporte la présentation des différents concepts de base et principaux modèles de la Recherche d’Information. - Dans le second chapitre, on a définit la modélisation de langage et la notion de calcul de pertinence de documents dans la Recherche d’Information sur le Web. - Dans le troisième chapitre, on a exposé notre approche ainsi que son implémentation et évaluation sur deux collections de tests AP88 et WSJ90-92. On termine par une conclusion et les perspectives possibles envisagées dans le cadre de ce travail.

Description

110 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Recherche d'informartion, Modèle de langage, Notion de pertinence, Net beans

Citation

Systéme Informatique