Conception et réalisation d’une approche d’indexation des documents XML par DataGuide et fichier inverse

Loading...
Thumbnail Image

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Notre travail dans ce memoire se situe dans le contexte de la recherche d'information(RI) dans les documents semi-structures (RIS) de type XML. La RI traditionnelle traite des documents non-structures ou l'unite de recherche pertinente correspond a un document dans sa globalite contrairement a la RIS ou l'unite de recherche est variable et correspond a un element (paragraphe, section, titre¡K) dans le document. La granularite de la recherche XML est ainsi plus fine qu'en RI traditionnelle. La prise en compte de la structure a amene de nouvelles problematiques et de nouveaux defis a differents niveaux de la RI : - Au niveau de l'indexation/appariement : l'indexation des documents XML doit tenir compte de la structure et du contenu des documents XML tout en gerant le lien entre les deux. - Au niveau de l'interrogation : les langages des requetes permettent a l'utilisateur d'interroger les documents semi-structures. Ces langage de requete doivent supporter a la fois des contraintes portant sur la structure et le contenu. Nous nous interessons dans notre travail au probleme de l'indexation des documents semi-structures et plus particulierement a la representation des index. Les structures de donnees utilisees en RI classique pour la representation des index sont le fichier inverse et le fichier de signature. Ces structures de donnees sont utilisees pour representer l'index de contenu, elles ne prennent pas en charge l'information structurelle. Pour l'indexation de la structure des documents, de nouvelles structures d'index on tete proposees dont la plus performante est sans doute le DataGuide. Le DataGuide est une representation compacte de la structure des documents d'une collection. Les approches d'indexation des documents semi-structures sont ainsi basees sur l'utilisation conjointe d'un index de contenu (generalement le fichier inverse) et d'un index de structure (le DataGuide). Neanmoins les approches existantes ne resolvent que partiellement la problematique, car elles ne conservent pas un lien fort entre l'index de la structure et celui du contenu, ce qui degrade la performance du SRI. Dans notre travail, nous proposons une approche d'indexation de documents XML basee sur l'utilisation conjointe du fichier inverse et du DataGuide. Cette approche preserve un lien fort entre l'index de la structure est celui du contenu par un lien virtuel cree au moment de l'indexation via une signature virtuelle. Cette approche est fondee sur trois etapes : h Une premiere etape qui permet l'indexation de la structure des documents avec un DataGuide. h La seconde etape permet de construire le fichier inverse qui contient l'index de contenu. h Une troisieme etape permettant de relier l'index de contenue a celui de la structure avec une signature virtuelle. Notre memoire est articule sur 4 chapitres principaux : L'objectif du premier chapitre est de presenter les methodes, modeles et concepts fondamentaux de la RI . classique .. Dans le second chapitre nous presentons les modeles et algorithmes fondamentaux utilises en recherche d'information semi-structuree. Le troisieme chapitre introduit notre une approche d'indexation pour la recherche des documents semi-structures de type XML basee sur l'utilisation conjointe d'un index de structure (la DataGuide) et d'un index de contenu (le fichier inverse), tout en preservant le lien entre les deux via une signature virtuelle. Le quatrieme chapitre presente les resultats de l'evaluation de notre approche sur la collection INEX 2009.

Description

68 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Recherche d'information, XML, Data guide, Indexation

Citation

Conduite De Projets Informatiques