Conception et réalisation d’une approche d’indexation conceptuel le des documents semi-structurés XML.

Loading...
Thumbnail Image

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Notre travail dans ce mémoire s’intègre dans la problématique de la recherche d’information (RI) dans des documents semi-structurés (RIS) de type XML (XML est le format standard de représentation et d’échange des documents semi structurés sur le web). Traditionnellement, la RI permet de retrouver des documents pertinents pour une requête utilisateur en comparant, dans un processus d’appariement, leurs représentations respectives construites en amont, à l’issue d’un processus dit l’indexation. La RIS combine des aspects de la RI traditionnelle, qui traite des documents « plats » ou non structurés, à des aspects plus spécifiques qui traitent des documents structurés en tenta compte de leur structure en plus de leur contenu. En RI traditionnelle, l’unité de recherche pertinente correspond à un élément (paragraphe, section, titre,…) dans le document. La granularité de la recherche XML est ainsi plus fine qu’en RI traditionnelle. La prise en compte de la structure a amené de nouvelles problématiques et de nouveaux défis à différents niveaux de la RI : . Au niveau de l’indexation/appariement : l’indexation des documents XML doit tenir compte de la structure et du contenu des documents XML tout en gérant le lien entre les deux. . Au niveau de l’interrogation : les langages des requêtes permettent à l’utilisateur d’interroger les documents semi-structurés. D’une manière générale, ces langages de requêtes doivent supporter à la fois des contraintes portant sur le contenu et la structure. Nous nous intéressons dans le cadre de notre travail à l’indexation des documents XML. Nous nous focalisons en particulier sur l’indexation du contenu des documents XML. En effet dans la RIS, la majorité des approches de recherche d’information sont basées sur des mots clés où l’élément d’un document et la requête sont représentés par une liste de mots clés, généralement pondérés. L’appariement document-requête est basé sur le nombre de mots clés qu’ils ont en commun. L’indexation par des mots clés est généralement imprécise. Cette imprécision est due à l’ambigüité sémantique des mots du langage naturel. En effet, un même mot peut posséder plusieurs sens et différents mots peuvent avoir une même signification. De ce fait des éléments du document bien qu’ils soient pertinents et contenant des mots sémantiquement équivalent mais lexicalement différents (synonymes) des mots de la requête, ne seront pas retrouvés. Par ailleurs, des éléments non pertinents, contenant des mots lexicalement identiques mais sémantiquement différents (homonymes) des mots de la requête seront retournés à l’utilisateur. Une solution pour palier aux limites de l’indexation à base de mots clés est l’indexation par les sens des mots (ou concepts). C’est l’indexation sémantique(ou conceptuelle). Contrairement aux systèmes classiques à base de mots clés, dans une représentation conceptuelle l’appariement document-requête se fait via des concepts similaires mais pas nécessairement « identiques ». La RI sémantique ou conceptuelle est caractérisée par l’utilisation des ressources sémantique (thésaurus, ontologies, etc.…) dans la phase d’indexation et de recherche. Organisation de la thèse : Notre mémoire est articulé sur quatre chapitres : Les deux premiers chapitres présentent respectivement les méthodes et concepts fondamentaux de la RI classique et de la RI semi-structurée. Nous y avons introduit en particulier les concepts fondamentaux de la RI sémantique et les différentes approches. Le troisième chapitre présente l’approche de RIS conceptuelle. Nous proposons d’implémenter cette approche Le quatrième chapitre est dédié à la représentation que nous avons réalisée en vue de l’évaluation de l’approche implémentée et des résultats obtenu à l’issue de cette évaluation. Ce mémoire se termine par une conclusion et des perspectives

Description

68 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Recherche d'information, XML, UML, Requetes

Citation

Ingénieurie Des Systémes D'Information