Recherche d’information sémantique dans les documents XML

Loading...
Thumbnail Image

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Avec le développement du web, les documents ont connu un véritable essor, ce qui a produit une variété dans son contenu (texte, images et son). Dans les systèmes de recherche d’information classiques, les documents sont considérés comme étant des unités atomiques indépendantes les unes des autres et constituées d’un ensemble de mots et de phrases. L’avènement de nouveaux standards de représentation des documents, et particulièrement XML, a poussé la communauté de RI à exploiter la richesse présente dans ces documents et à développer de nouveaux concepts pour l’indexation et l’interrogation du corpus XML, puisque XML tend à former la majorité des documents numériques mis à disposition des utilisateurs. La réponse fournie à l’utilisateur n’est plus un document entier mais des parties de document apportant une information pertinente à un besoin utilisateur, puisque les documents semi-structurés peuvent être représentés sous forme d’arbre, et le but est alors de trouver les sous-arbres de tailles minimales répondant à la requête. Dans un autre côté, les SRI classique reposent sur l’indexation par les mots clés des documents et requêtes, donc seuls les documents qui partagent les mots clés avec la requête sont renvoyés ce qui réduit la précision des résultats. L’indexation sémantique tente de pallier à ce problème par une représentation par concepts. L’objectif de notre mémoire est d’implémenter le modèle LSI qui permet la recherche sémantique dans les documents XML. Pour ce faire, on a utilisé le système XFIRM (XML Flexible Information Retrieval Model) qui repose sur : Un modèle de représentation des données générique, qui permet de modéliser des documents possédant des structures différentes ; Un langage de requête flexible, permettant à l’utilisateur d’exprimer son besoin selon divers degrés de précision, en exprimant ou non des conditions sur la structure des documents ; Un modèle de recherche basé sur une méthode de propagation de la pertinence.

Description

97 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Rrecherche d’information, XML, Indexation sémantique latente (LSI), Documents semi-structurés

Citation

Systéme Informatique