Indexation sémantique latente de documents textuels

Loading...
Thumbnail Image

Date

2012

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Depuis l’essor de l’informatique, le volume d’information stockée électroniquement ne cesse de s’accroitre. Ce qui rend le besoin de disposer de systèmes permettant un accès intelligent à l’information de plus en plus indispensable. Les travaux présentés dans ce mémoire se situent dans le contexte générale de l’utilisation de la sémantique pour la représentation de l’information dans les systèmes de RI. Nous nous positionnons plus particulièrement dans le cadre de l’indexation sémantique latente. La première partie du mémoire consacrée à la présentation des principaux modèles de recherche et à la description du processus d’indexation a permis de dégager certaines limites de ces systèmes basées sur une indexation dite classique. En effet, dans ces systèmes, un document est sélectionné s’il contient les mêmes mots que ceux de la requête. Dans ces systèmes, un document contenant des termes de la requête et qui est non pertinent est retourné, alors qu’un document pertinent ne partageant pas des mots avec la requête est ignoré. De nombreuses activités ont été menées pour améliorer ces approches d’indexation classiques en incorporant la sémantique dans le processus de RI. Nous avons enchainé notre travaille avec l’étude de l’approche sémantique qui se base sur l’indexation par la sémantique latente qui résout les sens des mots par un clustering des mots sémantiquement proches via une technique de réduction de la dimensionnalité de la matrice termes-documents « SVD ». Les systèmes qui se basent sur cette approche sémantique permettent de fournir, en réponse à une requête de l’utilisateur un document se rattachant au même thème que la requête même s’il n’existe pas (ou peu) de mots communs entre l’un est l’autre. Nous avons présenté un état de l’art sur LSI, comme nous avons décrit quelques variantes de cette approche. Le principale apport de ce mémoire est l’intégration de l’approche LSI dans la plate forme de RI Terrier. Ainsi, nous avons testé notre approche sur la collection Time en utilisant le système LSI-Terrier résultant de l’intégration de LSI dans Terrier.

Description

81 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Recherche d’information, Indexation sémantique latente « LSI », décomposition en valeurs singulière « SVD », plateforme Terrier-3.5

Citation

Systéme Informatique