Implémentation et évaluation d’une approche de RI basée sur la position du terme .

Loading...
Thumbnail Image

Date

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

La plupart des modèles de RI se basent généralement sur la combinaison de trois facteurs dans leur fonction de pondération, qui sont : la fréquence du terme dans le document (TF), la fréquence du terme dans la collection (ou l'IDF) et la taille du document. Quelques approches ont proposé d'intégrer la position du terme dans le document dans l'objectif de surpondérer les termes qui apparaissent au début du document. Dans ce travail, nous nous situons dans cette perspective. Nous proposons l'extension des modèles de RI suivants : TF_IDF et BM25 par un facteur basé sur les positions du terme dans les documents de la collection où il apparait. Précisément, en surpondérant le poids des termes qui apparaissent au début des documents. Cette idée est basée sur l'intuition suivante : " les auteurs des documents placent les termes les plus importants dans leurs premières parties ". Les résultats expérimentaux obtenus sur la collection de test TREC AP88, montrent que nos modèles étendus améliorent les deux modèles de base :TF_IDF et BM25.

Description

48 p. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Position du terme;, Modèles de base pour la RI ;, TF_IDF et BM25;, Pondération.

Citation

Ingénierie des systèmes d’information.