Implémentation et évaluation d’une approche de RI basée sur la position du terme .
Loading...
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université Mouloud Mammeri
Abstract
La plupart des modèles de RI se basent généralement sur la combinaison de trois
facteurs dans leur fonction de pondération, qui sont : la fréquence du terme dans le document (TF), la fréquence du terme dans la collection (ou l'IDF) et la taille du document. Quelques approches ont proposé d'intégrer la position du terme dans le document dans l'objectif de surpondérer les termes qui apparaissent au début du document. Dans ce travail, nous nous situons dans cette perspective. Nous proposons l'extension des modèles de RI suivants : TF_IDF et BM25 par un facteur basé sur les positions du terme dans les documents de la collection où il apparait. Précisément, en surpondérant le poids des termes qui apparaissent au début des documents. Cette idée est basée sur l'intuition suivante : " les auteurs des documents placent les termes les plus importants dans leurs premières parties ". Les résultats expérimentaux obtenus sur la collection de test TREC AP88, montrent que nos modèles étendus améliorent les deux modèles de base :TF_IDF et BM25.
Description
48 p. : ill. ; 30 cm. (+ CD-Rom)
Keywords
Position du terme;, Modèles de base pour la RI ;, TF_IDF et BM25;, Pondération.
Citation
Ingénierie des systèmes d’information.