Extension d’un modèle de recherche d’information pour la prise en compte de la représentation de type wordmbedding

Loading...
Thumbnail Image

Date

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Avec l'augmentation rapide du volume documentaire stocké sous format numérique ; et l'avènement du web, la quantité d'information disponible ne cesse de croitre au cours de ces dernières années, il est devenue alors très difficile de trouver une information ou un document qui répond a un besoin utilisateur.il a fallu donc envisager le développement des outils automatique qui permettent l'accès ciblé et efficace à cette masse donnée. Ces difficultés ont donné naissance à une nouvelle discipline appelée Recherche d'Information. La Recherche d'Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin en informations. Le défi est de pouvoir, parmi le volume important de documents disponibles, trouver ceux qui correspondent au mieux à l'attente de l'utilisateur. L'opération de la RI est réalisée par des outils informatiques appelés Systèmes de Recherche d'Information (SRI), ces systèmes ont pour but de mettre en correspondance une représentation du besoin de l'utilisateur (requête) avec une représentation du contenu des documents au moyen d'une fonction de comparaison (ou de correspondance). L'essor du web a remis la RI face à de nouveaux défis d'accès à l'information, il s'agit cette fois de retrouver une information pertinente dans un espace diversifié et de taille considérable. Nous travail se focalise sur le domaine de la recherche d'information (RI), précisément dans l'extension du modèle de recherche d'information qui consiste à reclasser les documents obtenus lors de la recherche simple, ceci à fin d'obtenir des résultats plus pertinents. Pour réaliser notre objectif nous intégrons la technique du word embedding (intégration des mots) qui permet de représenter les termes de la collection par des vecteurs dans un espace à dimension réduites. Le word embedding à la capacité de viser la sémantique des mots et pour cela les mots qui sont sémantiquement similaires sont représentés les uns proches des autres dans l'espace vectoriel. Différents modèles existent permettent de construire les word embedding à savoir le modèle Glove, Word2vec qui se basent sur des réseaux de neurones. Nous exploitons ainsi ces vecteurs des word embedding à fin de recalculer le score des documents restitués lors de la recherche simple.. Notre mémoire est décomposé en trois (03) principaux chapitres : Le premier chapitre intitulé " La Recherche d'Information ", nous décrivons les points essentiels suivants : Tout d'abord nous donnons les concepts du base du recherche d'informations .on y trouve les notions de besoin en information de requête ; de document et de pertinence et le processus d'indexation. Nous décrivons aussi les différents modèles de recherche d'informations en particulier le model booléen ; le model vectoriel et le modèle probabiliste et le troisième point traité dans ce chapitre c'est évaluation des systèmes de recherche d'information. Le deuxième chapitre " le Word Embedding ", est consacré à la présentation de la technique du word embedding qui est le concept que nous avons intégré dans notre travail à fin d'améliorer les résultats de la recherche d'information, ainsi nous avons présenté ses modèles qui se basent sur les réseaux de neurone. Le troisième chapitre " L'implémentation et résultats ", est dédié à décrire l'approche de notre travail, une implémentation de cette approche et les différents outils utilisés pour la réaliser et nous terminons avec les résultats que nous avons tiré. Enfin, nous concluons notre mémoire avec une conclusion générale et quelques perspectives.

Description

68 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Rrecherche d'information, Extension du modèle de recherche d'information, Ord embedding

Citation

Ingénieurie Des Systémes D'Information