Prédiction avancée et multidimensionnelle dans le contexte de données d’archives de faible qualité

Loading...
Thumbnail Image

Date

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Les sciences humaines produisent actuellement des masses de données très variées mais peinent à proposer de nouvelles observations et/ou connaissances à partir de celles-ci. Ces données sont soit de qualité faible car collectées à l’aide de processus semi-automatisés, à partir du terrain (entretiens, fouilles, photos, etc.), soit de qualité insuffisante, du point de vue de l’informatique, car réalisées à partir de différentes formes d’éditorialisation des sources. Ainsi, elles peuvent se révéler peu ou pas exploitables et requièrent une phase de « curation ». Les chercheurs dans ce domaine structurent leurs informations/données d’archives sous formes de bases de données, ils désirent faire ressortir un ensemble de métadonnées et explorer les approches/technologies modernes pour exploiter ces données. Le stage a pour but de développer des outils d’extraction de connaissances, de fouilles de données ou de clustering adaptés au contexte des données d’archives littéraires avec toute leur imperfection et leur variété, il s’agit de permettre aux chercheurs SHS de découvrir et d’aller vers de nouveaux questionnements de leurs données. Objectifs Un premier travail sur la prédiction de liens et de relations a été réalisé en 2019. Ce travail a conduit au développement d’un outil Link&Pred qui permet de calculer les relations possibles entre des objets à partir de leurs métadonnées (propriétés/attributs). L’objectif essentiel de ce stage est de faire évoluer cet outil vers une prédiction plus pertinente fondée sur un nombre d’attributs plus important. Dans un second temps, il s’agit de développer une interface plus « user-friendly » de l’outil afin de faciliter son exploitation par les experts des sciences humaines. Enfin, il faudra enrichir l’outil d’une fonctionnalité de visualisation des prédictions identifiées. Il sera aussi demandé au candidat une réflexion sur la manière de sécuriser l’outil développé ainsi qu’une étude en rapport avec la confidentialité et la sécurité des données manipulées.

Description

85 p. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Masses de données;, Qualité de données;, Données d’archives;, Fouille de données;, Prédiction de liens;, Décision.

Citation

Réseaux, Mobilité et Systèmes Embarqués