Prédiction avancée et multidimensionnelle dans le contexte de données d’archives de faible qualité
Abstract
Les sciences humaines produisent actuellement des masses de données très variées mais peinent à proposer de nouvelles observations et/ou connaissances à partir de celles-ci. Ces données sont soit de qualité faible car collectées à l’aide de processus semi-automatisés, à partir du terrain (entretiens, fouilles, photos, etc.), soit de qualité insuffisante, du point de vue de l’informatique, car réalisées à partir de différentes formes d’éditorialisation des sources. Ainsi, elles peuvent se révéler peu ou pas exploitables et requièrent une phase de « curation ». Les chercheurs dans ce domaine structurent leurs informations/données d’archives sous formes de bases de données, ils désirent faire ressortir un ensemble de métadonnées et explorer les approches/technologies modernes pour exploiter ces données. Le stage a pour but de développer des outils d’extraction de connaissances, de fouilles de données ou de clustering adaptés au contexte des données d’archives littéraires avec toute leur imperfection et leur variété, il s’agit de permettre aux chercheurs SHS de découvrir et d’aller vers de nouveaux questionnements de leurs données.
Objectifs
Un premier travail sur la prédiction de liens et de relations a été réalisé en 2019. Ce travail a conduit au développement d’un outil Link&Pred qui permet de calculer les relations possibles entre des objets à partir de leurs métadonnées (propriétés/attributs). L’objectif essentiel de ce stage est de faire évoluer cet outil vers une prédiction plus pertinente fondée sur un nombre d’attributs plus important. Dans un second temps, il s’agit de développer une interface plus « user-friendly » de l’outil afin de faciliter son exploitation par les experts des sciences humaines. Enfin, il faudra enrichir l’outil d’une fonctionnalité de visualisation des prédictions identifiées. Il sera aussi demandé au candidat une réflexion sur la manière de sécuriser l’outil développé ainsi qu’une étude en rapport avec la confidentialité et la sécurité des données manipulées.
Collections
Related items
Showing items related by title, author, creator and subject.
-
Approche non paramétrique par noyau des données circulaires
Aoudia, Souhila (UMMTO, 2015) -
Estimation des modèles ARCH en présence de données manquantes
Lallali, Karima (UMMTO, 2016) -
Cartographie SIG au 1/200.000 de la bordure NE du Hoggar, Algérie : précision cartographique de la zone de jonction socle-couverture par traitement des données imagées
Mouchene, Samir; Amri, Dehbia (Université Mouloud Mammeri, 2019-07-21)Depuis l’avènement de l’outil informatique, les SIG (système d’informatique géographique) sont devenus des outils technologiques incontournables d’affichage, d’analyse, de mise à jour, et d’édition des données géoréférenciées. ...