Sécurisation des données dans un environnement de Data Mining

Loading...
Thumbnail Image

Date

2013

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

L'Homme a soif de connaître son avenir et de comprendre ce qui l'entoure. À cette fin, de nombreux instruments de mesure ont été inventés. Actuellement, ces instruments devenus très précis génèrent de grandes quantités de données. Pour mieux appréhender le monde qui l'entoure, l'Homme utilise ces données pour modéliser son environnement. En analysant les modèles et en simulant leur évolution, il devient possible de comprendre des phénomènes et systèmes complexes ou d'en inventer de nouveaux, et même de prévoir leurs possibles évolutions. Cependant, les instruments de mesure, très précis, peuvent générer quotidiennement de grandes masses de données. Les modèles deviennent également de plus en plus complexes et prennent en compte un nombre de paramètres sans cesse grandissant. Simuler l'évolution de tels modèles demande donc une puissance de calcul et de stockage de plus en plus grande. Face à cette demande croissante de puissance, les grilles de calcul apparaissent de plus en plus comme la solution de demain. Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise et de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Au cours de ce travail nous aurons l’occasion de parler tout d’abord au cours du premier chapitre des grilles de calcules et de ses différentes architectures, ensuite au cours du deuxième chapitre nous verrons les différentes méthodes d’extraction de données ce qui nous mènera vers le troisième chapitre qui parle de la première contrainte rencontrée au cours de l'extraction des données qui est la préservation de la vie privée et de la confidentialité ainsi que ses multiples techniques. Nous verrons notamment en détail trois algorithmes connus de PPDM(Privacy Preserving DataMining) qui sont ceux de Vaidya, DNSP(Distributed Non-private Scalar Product) et PSPP (Private Scalar Product Protocol) au cours du dernier chapitre de l'étude expérimentale. Le travail présenté dans ce document démontre que datamining et vie privée ne sont pas naturellement en conflit. Pour les différentes techniques de datamining (extraction de règles d'association, recherche de motifs séquentiels, classification, etc.), différentes solutions ont été proposées pour la protection de la vie privée. Nous avons vu que pour un partitionnement vertical des données, plusieurs applications de datamining se réduisent au calcul du produit scalaire. Plusieurs protocoles ont été proposés pour le calcul sécurisé de cette primitive. L'évaluation de ces différents protocoles montre qu'ils provoquent une surcharge sur la communication. Le protocole Private Scalar Product Protocol possède l'avantage de ne pas provoquer une telle surcharge ; cependant son application reste toujours du domaine binaire.

Description

98 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Data mining, Sécurisation données, Algorithme, Protocol DNSP, Protocol PSPP

Citation

Systéme Informatique