Etude comparative des framework de gestion de calcul intensif sur les cloud (cas d’étude Hadoop vs Spark).

Loading...
Thumbnail Image

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Nous sommes confrontés depuis quelques années à de nouvelles technologies qui envahissent le monde de l’informatique et l’internet ; cette situation nous oblige à prendre les défis, de connaitre et maitriser ces nouvelles sciences afin de nous permettre de s’adapter aux changements forcés par cette révolution. Le volume de données exploité par les entreprise à considérablement augmenté émanant de sources diverses (transaction, systèmes d’information automatises, réseaux,…), elles sont souvent susceptibles de croitre très rapidement. Lorsqu’on parle de manipulation de gros volume de données, on pense généralement à des problématiques sur le volume des données et sur la rapidité de traitement que on trouve généralement dans les vidéos. Beaucoup de concepts inséparables dominent actuellement le monde de l’IT(Information technology). On entend souvent de Cloud Computing, la technologie actuelle, hébergeant un big data sous forme Nosql et traité par un simple programme MapReduce dans des « clusters » distribués partout dans le monde. Le terme Cloud Computing, ou « informatique dans les nuages », est un nouveau modèle informatique qui consiste à proposer les services informatiques sous forme de services à la demande, accessibles de n'importe où, n'importe quand et par n'importe qui. Cette nouvelle technologie permet à des entreprises d'externaliser le stockage de leurs données et de leur fournir une puissance de calcul supplémentaire pour le traitement de grosse quantité de données. Cette dernier à besoin des plates-formes et des framework de Cloud Computing qu’il est étonnant, comme Hadoop qui est un framework libre, géré par la fondation Apache, conçu pour analyser de très grande quantités de données. Il supporte le passage à l’échelle est très performent en termes de tolérance aux pannes, il est composé d’HDFS (Hadoop Distributed File System), son propre système de fichiers, et de MapReduce son « moteur » de calcul distribué, et Spark qui est un grand cadre de traitement de données open source qui peut traiter des quantités massives de données à grande vitesse à l'aide informatique en grappe, et d’autre framework qui existe( HPCC, Storm…). L'objectif de ce travail était de comparer les calculs intensif des framework du cloud computing hadoop et spark deux système de traitement de grosse quantité de donnes, nous Résumer avons commencer, dans le premier chapitre, par définir les thèmes lies a ce travail, précisément, nous avons présenté les concepts de big data et de cloud computing. Avant d’entamer la phase d’implémentation et expérimentation des solutions choisies pour l’évolution de calcul, nous avons jugé important de faire connaitre les concepts des framework de cloud computing, le deuxième chapitre était consacré a des notions préliminaires sur ces concepts, comme on à défini les caractéristiques d'hadoop et de spark. L’utilité d'hadoop était d’implémenter le système de fichier HDFS pour facilité l’exploitation de MapReduce. Le troisième chapitre est consacré pour la segmentation de la vidéo basée sur MapReduce dans le cas de traitement d’image on représentant la segmentation par image clé (les keyframe), nous avons décret aussi l’environnement de travail et les versions des utiles utilisé pour développé notre application. On travaillant avec une grande quantité de donnée ce qu’on appelle les big data le hadoop est le meilleur framwork qui répond a la multiplication de donnée et il offre une simplicité pour l’exécution de tache parallèle et pour garantir au futur une sclabilité avec notre application le MapReduce peut garantir ça, et moins chère à déployer et facile à réaliser avec le framework hadoop. Nous estimons qu’avec la domination de l’internet dans presque tous les secteurs, industriels, medias, communication, et même familial, les technologies de big data sont aujourd’hui en plein essor. Dans les prochaines années, nous estimons que ces technologies seront de plus en plus utilisées pour répondre à de nouvelles problématiques pour la gestion de données.

Description

108 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Thread, MPI, Cloud, big Data, Framworks

Citation

Conduite De Projets Informatiques