Cours Big Data : Présentation et Fonctionnement de Hadoop, Exams of Database Programming

Dans ce cours Big Data enseigné par Dr. Wiem Chebil, apprenez l'évolution des données, la définition du Big Data et les 5 V's du Big Data. Découvrez l'écosystème Hadoop, son fonctionnement et ses principaux composants : HDFS et MapReduce. En savoir plus sur la distribution des données et traitements, les capacités de stockage et les préfixes multiplicatifs.

Typology: Exams

2023/2024

Uploaded on 01/02/2024

zahra-bendhaw
zahra-bendhaw 🇹🇳

1 document

1 / 26

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Partial preview of the text

Download Cours Big Data : Présentation et Fonctionnement de Hadoop and more Exams Database Programming in PDF only on Docsity!

Cours Big Data

Responsable du cours: Dr. Wiem Chebil

Evolution de la technologie

Evolution des données

Big Data?

Les 5 V’s du Big Data

Les capacités de stockage

Préfixes multiplicatifs Avant de parler de BigData, connaissez-vous les préfixes? signe préfixe facteur exemple représentatif 10 3 k kilo M méga G giga T téra P péta E exa Z zetta une page de texte 10 6 vitesse de transfert par seconde 10 9 DVD, clé USB 10 12 disque dur 10 15 10 18 FaceBook, Amazon 10 21 internet tout entier depuis 2010

Distribution données et traitements Le traitement d’aussi grandes quantités de données impose des méthodes particulières. Un SGBD classique, même haut de gamme, est dans l’incapacité de traiter autant d’informations. Solution:

  • Répartir les données sur plusieurs machines (jusqu’à plusieurs millions d’ordinateurs) dans des Data Centers ▪ système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir des fichiers gigantesques et/ou très nombreux (HDFS), ▪ bases de données spécifiques (HBase, Cassandra, ElasticSearch). ▪ Traitements du type « map-reduce » : ▪ algorithmes faciles à écrire,
  • exécutions faciles à paralléliser.

Machines connectées Toutes ces machines sont connectées entre elles afin de partager l’espace de stockage et la puissance de calcul. Le Cloud est un exemple d’espace de stockage distribué : des fichiers sont stockés sur différentes machines, généralement en double pour prévenir une panne. L’exécution des programmes est également distribuée : ils sont exécutés sur une ou plusieurs machines du réseau. Tout ce module vise à enseigner la programmation d’applications sur un cluster, à l’aide des outils Hadoop.

Ecosystème Hadoop