Spark & Storm - Traitement de données Big Data

Formation créée le 13/01/2023. Dernière mise à jour le 16/03/2023.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Spark & Storm - Traitement de données Big Data


Objectif de formation : Comprendre le fonctionnement et les forces des outils Storm et Spark

Objectifs de la formation

  • Maîtriser les concepts de base du développement d'applications Big Data en temps réel
  • Appréhender Spark et Storm
  • Implémenter des systèmes de calcul distribué temps réel de Storm & de Spark
  • Gérer des quantités importante de données en temps réel

Profil des bénéficiaires

Pour qui
  • Concepteurs
  • Développeurs
  • Architectes
Prérequis
  • Connaissances solides en développement logiciel

Contenu de la formation

Introduction à l'architecture temps réel
  • Traitements temps réel
  • Architectures LAMBDA
  • Architectures KAPPA
  • Architectures SMACK
  • Travaux pratiques : Étude de l'implémentation d'une architecture KAPPA pour Spark et Strom
Présentation de l'architecture Kafka
  • Présentation de Kafka Producers, Brokers, Consumers
  • Fichiers journaux
  • Schémas Avro
  • Utilisation de ZooKeeper
  • Travaux pratiques : Étude de la configuration de Kafka dans l'architecture KAPPA
Architecture Apache Storm
  • Détermination de l'environnement de développement
  • Construction de projets sur Storm
  • Présentation des composants Storm
  • Présentation des flux Storm
  • Modèle de données
  • Rôles des Nimbus et ZooKeeper
  • Travaux pratiques : Implémentation de l'architecture KAPPA pour Storm
Traitement des messages Storm
  • Programmation de services avec Clojure, Java, Python
  • Cycle de vie d'un message
  • API Storm : fiabilité
  • Déploiement de la fiabilité pour une application utilisant le Big Data
  • Travaux pratiques : Implémentation d'un projet de traitement des réseaux sociaux en temps réel dans l'architecture KAPPA
Architecture d'Apache Spark
  • Versionning de Spark (Scala, Python, R et Java)
  • Comparatif avec Storm
  • Tour d'horizon des modules de Spark
  • Présentation des différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN
  • Travaux pratiques : Etude de l'implémentation de l'architecture SMACK pour Spark
Temps réel avec Spark Streaming
  • Présentation des RDD
  • Création, manipulation et réutilisation des RDD
  • Accumulateurs & variables broadcastées
  • Principe de fonctionnement
  • Présentation des différents types de sources
  • Comparatif avec Apache Storm
  • Travaux pratiques : Implémentation d'un projet de traitement des réseaux sociaux en temps réel
Présentation des autres acteurs du marché
  • Tour d'horizon des outils de streaming de l'écosystème (Storm, Spark Streaming, Flink, Samza)
  • Focus sur l'architecture Samza
  • Travaux pratiques : Étude de l'implémentation de l'architecture KAPPA avec Samza

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Émargement numérique
  • Mises en situation
  • Formulaires d’évaluation de la formation
  • Certificat de réalisation de l’action de formation

Ressources techniques et pédagogiques

  • Espace intranet de formation
  • Documents supports de formation projetés
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation...