Spark - Développer des applications pour le Big Data

Formation créée le 10/08/2021. Dernière mise à jour le 17/03/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Spark - Développer des applications pour le Big Data


Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Objectifs de la formation

  • Maîtriser les concepts fondamentaux de Spark
  • Savoir intégrer Spark dans un environnement Hadoop
  • Développer des applications d’analyse en temps réel avec Spark Streaming
  • Faire de la programmation parallèle avec Spark sur un cluster
  • Manipuler des données avec Spark SQL
  • Avoir une première approche du Machine Learning

Profil des bénéficiaires

Pour qui
  • Chefs de projet
  • Data Scientists
  • Développeurs
  • Architectes
Prérequis
  • Avoir des bonnes connaissances de Java ou Python
  • Avoir des notions de calculs statistiques

Contenu de la formation

Introduction d'Apache Spark
  • Présentation de l'histoire de Spark
  • Les versions de Spark
  • Spark vs Apache Hadoop
  • Les modules de Spark
  • Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
Programmation avec les Resilient Distributed Dataset
  • Définition des RDD
  • Création, manipulation et réutilisation des RDD
  • Accumulateurs et variables broadcastées
  • Utiliser des partitions
  • Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark
Données structurées avec Spark SQL
  • SQL, Dataframes & Datasets
  • Présentation des types de sources de données
  • Interopérabilité avec les RDD
  • Performance de Spark SQL
  • JDBC/ODBC server & Spark SQL CLI
  • Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.
Spark sur un cluster
  • Présentation des types d'architectures
  • Paramétrage d'un cluster en Standalone
  • Package d'une application et ses dépendances
  • Déploiement d'applications avec Spark-submit
  • Dimensionnement d'un cluster
  • Travaux pratiques : Création et mise en oeuvre d'un cluster Spark
Spark Streaming : analyse en temps réel
  • Principe de fonctionnement
  • Définition ds DStreams
  • Présentation des types de sources
  • Manipulation de l'API
  • Comparaison Spark Streaming & Apache Storm
  • Travaux pratiques : Consommation de logs avec Spark Streaming
GraphX : Manipulation de graphes
  • Présentation de l'outil
  • Les différentes opérations
  • Création de graphes
  • Vertex & Edge RDD
  • Présentation des algorithmes
  • Travaux pratiques : Manipulation de l'API GraphX à travers différents exemples
Machine learning & Spark
  • Introduction au Machine Learning
  • Les classes d'algorithmes
  • Sprak ML & MLlib
  • Implémentations des algorithmes dans MLlib
  • Travaux pratiques : Utilisation de SparkML & MLlib

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

  • Espace numérique de travail.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation.