Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Spark - Développer des applications pour le Big Data

Spark - Développer des applications pour le Big Data

Formation à distance
Durée : 21 heures (3 jours)
Durée :21 heures (3 jours)
HT
Se préinscrire
Durée :21 heures (3 jours)
HT
Se préinscrire
Durée :21 heures (3 jours)
HT
Se préinscrire

Formation créée le 10/08/2021. Dernière mise à jour le 17/03/2022.

Version du programme : 1

Programme de la formation

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Objectifs de la formation

  • Maîtriser les concepts fondamentaux de Spark
  • Savoir intégrer Spark dans un environnement Hadoop
  • Développer des applications d’analyse en temps réel avec Spark Streaming
  • Faire de la programmation parallèle avec Spark sur un cluster
  • Manipuler des données avec Spark SQL
  • Avoir une première approche du Machine Learning

Profil des bénéficiaires

Pour qui
  • Chefs de projet
  • Data Scientists
  • Développeurs
  • Architectes
Prérequis
  • Avoir des bonnes connaissances de Java ou Python
  • Avoir des notions de calculs statistiques

Contenu de la formation

  • Introduction d'Apache Spark
    • Présentation de l'histoire de Spark
    • Les versions de Spark
    • Spark vs Apache Hadoop
    • Les modules de Spark
    • Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
  • Programmation avec les Resilient Distributed Dataset
    • Définition des RDD
    • Création, manipulation et réutilisation des RDD
    • Accumulateurs et variables broadcastées
    • Utiliser des partitions
    • Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark
  • Données structurées avec Spark SQL
    • SQL, Dataframes & Datasets
    • Présentation des types de sources de données
    • Interopérabilité avec les RDD
    • Performance de Spark SQL
    • JDBC/ODBC server & Spark SQL CLI
    • Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.
  • Spark sur un cluster
    • Présentation des types d'architectures
    • Paramétrage d'un cluster en Standalone
    • Package d'une application et ses dépendances
    • Déploiement d'applications avec Spark-submit
    • Dimensionnement d'un cluster
    • Travaux pratiques : Création et mise en oeuvre d'un cluster Spark
  • Spark Streaming : analyse en temps réel
    • Principe de fonctionnement
    • Définition ds DStreams
    • Présentation des types de sources
    • Manipulation de l'API
    • Comparaison Spark Streaming & Apache Storm
    • Travaux pratiques : Consommation de logs avec Spark Streaming
  • GraphX : Manipulation de graphes
    • Présentation de l'outil
    • Les différentes opérations
    • Création de graphes
    • Vertex & Edge RDD
    • Présentation des algorithmes
    • Travaux pratiques : Manipulation de l'API GraphX à travers différents exemples
  • Machine learning & Spark
    • Introduction au Machine Learning
    • Les classes d'algorithmes
    • Sprak ML & MLlib
    • Implémentations des algorithmes dans MLlib
    • Travaux pratiques : Utilisation de SparkML & MLlib
Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
  • Espace numérique de travail.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation.