Spark - Développer des applications pour le Big Data
0/10
(0 avis)
Formation créée le 10/08/2021. Dernière mise à jour le 17/03/2022.
Version du programme : 1
Programme de la formation
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Objectifs de la formation
- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning
Profil des bénéficiaires
Pour qui
- Chefs de projet
- Data Scientists
- Développeurs
- Architectes
Prérequis
- Avoir des bonnes connaissances de Java ou Python
- Avoir des notions de calculs statistiques
Contenu de la formation
-
Introduction d'Apache Spark
- Présentation de l'histoire de Spark
- Les versions de Spark
- Spark vs Apache Hadoop
- Les modules de Spark
- Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
-
Programmation avec les Resilient Distributed Dataset
- Définition des RDD
- Création, manipulation et réutilisation des RDD
- Accumulateurs et variables broadcastées
- Utiliser des partitions
- Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark
-
Données structurées avec Spark SQL
- SQL, Dataframes & Datasets
- Présentation des types de sources de données
- Interopérabilité avec les RDD
- Performance de Spark SQL
- JDBC/ODBC server & Spark SQL CLI
- Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.
-
Spark sur un cluster
- Présentation des types d'architectures
- Paramétrage d'un cluster en Standalone
- Package d'une application et ses dépendances
- Déploiement d'applications avec Spark-submit
- Dimensionnement d'un cluster
- Travaux pratiques : Création et mise en oeuvre d'un cluster Spark
-
Spark Streaming : analyse en temps réel
- Principe de fonctionnement
- Définition ds DStreams
- Présentation des types de sources
- Manipulation de l'API
- Comparaison Spark Streaming & Apache Storm
- Travaux pratiques : Consommation de logs avec Spark Streaming
-
GraphX : Manipulation de graphes
- Présentation de l'outil
- Les différentes opérations
- Création de graphes
- Vertex & Edge RDD
- Présentation des algorithmes
- Travaux pratiques : Manipulation de l'API GraphX à travers différents exemples
-
Machine learning & Spark
- Introduction au Machine Learning
- Les classes d'algorithmes
- Sprak ML & MLlib
- Implémentations des algorithmes dans MLlib
- Travaux pratiques : Utilisation de SparkML & MLlib
Équipe pédagogique
Professionnel expert technique et pédagogique.
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Espace numérique de travail.
- Documents supports de formation projetés.
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation.
Qualité et satisfaction
Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation.
0/10
(0 avis)