Spark - Développer des applications pour le Big Data

Formation à distance

Durée : 21 heures (3 jours)

0/10

(0 avis)

Durée :21 heures (3 jours)

€ HT

S'inscrire

Durée :21 heures (3 jours)

€ HT

S'inscrire

Durée :21 heures (3 jours)

€ HT

S'inscrire

Formation créée le 10/08/2021. Dernière mise à jour le 17/03/2022.

Version du programme : 1

Programme de la formation

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Objectifs de la formation

Maîtriser les concepts fondamentaux de Spark
Savoir intégrer Spark dans un environnement Hadoop
Développer des applications d’analyse en temps réel avec Spark Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Manipuler des données avec Spark SQL
Avoir une première approche du Machine Learning

Profil des bénéficiaires

Chefs de projet
Data Scientists
Développeurs
Architectes

Avoir des bonnes connaissances de Java ou Python
Avoir des notions de calculs statistiques

Contenu de la formation

Introduction d'Apache Spark
- Présentation de l'histoire de Spark
- Les versions de Spark
- Spark vs Apache Hadoop
- Les modules de Spark
- Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
Programmation avec les Resilient Distributed Dataset
- Définition des RDD
- Création, manipulation et réutilisation des RDD
- Accumulateurs et variables broadcastées
- Utiliser des partitions
- Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark
Données structurées avec Spark SQL
- SQL, Dataframes & Datasets
- Présentation des types de sources de données
- Interopérabilité avec les RDD
- Performance de Spark SQL
- JDBC/ODBC server & Spark SQL CLI
- Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.
Spark sur un cluster
- Présentation des types d'architectures
- Paramétrage d'un cluster en Standalone
- Package d'une application et ses dépendances
- Déploiement d'applications avec Spark-submit
- Dimensionnement d'un cluster
- Travaux pratiques : Création et mise en oeuvre d'un cluster Spark
Spark Streaming : analyse en temps réel
- Principe de fonctionnement
- Définition ds DStreams
- Présentation des types de sources
- Manipulation de l'API
- Comparaison Spark Streaming & Apache Storm
- Travaux pratiques : Consommation de logs avec Spark Streaming
GraphX : Manipulation de graphes
- Présentation de l'outil
- Les différentes opérations
- Création de graphes
- Vertex & Edge RDD
- Présentation des algorithmes
- Travaux pratiques : Manipulation de l'API GraphX à travers différents exemples
Machine learning & Spark
- Introduction au Machine Learning
- Les classes d'algorithmes
- Sprak ML & MLlib
- Implémentations des algorithmes dans MLlib
- Travaux pratiques : Utilisation de SparkML & MLlib

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

Feuilles de présence.
Questions orales ou écrites (QCM).
Mises en situation.
Formulaires d'évaluation de la formation.
Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

Espace numérique de travail.
Documents supports de formation projetés.
Exposés théoriques
Etude de cas concrets
Quiz en salle
Mise à disposition en ligne de documents supports à la suite de la formation.

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation.

0/10

(0 avis)