Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Data Engineering avec Kafka, Cassandre et Spark

Data Engineering avec Kafka, Cassandre et Spark

Formation présentielle
Durée : 18 heures (3 jours)
Durée :18 heures (3 jours)
HT
S'inscrire
Durée :18 heures (3 jours)
HT
S'inscrire
Durée :18 heures (3 jours)
HT
S'inscrire

Formation créée le 12/12/2024. Dernière mise à jour le 28/01/2025.

Version du programme : 1

Programme de la formation

Objectif général de la formation : Apprendre à concevoir, développer et maintenir un pipeline data en utilisant les technologies Big Data modernes telles que Kafka, Cassandra et Spark, tout en maîtrisant les concepts de Data Engineering et l'architecture Big Data.

Objectifs de la formation

  • Créer et maintenir un pipeline de données en utilisant les technologies Spark, Cassandra et Kafka.
  • Comprendre et maîtriser les concepts fondamentaux de ces outils.
  • Appliquer un cas d’usage concret pour développer une application orientée Data Engineering.
  • Décrire et analyser une architecture Big Data moderne.

Profil des bénéficiaires

Pour qui
  • Ingénieurs Big Data, développeurs, architectes de données, responsables techniques impliqués dans la gestion et le traitement des données volumineuses.
Prérequis
  • Connaissance de base en programmation (Java, Scala ou Python).
  • Notions fondamentales sur les systèmes distribués et le traitement des données.

Contenu de la formation

  • Jour 1 : Introduction et concepts fondamentaux (6 heures)
    • Introduction au Data Engineering et aux technologies Big Data (2 heures) Présentation du Data Engineering et ses enjeux. Concepts clés des pipelines de données et systèmes distribués.
    • Présentation de Kafka, Cassandra et Spark (4 heures) Fonctionnalités et cas d’usage de chaque outil. Travaux pratiques : Mise en place des environnements Kafka, Cassandra et Spark.
  • Jour 2 : Développement de pipelines data (6 heures)
    • Création et gestion des pipelines de données avec Kafka (2 heures) Configuration et gestion des topics Kafka. Travaux pratiques : Mise en œuvre d’un flux de données temps réel avec Kafka.
    • Modélisation et gestion des données avec Cassandra (2 heures) Modélisation des données et gestion des clusters. Travaux pratiques : Création et gestion de tables Cassandra pour le stockage de données.
    • Traitement distribué avec Spark (2 heures) Concepts de RDD, DataFrames et SparkSQL. Travaux pratiques : Manipulation de données volumineuses avec Spark.
  • Jour 3 : Applications avancées et architecture Big Data (6 heures)
    • Développement d’une application orientée use case (3 heures) Intégration de Kafka, Cassandra et Spark pour résoudre un cas concret. Travaux pratiques : Implémentation d’un pipeline de bout en bout.
    • Architecture Big Data (2 heures) Conception et analyse d’une architecture Big Data moderne. Étude des bonnes pratiques et limitations.
    • Synthèse et perspectives (1 heure) Discussion sur les évolutions et tendances. Questions-réponses avec les participants.
Équipe pédagogique

Professionnel expert technique et pédagogique.