DATABRICKS – Data Engineering et Analytics sur le Lakehouse
Formation créée le 14/04/2026.
Version du programme : 1
Version du programme : 1
Type de formation
PrésentielDurée de formation
21 heures (3 jours)
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire
DATABRICKS – Data Engineering et Analytics sur le Lakehouse
Permettre aux participants de maîtriser la plateforme Databricks afin de concevoir, développer et exploiter des pipelines de données dans une architecture Lakehouse.
Objectifs de la formation
- Comprendre l’architecture Databricks et ses composants clés
- Manipuler Delta Lake pour garantir la fiabilité des données
- Développer des transformations avec Spark SQL et DataFrame API
- Orchestrer des pipelines avec Databricks Workflows
- Mettre en œuvre une gouvernance des données avec Unity Catalog
- Intégrer Databricks avec des outils data (dbt, Airflow, Power BI)
- Construire un pipeline data complet de bout en bout
Profil des bénéficiaires
Pour qui
- Data engineers
- Data analysts
- Data scientists
- Consultants data
Prérequis
- Connaissances de base en SQL
- Notions en traitement de données (ETL / pipelines)
- Bases en Python ou Scala appréciées
- Compréhension générale des architectures data
Contenu de la formation
JOUR 1- Module 1 – Architecture Databricks et prise en main (4h00)
- Concept de Lakehouse et positionnement Databricks
- Architecture : workspace, clusters, notebooks
- Introduction à Unity Catalog
- Organisation des projets et bonnes pratiques
- Activité pratique : Prise en main de Databricks: Création d’un cluster, exploration des notebooks et structuration d’un projet et organisation des ressources (datasets, notebooks, dossiers)
JOUR 1 - Module 2 – Delta Lake et gestion des données (3h00)
- ACID transactions et fiabilité des données
- Time Travel et versioning
- Schema enforcement et schema evolution
- Optimisation des performances (compaction, Z-order)
- Activité pratique : Manipulation Delta Lake : Création et modification d’une table Delta avec gestion du schéma et exploitation du time travel et optimisation des performances
JOUR 2- Module 3 – Traitement de données avec Spark (4h00)
- Introduction à Spark sur Databricks
- Spark SQL pour l’analyse
- DataFrame API : transformations, jointures, agrégations
- Bonnes pratiques de performance
- Activité pratique : Transformation de données : Développement d’un pipeline avec Spark SQL et DataFrames et optimisation des traitements et gestion des ressources
JOUR 2- Module 4 – Orchestration avec Databricks Workflows (3h00)
- Présentation des Workflows
- Création et planification de jobs
- Gestion des dépendances et monitoring
- Introduction à Airflow
- Activité pratique : Automatisation d’un pipeline Création d’un workflow multi-tâches et planification et suivi d’exécution
JOUR 3- Module 5 – Data Governance avec Unity Catalog (4h00)
- Gestion des accès et des permissions
- Organisation des catalogues, schémas et tables
- Traçabilité et audit des données
- Bonnes pratiques de gouvernance
- Activité pratique : Mise en œuvre de la gouvernance : Configuration des droits d’accès sur des datasets et simulation de gestion des utilisateurs et audit
JOUR 3 - Module 6 – Intégration et pipeline complet Lakehouse (3h00)
- Intégration avec dbt, Airflow et Power BI
- Architecture data moderne et bonnes pratiques
- Industrialisation des pipelines
- Activité pratique : Pipeline complet de bout en bout : Construction d’un pipeline ingestion → transformation → serving et exposition des données pour consommation analytique (BI)
Équipe pédagogique
Professionnel expert technique et pédagogique.