Résultats de la recherche

Aucun programme correspondant à la recherche

Essayez avec un autre mot-clé dans la barre de recherche ci-dessus.

DATABRICKS – Data Engineering et Analytics sur le Lakehouse

Formation créée le 14/04/2026.
Version du programme : 1

Type de formation

Présentiel

Durée de formation

21 heures (3 jours)

Cette formation est gratuite.

Cette formation est gratuite.

Cette formation est gratuite.

DATABRICKS – Data Engineering et Analytics sur le Lakehouse

Permettre aux participants de maîtriser la plateforme Databricks afin de concevoir, développer et exploiter des pipelines de données dans une architecture Lakehouse.

Comprendre l’architecture Databricks et ses composants clés
Manipuler Delta Lake pour garantir la fiabilité des données
Développer des transformations avec Spark SQL et DataFrame API
Orchestrer des pipelines avec Databricks Workflows
Mettre en œuvre une gouvernance des données avec Unity Catalog
Intégrer Databricks avec des outils data (dbt, Airflow, Power BI)
Construire un pipeline data complet de bout en bout

Pour qui

Data engineers
Data analysts
Data scientists
Consultants data

Prérequis

Connaissances de base en SQL
Notions en traitement de données (ETL / pipelines)
Bases en Python ou Scala appréciées
Compréhension générale des architectures data

Concept de Lakehouse et positionnement Databricks
Architecture : workspace, clusters, notebooks
Introduction à Unity Catalog
Organisation des projets et bonnes pratiques
Activité pratique : Prise en main de Databricks: Création d’un cluster, exploration des notebooks et structuration d’un projet et organisation des ressources (datasets, notebooks, dossiers)

ACID transactions et fiabilité des données
Time Travel et versioning
Schema enforcement et schema evolution
Optimisation des performances (compaction, Z-order)
Activité pratique : Manipulation Delta Lake : Création et modification d’une table Delta avec gestion du schéma et exploitation du time travel et optimisation des performances

Introduction à Spark sur Databricks
Spark SQL pour l’analyse
DataFrame API : transformations, jointures, agrégations
Bonnes pratiques de performance
Activité pratique : Transformation de données : Développement d’un pipeline avec Spark SQL et DataFrames et optimisation des traitements et gestion des ressources

Présentation des Workflows
Création et planification de jobs
Gestion des dépendances et monitoring
Introduction à Airflow
Activité pratique : Automatisation d’un pipeline Création d’un workflow multi-tâches et planification et suivi d’exécution

Gestion des accès et des permissions
Organisation des catalogues, schémas et tables
Traçabilité et audit des données
Bonnes pratiques de gouvernance
Activité pratique : Mise en œuvre de la gouvernance : Configuration des droits d’accès sur des datasets et simulation de gestion des utilisateurs et audit

Intégration avec dbt, Airflow et Power BI
Architecture data moderne et bonnes pratiques
Industrialisation des pipelines
Activité pratique : Pipeline complet de bout en bout : Construction d’un pipeline ingestion → transformation → serving et exposition des données pour consommation analytique (BI)

Professionnel expert technique et pédagogique.