Architectures Data modernes — Data Mesh, Lakehouse et Data Fabric

Cette formation de niveau intermédiaire permet de comprendre les limites des architectures data centralisées et d’analyser trois approches modernes : Data Mesh, Lakehouse et Data Fabric. Elle aide les participants à distinguer les principes, les impacts organisationnels et les implications techniques de chaque modèle afin de choisir une stratégie adaptée à leur contexte. La formation s’appuie sur des comparaisons structurées, des cas d’usage sectoriels et un travail pratique de modélisation d’architecture sur un cas réel.

Identifier les limites d’une architecture data centralisée
Expliquer les principes du Data Mesh et le rôle des data products
Décrire le fonctionnement d’une approche Data Fabric fondée sur les métadonnées actives
Comprendre les principes d’un Lakehouse et différencier Delta Lake, Apache Iceberg et Apache Hudi
Comparer les architectures Data Mesh, Data Fabric et Lakehouse selon des critères techniques, organisationnels et métiers
Choisir une architecture data adaptée à un contexte donné
Modéliser une architecture cible pour un cas réel

Pour qui

Data engineers
Architectes data
Chief Data Officers
Responsables plateformes data
Leads analytics ou data platform

Prérequis

Maîtriser les bases des architectures data classiques
Connaître les notions de data warehouse, data lake, pipeline et gouvernance des données
Disposer d’une première expérience en environnement data ou BI

Rappel des principes du data warehouse centralisé
Identification des limites dans les contextes multi-domaines et multi-équipes
Analyse des problèmes de scalabilité organisationnelle et de dépendance aux équipes centrales
Mise en perspective des nouveaux besoins en autonomie, gouvernance et rapidité d’accès à la donnée
TP: Identifier, à partir d’un cas type, les limites d’une architecture centralisée, Formaliser les principaux irritants techniques et organisationnels

Origine et logique du Data Mesh
Domain ownership et responsabilité décentralisée
Data as a product
Self-serve data platform
Federated governance
Conditions de réussite et points de vigilance
TP : Découper un système data fictif en domaines- Identifier les responsabilités associées à chaque domaine- Positionner les premiers data products

Définition d’un data product
Différence entre dataset, pipeline et data product
Composants attendus d’un data product : qualité, documentation, exposition, usage
Rôle de la gouvernance fédérée
Standards communs et autonomie encadrée
TP: Définir un data product à partir d’un besoin métier- Renseigner ses attributs clés : propriétaire, consommateurs, fréquence, qualité, règles d’accès

Définition et positionnement du Data Fabric
Rôle des métadonnées actives
Découvrabilité, traçabilité, lineage et automatisation
Intégration de sources hétérogènes
Cas d’usage typiques du Data Fabric dans des environnements complexes
TP : Cartographier les métadonnées utiles pour piloter un flux transverse- Identifier les règles pouvant être automatisées : qualité, classification, accès, traçabilité

Positionnement du Lakehouse entre data lake et data warehouse
Principes de stockage et de gouvernance dans une architecture Lakehouse
Présentation de Delta Lake
Présentation d’Apache Iceberg
Présentation d’Apache Hudi
Différences clés : gestion des transactions, évolutivité, interopérabilité, mises à jour, time travel
TP: Associer des besoins projet à l’option Lakehouse la plus adaptée- Comparer Delta Lake, Apache Iceberg et Apache Hudi selon plusieurs critères de décision

Différences entre logique organisationnelle, logique plateforme et logique d’intégration
Critères de choix selon la structure de l’entreprise, les cas d’usage, la gouvernance et le patrimoine existant
Contextes favorables au Data Mesh
Contextes favorables au Data Fabric
Contextes favorables au Lakehouse
Possibilités de combinaison entre plusieurs approches
TP: Évaluer plusieurs contextes d’entreprise à l’aide d’une grille multicritère- Choisir une stratégie d’architecture argumentée

Industrie : données de production, maintenance, supply chain
Banque et assurance : traçabilité, conformité, qualité
Retail et e-commerce : omnicanal, rapidité d’exploitation, segmentation
Secteur public et grands opérateurs : silos historiques, urbanisation progressive, gouvernance forte
Santé et recherche : diversité des sources, sensibilité des données, exigences d’accès
TP : Choisir un cas sectoriel proche de son environnement- Identifier les enjeux, contraintes et architecture la plus pertinente

Analyse d’un cas réel ou réaliste d’entreprise confrontée à des enjeux de modernisation de son architecture data
Identification des contraintes métiers, organisationnelles, techniques et de gouvernance
Sélection de l’approche la plus pertinente : Data Mesh, Data Fabric, Lakehouse ou combinaison de plusieurs approches
Sélection de l’approche la plus pertinente : Data Mesh, Data Fabric, Lakehouse ou combinaison de plusieurs approches
Définition des composants clés de l’architecture cible
Formalisation des principaux arbitrages de conception
TP: Analyser la situation initiale et les limites de l’existant- Identifier les besoins de gouvernance, de qualité, d’intégration et de consommation- Choisir une architecture cible adaptée- Représenter les grands composants de la solutio- Justifier les choix réalisés au regard des critères étudiés pendant la formation

Professionnel expert technique et pédagogique.

Résultats de la recherche

Architectures Data modernes — Data Mesh, Lakehouse et Data Fabric

Objectifs de la formation

Profil des bénéficiaires

Contenu de la formation

Équipe pédagogique