
Data Engineering - Débutant
Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.
Version du programme : 1
Programme de la formation
Objectif général de la formation : Apporter les connaissances fondamentales sur les outils et technologies essentielles du Data Engineering pour permettre aux participants de construire et de gérer des pipelines de données.
Objectifs de la formation
- Naviguer dans un environnement Linux et utiliser les commandes essentielles.
- Utiliser Git pour le suivi des versions et le travail collaboratif.
- Manipuler des conteneurs Docker pour déployer des applications.
- Automatiser des workflows de données avec dbt et Airflow.
- Écrire des scripts Python pour réaliser des étapes clés du pipeline de données.
Profil des bénéficiaires
Pour qui
- Débutants en Data Engineering.
- Collaborateurs techniques ou non techniques souhaitant s’initier aux pratiques du Data Engineering.
Prérequis
- Aucun
Contenu de la formation
-
Introduction au Data Engineering (3 h)
- Concepts clés du Data Engineering : définition, rôle, et importance des pipelines de données.
- Les principaux outils et leur positionnement dans le cycle de vie des données.
- Travaux pratiques : Identifier les étapes d’un pipeline à partir d’un cas concret simplifié.
- Travaux pratiques : Défis communs rencontrés dans la gestion des pipelines.
-
Git (3 h)
- Introduction à Git : gestion de versions, travail collaboratif.
- Travaux pratiques : Initialiser un dépôt, gérer des branches, résoudre un conflit simple.
- Bonnes pratiques pour travailler en équipe avec Git.
-
Linux & Bash (5 h)
- Navigation dans un système Linux : commandes de base, structure des fichiers.
- Travaux pratiques : Manipuler des fichiers, gérer les permissions, utiliser des commandes avancées comme grep et sed.
- Création de scripts pour automatiser des tâches courantes (ex : nettoyage de données, gestion de logs).
- Travaux pratiques : Écrire un script qui automatise la sauvegarde de fichiers.
-
Conteneurisation avec Docker (6 h)
- Introduction aux conteneurs : concepts de base et terminologie.
- Création d’images Docker personnalisées.
- Travaux pratiques : Construire et exécuter une image Docker pour une application Python.
- Réseautage et gestion des volumes avec Docker.
- Travaux pratiques : Déployer une application multi-conteneurs avec Docker Compose.
-
Automatisation avec dbt et Airflow (9 h)
- Concepts clés : modélisation des données et transformations.
- Travaux pratiques : Créer un modèle simple avec dbt et le valider.
- Configuration d’un projet dbt : fichiers de configuration, tests, et documentation.
- Comprendre les DAGs (Directed Acyclic Graphs) : structure et mise en œuvre.
- Exercice pratique : Créer un DAG pour orchestrer un workflow.
- Gestion des dépendances entre tâches et suivi des exécutions.
- Déploiement d’Airflow dans un environnement Docker.
-
Python pour le Data Engineering (9 h)
- Introduction aux structures de données (listes, dictionnaires).
- Travaux pratiques : Manipuler des fichiers CSV et JSON avec Python.
- Écriture de scripts pour automatiser les transformations de données.
- Travaux pratiques : Automatiser l’intégration de fichiers de données dans une base SQL.
- Développement de modules personnalisés pour les workflows.
- Travaux pratiques : Intégrer un script Python dans un pipeline orchestré avec Airflow.
Équipe pédagogique
Professionnel expert technique et pédagogique.