Data Engineering - Débutant

Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.
Version du programme : 1

Type de formation

Formation présentielle

Durée de formation

35 heures (5 jours)

Data Engineering - Débutant


Objectif général de la formation : Apporter les connaissances fondamentales sur les outils et technologies essentielles du Data Engineering pour permettre aux participants de construire et de gérer des pipelines de données.

Objectifs de la formation

  • Naviguer dans un environnement Linux et utiliser les commandes essentielles.
  • Utiliser Git pour le suivi des versions et le travail collaboratif.
  • Manipuler des conteneurs Docker pour déployer des applications.
  • Automatiser des workflows de données avec dbt et Airflow.
  • Écrire des scripts Python pour réaliser des étapes clés du pipeline de données.

Profil des bénéficiaires

Pour qui
  • Débutants en Data Engineering.
  • Collaborateurs techniques ou non techniques souhaitant s’initier aux pratiques du Data Engineering.
Prérequis
  • Aucun

Contenu de la formation

Introduction au Data Engineering (3 h)
  • Concepts clés du Data Engineering : définition, rôle, et importance des pipelines de données.
  • Les principaux outils et leur positionnement dans le cycle de vie des données.
  • Travaux pratiques : Identifier les étapes d’un pipeline à partir d’un cas concret simplifié.
  • Travaux pratiques : Défis communs rencontrés dans la gestion des pipelines.
Git (3 h)
  • Introduction à Git : gestion de versions, travail collaboratif.
  • Travaux pratiques : Initialiser un dépôt, gérer des branches, résoudre un conflit simple.
  • Bonnes pratiques pour travailler en équipe avec Git.
Linux & Bash (5 h)
  • Navigation dans un système Linux : commandes de base, structure des fichiers.
  • Travaux pratiques : Manipuler des fichiers, gérer les permissions, utiliser des commandes avancées comme grep et sed.
  • Création de scripts pour automatiser des tâches courantes (ex : nettoyage de données, gestion de logs).
  • Travaux pratiques : Écrire un script qui automatise la sauvegarde de fichiers.
Conteneurisation avec Docker (6 h)
  • Introduction aux conteneurs : concepts de base et terminologie.
  • Création d’images Docker personnalisées.
  • Travaux pratiques : Construire et exécuter une image Docker pour une application Python.
  • Réseautage et gestion des volumes avec Docker.
  • Travaux pratiques : Déployer une application multi-conteneurs avec Docker Compose.
Automatisation avec dbt et Airflow (9 h)
  • Concepts clés : modélisation des données et transformations.
  • Travaux pratiques : Créer un modèle simple avec dbt et le valider.
  • Configuration d’un projet dbt : fichiers de configuration, tests, et documentation.
  • Comprendre les DAGs (Directed Acyclic Graphs) : structure et mise en œuvre.
  • Exercice pratique : Créer un DAG pour orchestrer un workflow.
  • Gestion des dépendances entre tâches et suivi des exécutions.
  • Déploiement d’Airflow dans un environnement Docker.
Python pour le Data Engineering (9 h)
  • Introduction aux structures de données (listes, dictionnaires).
  • Travaux pratiques : Manipuler des fichiers CSV et JSON avec Python.
  • Écriture de scripts pour automatiser les transformations de données.
  • Travaux pratiques : Automatiser l’intégration de fichiers de données dans une base SQL.
  • Développement de modules personnalisés pour les workflows.
  • Travaux pratiques : Intégrer un script Python dans un pipeline orchestré avec Airflow.

Équipe pédagogique

Professionnel expert technique et pédagogique.