Data Engineering - Débutant

Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.
Version du programme : 1

Type de formation

Formation présentielle

Durée de formation

35 heures (5 jours)

€ HT

S'inscrire

€ HT

S'inscrire

€ HT

S'inscrire

Data Engineering - Débutant

Objectif général de la formation : Apporter les connaissances fondamentales sur les outils et technologies essentielles du Data Engineering pour permettre aux participants de construire et de gérer des pipelines de données.

Naviguer dans un environnement Linux et utiliser les commandes essentielles.
Utiliser Git pour le suivi des versions et le travail collaboratif.
Manipuler des conteneurs Docker pour déployer des applications.
Automatiser des workflows de données avec dbt et Airflow.
Écrire des scripts Python pour réaliser des étapes clés du pipeline de données.

Pour qui

Débutants en Data Engineering.
Collaborateurs techniques ou non techniques souhaitant s’initier aux pratiques du Data Engineering.

Prérequis

Aucun

Concepts clés du Data Engineering : définition, rôle, et importance des pipelines de données.
Les principaux outils et leur positionnement dans le cycle de vie des données.
Travaux pratiques : Identifier les étapes d’un pipeline à partir d’un cas concret simplifié.
Travaux pratiques : Défis communs rencontrés dans la gestion des pipelines.

Introduction à Git : gestion de versions, travail collaboratif.
Travaux pratiques : Initialiser un dépôt, gérer des branches, résoudre un conflit simple.
Bonnes pratiques pour travailler en équipe avec Git.

Navigation dans un système Linux : commandes de base, structure des fichiers.
Travaux pratiques : Manipuler des fichiers, gérer les permissions, utiliser des commandes avancées comme grep et sed.
Création de scripts pour automatiser des tâches courantes (ex : nettoyage de données, gestion de logs).
Travaux pratiques : Écrire un script qui automatise la sauvegarde de fichiers.

Introduction aux conteneurs : concepts de base et terminologie.
Création d’images Docker personnalisées.
Travaux pratiques : Construire et exécuter une image Docker pour une application Python.
Réseautage et gestion des volumes avec Docker.
Travaux pratiques : Déployer une application multi-conteneurs avec Docker Compose.

Concepts clés : modélisation des données et transformations.
Travaux pratiques : Créer un modèle simple avec dbt et le valider.
Configuration d’un projet dbt : fichiers de configuration, tests, et documentation.
Comprendre les DAGs (Directed Acyclic Graphs) : structure et mise en œuvre.
Exercice pratique : Créer un DAG pour orchestrer un workflow.
Gestion des dépendances entre tâches et suivi des exécutions.
Déploiement d’Airflow dans un environnement Docker.

Introduction aux structures de données (listes, dictionnaires).
Travaux pratiques : Manipuler des fichiers CSV et JSON avec Python.
Écriture de scripts pour automatiser les transformations de données.
Travaux pratiques : Automatiser l’intégration de fichiers de données dans une base SQL.
Développement de modules personnalisés pour les workflows.
Travaux pratiques : Intégrer un script Python dans un pipeline orchestré avec Airflow.

Professionnel expert technique et pédagogique.

Résultats de la recherche

Data Engineering - Débutant

Objectifs de la formation

Profil des bénéficiaires

Contenu de la formation

Équipe pédagogique