Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Data Engineering - Débutant

Data Engineering - Débutant

Formation présentielle
Durée : 35 heures (5 jours)
Durée :35 heures (5 jours)
HT
S'inscrire
Durée :35 heures (5 jours)
HT
S'inscrire
Durée :35 heures (5 jours)
HT
S'inscrire

Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.

Version du programme : 1

Programme de la formation

Objectif général de la formation : Apporter les connaissances fondamentales sur les outils et technologies essentielles du Data Engineering pour permettre aux participants de construire et de gérer des pipelines de données.

Objectifs de la formation

  • Naviguer dans un environnement Linux et utiliser les commandes essentielles.
  • Utiliser Git pour le suivi des versions et le travail collaboratif.
  • Manipuler des conteneurs Docker pour déployer des applications.
  • Automatiser des workflows de données avec dbt et Airflow.
  • Écrire des scripts Python pour réaliser des étapes clés du pipeline de données.

Profil des bénéficiaires

Pour qui
  • Débutants en Data Engineering.
  • Collaborateurs techniques ou non techniques souhaitant s’initier aux pratiques du Data Engineering.
Prérequis
  • Aucun

Contenu de la formation

  • Introduction au Data Engineering (3 h)
    • Concepts clés du Data Engineering : définition, rôle, et importance des pipelines de données.
    • Les principaux outils et leur positionnement dans le cycle de vie des données.
    • Travaux pratiques : Identifier les étapes d’un pipeline à partir d’un cas concret simplifié.
    • Travaux pratiques : Défis communs rencontrés dans la gestion des pipelines.
  • Git (3 h)
    • Introduction à Git : gestion de versions, travail collaboratif.
    • Travaux pratiques : Initialiser un dépôt, gérer des branches, résoudre un conflit simple.
    • Bonnes pratiques pour travailler en équipe avec Git.
  • Linux & Bash (5 h)
    • Navigation dans un système Linux : commandes de base, structure des fichiers.
    • Travaux pratiques : Manipuler des fichiers, gérer les permissions, utiliser des commandes avancées comme grep et sed.
    • Création de scripts pour automatiser des tâches courantes (ex : nettoyage de données, gestion de logs).
    • Travaux pratiques : Écrire un script qui automatise la sauvegarde de fichiers.
  • Conteneurisation avec Docker (6 h)
    • Introduction aux conteneurs : concepts de base et terminologie.
    • Création d’images Docker personnalisées.
    • Travaux pratiques : Construire et exécuter une image Docker pour une application Python.
    • Réseautage et gestion des volumes avec Docker.
    • Travaux pratiques : Déployer une application multi-conteneurs avec Docker Compose.
  • Automatisation avec dbt et Airflow (9 h)
    • Concepts clés : modélisation des données et transformations.
    • Travaux pratiques : Créer un modèle simple avec dbt et le valider.
    • Configuration d’un projet dbt : fichiers de configuration, tests, et documentation.
    • Comprendre les DAGs (Directed Acyclic Graphs) : structure et mise en œuvre.
    • Exercice pratique : Créer un DAG pour orchestrer un workflow.
    • Gestion des dépendances entre tâches et suivi des exécutions.
    • Déploiement d’Airflow dans un environnement Docker.
  • Python pour le Data Engineering (9 h)
    • Introduction aux structures de données (listes, dictionnaires).
    • Travaux pratiques : Manipuler des fichiers CSV et JSON avec Python.
    • Écriture de scripts pour automatiser les transformations de données.
    • Travaux pratiques : Automatiser l’intégration de fichiers de données dans une base SQL.
    • Développement de modules personnalisés pour les workflows.
    • Travaux pratiques : Intégrer un script Python dans un pipeline orchestré avec Airflow.
Équipe pédagogique

Professionnel expert technique et pédagogique.