MLOPS - Niveau intermédiaire

Industrialiser le cycle de vie des modèles ML avec MLflow, DVC, CI/CD et monitoring

Décrire le cycle de vie MLOps et positionner chaque outil dans la chaîne de valeur
Configurer un serveur MLflow pour le suivi d'expériences, la gestion de modèles et le registre
Versionner des données et des pipelines ML avec DVC en lien avec Git
Construire un pipeline ML reproductible et paramétrable avec DVC Pipelines
Exposer un modèle en production via une API REST avec FastAPI et Docker
Automatiser l'entraînement, les tests et le déploiement via GitHub Actions (CI/CD/CT)
Détecter le data drift et le concept drift en production avec Evidently AI
Superviser les performances d'un modèle en production avec Prometheus et Grafana
Appliquer les bonnes pratiques de gouvernance et de reproductibilité sur un projet ML réel

Pour qui

Data scientists, ML engineers, data engineers et développeurs Python souhaitant industrialiser leurs modèles et maîtriser les pratiques MLOps en environnement professionnel.

Prérequis

Maîtrise de Python (fonctions, classes, environnements virtuels). Notions de Machine Learning (entraînement, évaluation, scikit-learn). Utilisation de base de Git et Docker.

Le problème de la mise en production ML : dette technique, reproductibilité, collaboration — pourquoi 85 % des modèles n'arrivent pas en production
Le cycle de vie MLOps : données → expérimentation → packaging → déploiement → monitoring → réentraînement
Positionnement des outils de la stack : MLflow, DVC, GitHub Actions, FastAPI, Docker, Evidently, Prometheus, Grafana
Architecture MLflow : Tracking Server, Model Registry, Projects, Models — composants et interactions
MLflow Tracking : concepts runs, experiments, paramètres, métriques, artefacts
TP : installation et configuration d'un serveur MLflow local, premier run instrumenté sur le modèle fil rouge (classification de risque crédit), comparaison de 3 runs avec hyperparamètres différents dans l'UI MLflow

MLflow Projects : structure MLproject, entry points, gestion des dépendances conda/pip
MLflow Models : flavors (sklearn, pytorch, pyfunc), schéma d'entrée/sortie, signature de modèle
MLflow Model Registry : cycle de vie Staging → Production → Archived, transitions manuelles et via API
Bonnes pratiques de nommage, de versioning et de documentation d'un modèle dans le Registry
Introduit en évocation : intégration MLflow avec Azure ML, SageMaker, Databricks
TP : enregistrement du meilleur modèle fil rouge dans le Model Registry, transition vers Staging via l'API Python, chargement et inférence depuis le Registry, documentation du modèle (description, tags, alias)

Limites de Git pour les données volumineuses : pourquoi DVC
DVC : initialisation, configuration d'un remote (S3, GCS, local), tracking de fichiers et dossiers
dvc add / dvc push / dvc pull : workflow de versioning des données en lien avec Git
DVC Pipelines : fichier dvc.yaml, stages, dépendances, sorties, cache DVC
Reproductibilité : dvc repro, dvc dag, traçabilité complète données → modèle
Métriques et paramètres DVC : dvc metrics show, dvc params diff, comparaison d'expériences
TP : mise sous versioning DVC du dataset fil rouge sur un remote local, construction d'un pipeline en 4 stages (ingestion → préparation → entraînement → évaluation), exécution reproductible, visualisation du DAG, comparaison de deux versions du pipeline après changement de paramètre

FastAPI pour le serving ML : structure d'une API de prédiction, endpoint /predict, /health, /metrics
Pydantic : validation des entrées et sorties de l'API
Chargement d'un modèle depuis le MLflow Model Registry dans une API FastAPI
Conteneurisation : Dockerfile pour une API ML, multi-stage build, bonnes pratiques d'image
Docker Compose : orchestration locale API + MLflow Tracking Server
Tests de l'API : pytest, httpx, test du endpoint /predict avec données de test
Introduit en évocation : déploiement Kubernetes, Helm charts, BentoML, Ray Serve
TP : développement de l'API FastAPI de prédiction chargeant le modèle fil rouge depuis le Registry, écriture du Dockerfile, build et run de l'image, tests des endpoints via pytest et via Swagger UI, ajout d'un endpoint /metrics pour Prometheus

Principes CI/CD appliqués au ML : différences avec le CI/CD logiciel classique, notion de CT (Continuous Training)
GitHub Actions : structure d'un workflow YAML, triggers (push, schedule, workflow_dispatch), jobs, steps
Pipeline CI : lint (flake8), tests unitaires (pytest), build image Docker, push vers un registry
Pipeline CD : déploiement automatisé de l'API après validation des tests
Pipeline CT : réentraînement automatique déclenché par un push sur les données DVC, promotion conditionnelle du modèle si métriques > seuil
Gestion des secrets GitHub : tokens MLflow, credentials cloud, clés registry Docker
TP : mise en place d'un workflow GitHub Actions complet sur le projet fil rouge — CI (lint + tests + build Docker), CD (push image et déploiement), CT (réentraînement déclenché par mise à jour du dataset DVC avec promotion automatique vers Production si AUC > 0.85)

Problématiques du monitoring ML : data drift, concept drift, dégradation silencieuse des performances
Evidently AI : rapports de drift (DataDriftPreset, DataQualityPreset, ClassificationPreset), détection de drift sur données réelles vs référence
Prometheus : collecte de métriques applicatives et métriques ML custom depuis l'API FastAPI
Grafana : création d'un dashboard de supervision (latence, volume de requêtes, distribution des prédictions, score de drift)
Stratégies de réentraînement : déclenchement basé sur le temps, sur le drift, sur la dégradation métrique
Gouvernance MLOps : traçabilité, audit, gestion des accès au Model Registry, documentation des modèles en production
TP : instrumentation de l'API fil rouge avec Evidently pour générer un rapport de drift hebdomadaire sur un batch de données simulées, configuration de Prometheus pour scraper les métriques de l'API, création d'un dashboard Grafana avec 4 panels (latence p95, volume prédictions, distribution des scores, drift score), simulation d'un drift et observation du déclenchement d'une alerte
Synthèse : récapitulatif du pipeline end-to-end construit sur 3 jours, points de vigilance en production, ressources pour progresser (documentation MLflow, DVC, Evidently, cours MLOps Zoomcamp)

Professionnel expert technique et pédagogique.

Résultats de la recherche