Deep Learning Avancé : des Transformers à l'IA Générative
PyTorch, fine-tuning LoRA, modèles de diffusion et déploiement
Formation créée le 31/03/2026.Version du programme : 1
Type de formation
PrésentielDurée de formation
35 heures (5 jours)
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire
Deep Learning Avancé : des Transformers à l'IA Générative
PyTorch, fine-tuning LoRA, modèles de diffusion et déploiement
Maîtriser les architectures fondamentales et modernes du deep learning, des réseaux convolutifs aux Transformers, en passant par le fine-tuning de LLMs, les modèles génératifs et l'optimisation pour la production. Acquérir une expérience pratique solide avec PyTorch et l'écosystème Hugging Face.
Objectifs de la formation
- Maîtriser PyTorch comme framework principal de développement de modèles de deep learning
- Comprendre et implémenter les architectures CNN avancées et le transfer learning
- Appréhender en profondeur le mécanisme d'attention et l'architecture Transformer
- Fine-tuner des modèles de langage pré-entraînés avec les techniques modernes (LoRA, QLoRA, Hugging Face)
- Comprendre les architectures génératives : VAE, GANs, modèles de diffusion
- Maîtriser les techniques d'optimisation et de déploiement de modèles en production
Profil des bénéficiaires
Pour qui
- Ingénieurs et développeurs souhaitant maîtriser les architectures de deep learning modernes
- Data scientists ayant des bases en machine learning et souhaitant progresser vers le deep learning
- Chefs de projet IA et consultants souhaitant acquérir une compréhension technique approfondie des modèles
Prérequis
- Connaissances solides en machine learning (supervisé, non supervisé, évaluation de modèles)
- Pratique de Python (numpy, pandas)
- Notions de statistiques et d'algèbre linéaire
- Avoir suivi la formation "Introduction au Deep Learning" ou connaissances équivalentes
Contenu de la formation
PyTorch : fondamentaux et écosystème
- Positionnement de PyTorch vs TensorFlow : état du marché 2025
- Tenseurs, autograd et graphe de calcul dynamique
- Pipeline d'entraînement : Dataset, DataLoader, transforms
- Modules torch.nn, torch.optim, schedulers
- Débogage et profiling avec PyTorch
- Travaux pratiques : mise en place d'un pipeline d'entraînement complet avec PyTorch
Réseaux convolutifs avancés
- Rappels : convolution, pooling, stride, padding
- Architectures de référence : VGG, ResNet, EfficientNet — principes et comparaison
- Connexions résiduelles et skip connections : pourquoi elles fonctionnent
- Batch Normalization, Dropout, régularisation avancée
- Transfer learning : feature extraction vs fine-tuning complet
- Data augmentation : techniques classiques et avancées (MixUp, CutMix)
- Travaux pratiques : classification d'images avec ResNet pré-entraîné, comparaison des stratégies de transfer learning
Des RNN aux Transformers : pourquoi le changement de paradigme
- Limites des architectures récurrentes (RNN, LSTM, GRU) : dépendances longues, non-parallélisme
- Seq2Seq et le premier mécanisme d'attention (Bahdanau, 2015)
- "Attention is All You Need" : rupture et conséquences
Le mécanisme d'attention en détail
- Queries, Keys, Values : intuition et formalisme
- Attention scalaire produit : calcul, softmax, pondération
- Multi-head attention : capter plusieurs types de relations en parallèle
- Complexité computationnelle en O(n²) et solutions : attention linéaire, sparse attention, FlashAttention
- Positional encoding : absolu, relatif, RoPE (Rotary Position Embedding)
Architecture Transformer complète
- Encodeur : self-attention + feed-forward + layer norm + résidus
- Décodeur : masked self-attention + cross-attention
- BERT (encodeur seul), GPT (décodeur seul), T5/BART (encodeur-décodeur) : quand utiliser quoi
- Tokenisation : BPE, WordPiece, SentencePiece — impact sur les performances
- Travaux pratiques : implémentation from scratch d'un Transformer simplifié avec PyTorch, visualisation des têtes d'attention
Grands modèles de langage : architecture et fonctionnement
- Scaling laws : pourquoi les grands modèles émergent
- Pré-entraînement : masked language modeling, causal language modeling
- Instruction tuning et RLHF : comment ChatGPT est construit
- Panorama des modèles open source : Llama, Mistral, Falcon, Phi
Écosystème Hugging Face
- Hub, Transformers, Datasets, Tokenizers, Evaluate : tour d'horizon
- Charger, inspecter et utiliser un modèle pré-entraîné
- Pipelines pour l'inférence : classification, NER, résumé, génération
- Travaux pratiques : exploration et inférence avec plusieurs modèles du Hub
Fine-tuning de LLMs : techniques modernes
- Fine-tuning complet vs fine-tuning partiel : compromis mémoire/performance
- PEFT (Parameter-Efficient Fine-Tuning) : principe général
- LoRA (Low-Rank Adaptation) : décomposition de matrices, rang, alpha
- QLoRA : quantization 4 bits + LoRA, entraînement sur GPU grand public
- Préparation des données : formats d'instruction, prompt templates
- Évaluation : perplexité, BLEU, ROUGE, benchmarks spécialisés
- Travaux pratiques : fine-tuning d'un modèle de langage avec LoRA sur un corpus métier via Hugging Face PEFT
Autoencodeurs et modèles variationnels
- Autoencodeurs : encoder, espace latent, décodeur
- VAE (Variational Autoencoders) : espace latent continu, reparametrization trick
- Applications : compression, débruitage, génération contrôlée
- Travaux pratiques : implémentation d'un VAE avec PyTorch
GANs : principes et architectures
- Architecture GAN : générateur et discriminateur en jeu adversarial
- Instabilités d'entraînement : mode collapse, training collapse
- Variantes stabilisées : WGAN, DCGAN, StyleGAN (lecture commentée)
- Pourquoi les GANs ont été supplantés par les modèles de diffusion
Modèles de diffusion
- Processus de diffusion : ajout progressif de bruit gaussien
- Processus de débruitage (reverse diffusion) : DDPM
- Score matching et DDIM : accélération de l'inférence
- Latent Diffusion Models : Stable Diffusion, architecture U-Net dans l'espace latent
- Guidance : classifier guidance, classifier-free guidance, ControlNet
- Applications au texte et aux données tabulaires
- Travaux pratiques : utilisation et exploration d'un modèle de diffusion pré-entraîné
Vision Transformers (ViT) et modèles multimodaux
- Patchification : découper une image en tokens
- ViT vs CNN : biais inductif vs apprentissage de la structure spatiale
- Modèles hybrides CNN+Transformer : Swin Transformer
- Modèles multimodaux : CLIP (vision + texte), principe et applications
- Travaux pratiques : classification d'images avec ViT pré-entraîné, comparaison avec ResNet
Optimisation des modèles pour la production
- Quantization : INT8, INT4, GGUF — principes et compromis
- Pruning et distillation de modèles
- Inférence efficace : batching dynamique, KV cache, speculative decoding
- Formats d'export : ONNX, TensorRT
- Outils de monitoring : Weights & Biases, TensorBoard
Déploiement de modèles
- Serving de modèles : TorchServe, Triton Inference Server
- APIs d'inférence : FastAPI + modèle PyTorch
- Déploiement cloud : Hugging Face Inference Endpoints, AWS SageMaker (introduction)
- Gestion des versions et registre de modèles
Projet de synthèse
- Conception et implémentation d'un pipeline de bout en bout au choix
- Pipeline NLP : ingestion de documents > embeddings > indexation vectorielle > recherche sémantique > réponse augmentée
- Pipeline vision : fine-tuning d'un ViT sur un jeu de données métier > optimisation > API d'inférence
- Pipeline génératif : fine-tuning LoRA d'un LLM sur corpus spécialisé > évaluation > déploiement
- Présentation et revue critique des choix architecturaux
- Discussion : bonnes pratiques, pièges fréquents, évolutions à surveiller
Ressources techniques et pédagogiques
- Espace numérique de travail avec accès GPU (Google Colab Pro ou équivalent)
- Documents supports de formation projetés
- Exposés théoriques
- Étude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation
- Travaux pratiques (Minimum 60 % du temps de formation)