Deep Learning Avancé : des Transformers à l'IA Générative

PyTorch, fine-tuning LoRA, modèles de diffusion et déploiement

Formation créée le 31/03/2026.
Version du programme : 1

Type de formation

Présentiel

Durée de formation

35 heures (5 jours)
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire

Deep Learning Avancé : des Transformers à l'IA Générative

PyTorch, fine-tuning LoRA, modèles de diffusion et déploiement


Maîtriser les architectures fondamentales et modernes du deep learning, des réseaux convolutifs aux Transformers, en passant par le fine-tuning de LLMs, les modèles génératifs et l'optimisation pour la production. Acquérir une expérience pratique solide avec PyTorch et l'écosystème Hugging Face.

Objectifs de la formation

  • Maîtriser PyTorch comme framework principal de développement de modèles de deep learning
  • Comprendre et implémenter les architectures CNN avancées et le transfer learning
  • Appréhender en profondeur le mécanisme d'attention et l'architecture Transformer
  • Fine-tuner des modèles de langage pré-entraînés avec les techniques modernes (LoRA, QLoRA, Hugging Face)
  • Comprendre les architectures génératives : VAE, GANs, modèles de diffusion
  • Maîtriser les techniques d'optimisation et de déploiement de modèles en production

Profil des bénéficiaires

Pour qui
  • Ingénieurs et développeurs souhaitant maîtriser les architectures de deep learning modernes
  • Data scientists ayant des bases en machine learning et souhaitant progresser vers le deep learning
  • Chefs de projet IA et consultants souhaitant acquérir une compréhension technique approfondie des modèles
Prérequis
  • Connaissances solides en machine learning (supervisé, non supervisé, évaluation de modèles)
  • Pratique de Python (numpy, pandas)
  • Notions de statistiques et d'algèbre linéaire
  • Avoir suivi la formation "Introduction au Deep Learning" ou connaissances équivalentes

Contenu de la formation

PyTorch : fondamentaux et écosystème
  • Positionnement de PyTorch vs TensorFlow : état du marché 2025
  • Tenseurs, autograd et graphe de calcul dynamique
  • Pipeline d'entraînement : Dataset, DataLoader, transforms
  • Modules torch.nn, torch.optim, schedulers
  • Débogage et profiling avec PyTorch
  • Travaux pratiques : mise en place d'un pipeline d'entraînement complet avec PyTorch
Réseaux convolutifs avancés
  • Rappels : convolution, pooling, stride, padding
  • Architectures de référence : VGG, ResNet, EfficientNet — principes et comparaison
  • Connexions résiduelles et skip connections : pourquoi elles fonctionnent
  • Batch Normalization, Dropout, régularisation avancée
  • Transfer learning : feature extraction vs fine-tuning complet
  • Data augmentation : techniques classiques et avancées (MixUp, CutMix)
  • Travaux pratiques : classification d'images avec ResNet pré-entraîné, comparaison des stratégies de transfer learning
Des RNN aux Transformers : pourquoi le changement de paradigme
  • Limites des architectures récurrentes (RNN, LSTM, GRU) : dépendances longues, non-parallélisme
  • Seq2Seq et le premier mécanisme d'attention (Bahdanau, 2015)
  • "Attention is All You Need" : rupture et conséquences
Le mécanisme d'attention en détail
  • Queries, Keys, Values : intuition et formalisme
  • Attention scalaire produit : calcul, softmax, pondération
  • Multi-head attention : capter plusieurs types de relations en parallèle
  • Complexité computationnelle en O(n²) et solutions : attention linéaire, sparse attention, FlashAttention
  • Positional encoding : absolu, relatif, RoPE (Rotary Position Embedding)
Architecture Transformer complète
  • Encodeur : self-attention + feed-forward + layer norm + résidus
  • Décodeur : masked self-attention + cross-attention
  • BERT (encodeur seul), GPT (décodeur seul), T5/BART (encodeur-décodeur) : quand utiliser quoi
  • Tokenisation : BPE, WordPiece, SentencePiece — impact sur les performances
  • Travaux pratiques : implémentation from scratch d'un Transformer simplifié avec PyTorch, visualisation des têtes d'attention
Grands modèles de langage : architecture et fonctionnement
  • Scaling laws : pourquoi les grands modèles émergent
  • Pré-entraînement : masked language modeling, causal language modeling
  • Instruction tuning et RLHF : comment ChatGPT est construit
  • Panorama des modèles open source : Llama, Mistral, Falcon, Phi
Écosystème Hugging Face
  • Hub, Transformers, Datasets, Tokenizers, Evaluate : tour d'horizon
  • Charger, inspecter et utiliser un modèle pré-entraîné
  • Pipelines pour l'inférence : classification, NER, résumé, génération
  • Travaux pratiques : exploration et inférence avec plusieurs modèles du Hub
Fine-tuning de LLMs : techniques modernes
  • Fine-tuning complet vs fine-tuning partiel : compromis mémoire/performance
  • PEFT (Parameter-Efficient Fine-Tuning) : principe général
  • LoRA (Low-Rank Adaptation) : décomposition de matrices, rang, alpha
  • QLoRA : quantization 4 bits + LoRA, entraînement sur GPU grand public
  • Préparation des données : formats d'instruction, prompt templates
  • Évaluation : perplexité, BLEU, ROUGE, benchmarks spécialisés
  • Travaux pratiques : fine-tuning d'un modèle de langage avec LoRA sur un corpus métier via Hugging Face PEFT
Autoencodeurs et modèles variationnels
  • Autoencodeurs : encoder, espace latent, décodeur
  • VAE (Variational Autoencoders) : espace latent continu, reparametrization trick
  • Applications : compression, débruitage, génération contrôlée
  • Travaux pratiques : implémentation d'un VAE avec PyTorch
GANs : principes et architectures
  • Architecture GAN : générateur et discriminateur en jeu adversarial
  • Instabilités d'entraînement : mode collapse, training collapse
  • Variantes stabilisées : WGAN, DCGAN, StyleGAN (lecture commentée)
  • Pourquoi les GANs ont été supplantés par les modèles de diffusion
Modèles de diffusion
  • Processus de diffusion : ajout progressif de bruit gaussien
  • Processus de débruitage (reverse diffusion) : DDPM
  • Score matching et DDIM : accélération de l'inférence
  • Latent Diffusion Models : Stable Diffusion, architecture U-Net dans l'espace latent
  • Guidance : classifier guidance, classifier-free guidance, ControlNet
  • Applications au texte et aux données tabulaires
  • Travaux pratiques : utilisation et exploration d'un modèle de diffusion pré-entraîné
Vision Transformers (ViT) et modèles multimodaux
  • Patchification : découper une image en tokens
  • ViT vs CNN : biais inductif vs apprentissage de la structure spatiale
  • Modèles hybrides CNN+Transformer : Swin Transformer
  • Modèles multimodaux : CLIP (vision + texte), principe et applications
  • Travaux pratiques : classification d'images avec ViT pré-entraîné, comparaison avec ResNet
Optimisation des modèles pour la production
  • Quantization : INT8, INT4, GGUF — principes et compromis
  • Pruning et distillation de modèles
  • Inférence efficace : batching dynamique, KV cache, speculative decoding
  • Formats d'export : ONNX, TensorRT
  • Outils de monitoring : Weights & Biases, TensorBoard
Déploiement de modèles
  • Serving de modèles : TorchServe, Triton Inference Server
  • APIs d'inférence : FastAPI + modèle PyTorch
  • Déploiement cloud : Hugging Face Inference Endpoints, AWS SageMaker (introduction)
  • Gestion des versions et registre de modèles
Projet de synthèse
  • Conception et implémentation d'un pipeline de bout en bout au choix
  • Pipeline NLP : ingestion de documents > embeddings > indexation vectorielle > recherche sémantique > réponse augmentée
  • Pipeline vision : fine-tuning d'un ViT sur un jeu de données métier > optimisation > API d'inférence
  • Pipeline génératif : fine-tuning LoRA d'un LLM sur corpus spécialisé > évaluation > déploiement
  • Présentation et revue critique des choix architecturaux
  • Discussion : bonnes pratiques, pièges fréquents, évolutions à surveiller

Ressources techniques et pédagogiques

  • Espace numérique de travail avec accès GPU (Google Colab Pro ou équivalent)
  • Documents supports de formation projetés
  • Exposés théoriques
  • Étude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation
  • Travaux pratiques (Minimum 60 % du temps de formation)