Machine Learning - Traitement de la parole

Formation créée le 21/05/2024. Dernière mise à jour le 18/04/2025.
Version du programme : 2
Taux de satisfaction des apprenants
7,2/10 (8 avis)

Type de formation

Formation présentielle

Durée de formation

21 heures (3 jours)

Accessibilité

Oui

Machine Learning - Traitement de la parole


Cette formation vise à fournir aux participants des connaissances approfondies dans le domaine de l'IA, en se concentrant spécifiquement sur le machine-learning et le traitement de la parole. Les participants acquerront une vue d'ensemble sur les technologies vocales modernes, y compris le codage, la reconnaissance et la synthèse de la parole, ainsi que les applications pratiques de ces technologies.

Objectifs de la formation

  • Comprendre les principes du traitement de la parole.
  • Appliquer des techniques de codage vocal.
  • Mettre en œuvre des modèles de reconnaissance automatique de la parole.
  • Comprendre les méthodes de synthèse vocale et les appliquer.
  • Explorer les applications pratiques du traitement de la parole.
  • Analyser des études de cas et résoudre des problèmes concrets.

Profil des bénéficiaires

Pour qui
  • Cette formation s'adresse à tout personnel technique, notamment les techniciens et ingénieurs, souhaitant acquérir des connaissances approfondies dans le domaine du traitement de la parole.
Prérequis
  • Des connaissances générales dans un domaine des télécommunications et/ou des réseaux sont recommandées.

Contenu de la formation

Introduction au traitement du signal audio (1,5 heures)
  • Définitions et concepts clés (signal, échantillonnage, quantification)
  • Représentations temporelle et fréquentielle des signaux
  • Signaux périodiques (sinus, carrés) et signaux aléatoires (bruit blanc, rose)
  • Optionnel : l'analyse spectrale (transformée de Fourier, spectrogramme, fenêtrage)
Caractéristiques du signal de parole (1 heures)
  • Production de la parole et organes phonatoires
  • Formants et enveloppe spectrale
  • Prosodie (intonation, rythme, accent)
Vue d'ensemble des technologies de reconnaissance et de synthèse vocale (3 heures)
  • Concepts fondamentaux (modélisation acoustique, modélisation linguistique, synthèse vocale)
  • Applications et cas d'utilisation
  • Traitement du signal audio
  • Exercice : Analyser un fichier WAV et extraire une caractéristique
  • Exercice : Chargement et visualisation de signaux audio avec Python
  • Exercice : Analyse spectrale et extraction de caractéristiques
  • Exercice : Exercices sur les signaux périodiques et le bruit
  • Exercice : Analyse de signaux de parole
Techniques de modélisation acoustique (Réseaux de neurones profonds) (2,5 heures)
  • Exercice : Workflow d'un système de reconnaissance vocale
  • Exercice : Évaluation et métriques
  • Exercice : Extraction de caractéristiques et traitement du signal
Modèles acoustiques (3 heures)
  • Réseaux de neurones (RNN, LSTM, GRU)
  • Transformers (attention, self-attention)
  • Optionnel : Les techniques de prétraitement du signal (préaccentuation, normalisation, suppression du silence)
Boîte à outils du traitement de la parole (4 heures)
  • Introduction aux boîtes à outils populaires de reconnaissance vocale (speech-to-text)
  • Introduction aux boîtes à outils populaires de synthèse vocale (text-to-speech)
  • Traitement des données dans la reconnaissance vocale
  • Chargement de modèles pré-entraînés (Hugging Face)
  • Exercice : Travaux pratiques avec les boîtes à outils
  • Exercice : Prétraitement de signaux de parole
  • Exercice : Entraînement d'un modèle acoustique simple
  • Exercice : Évaluation des performances
Modèles de langage (3 heures)
  • Modèles de reconnaissance vocale end-to-end (Transformer, Conformer)
  • Exploration des architectures Transformer audio, comprendre leurs différences et les tâches auxquelles elles sont le mieux adaptées (reconnaissance vocale multi-locuteurs et multilingue, bonus : transfert d'apprentissage et adaptation au domaine)
Travaux pratiques (4 heures)
  • Exercice (créer application) : Apprendre à générer du texte à partir de la parole OU Apprendre à générer de la parole à partir de texte
  • Bonus / Optionnel : Considérations pour le déploiement (services cloud, solutions sur site, appareils de périphérie)
  • Bonus / Optionnel : Considérations éthiques et de confidentialité dans les technologies de la parole
  • Bonus / Optionnel : Optimisation des performances et compression de modèles

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
  • Émargement numérique.

Ressources techniques et pédagogiques

  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.
  • Espace intranet de formation

Qualité et satisfaction

Taux de satisfaction des apprenants. Nombre d'apprenants. Taux et causes des abandons. Taux de retour des enquêtes.
Taux de satisfaction des apprenants
7,2/10 (8 avis)

Accessibilité

Du 15 au 17 octobre 2025