Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Machine Learning - Traitement de la parole

Machine Learning - Traitement de la parole

Formation présentielle
Accessible
Durée : 21 heures (3 jours)
Taux de satisfaction :
7,2/10
(8 avis)
Durée :21 heures (3 jours)
HT
S'inscrire
Durée :21 heures (3 jours)
HT
S'inscrire
Durée :21 heures (3 jours)
HT
S'inscrire

Formation créée le 21/05/2024. Dernière mise à jour le 18/04/2025.

Version du programme : 2

Programme de la formation

Cette formation vise à fournir aux participants des connaissances approfondies dans le domaine de l'IA, en se concentrant spécifiquement sur le machine-learning et le traitement de la parole. Les participants acquerront une vue d'ensemble sur les technologies vocales modernes, y compris le codage, la reconnaissance et la synthèse de la parole, ainsi que les applications pratiques de ces technologies.

Objectifs de la formation

  • Comprendre les principes du traitement de la parole.
  • Appliquer des techniques de codage vocal.
  • Mettre en œuvre des modèles de reconnaissance automatique de la parole.
  • Comprendre les méthodes de synthèse vocale et les appliquer.
  • Explorer les applications pratiques du traitement de la parole.
  • Analyser des études de cas et résoudre des problèmes concrets.

Profil des bénéficiaires

Pour qui
  • Cette formation s'adresse à tout personnel technique, notamment les techniciens et ingénieurs, souhaitant acquérir des connaissances approfondies dans le domaine du traitement de la parole.
Prérequis
  • Des connaissances générales dans un domaine des télécommunications et/ou des réseaux sont recommandées.

Contenu de la formation

  • Introduction au traitement du signal audio (1,5 heures)
    • Définitions et concepts clés (signal, échantillonnage, quantification)
    • Représentations temporelle et fréquentielle des signaux
    • Signaux périodiques (sinus, carrés) et signaux aléatoires (bruit blanc, rose)
    • Optionnel : l'analyse spectrale (transformée de Fourier, spectrogramme, fenêtrage)
  • Caractéristiques du signal de parole (1 heures)
    • Production de la parole et organes phonatoires
    • Formants et enveloppe spectrale
    • Prosodie (intonation, rythme, accent)
  • Vue d'ensemble des technologies de reconnaissance et de synthèse vocale (3 heures)
    • Concepts fondamentaux (modélisation acoustique, modélisation linguistique, synthèse vocale)
    • Applications et cas d'utilisation
    • Traitement du signal audio
    • Exercice : Analyser un fichier WAV et extraire une caractéristique
    • Exercice : Chargement et visualisation de signaux audio avec Python
    • Exercice : Analyse spectrale et extraction de caractéristiques
    • Exercice : Exercices sur les signaux périodiques et le bruit
    • Exercice : Analyse de signaux de parole
  • Techniques de modélisation acoustique (Réseaux de neurones profonds) (2,5 heures)
    • Exercice : Workflow d'un système de reconnaissance vocale
    • Exercice : Évaluation et métriques
    • Exercice : Extraction de caractéristiques et traitement du signal
  • Modèles acoustiques (3 heures)
    • Réseaux de neurones (RNN, LSTM, GRU)
    • Transformers (attention, self-attention)
    • Optionnel : Les techniques de prétraitement du signal (préaccentuation, normalisation, suppression du silence)
  • Boîte à outils du traitement de la parole (4 heures)
    • Introduction aux boîtes à outils populaires de reconnaissance vocale (speech-to-text)
    • Introduction aux boîtes à outils populaires de synthèse vocale (text-to-speech)
    • Traitement des données dans la reconnaissance vocale
    • Chargement de modèles pré-entraînés (Hugging Face)
    • Exercice : Travaux pratiques avec les boîtes à outils
    • Exercice : Prétraitement de signaux de parole
    • Exercice : Entraînement d'un modèle acoustique simple
    • Exercice : Évaluation des performances
  • Modèles de langage (3 heures)
    • Modèles de reconnaissance vocale end-to-end (Transformer, Conformer)
    • Exploration des architectures Transformer audio, comprendre leurs différences et les tâches auxquelles elles sont le mieux adaptées (reconnaissance vocale multi-locuteurs et multilingue, bonus : transfert d'apprentissage et adaptation au domaine)
  • Travaux pratiques (4 heures)
    • Exercice (créer application) : Apprendre à générer du texte à partir de la parole OU Apprendre à générer de la parole à partir de texte
    • Bonus / Optionnel : Considérations pour le déploiement (services cloud, solutions sur site, appareils de périphérie)
    • Bonus / Optionnel : Considérations éthiques et de confidentialité dans les technologies de la parole
    • Bonus / Optionnel : Optimisation des performances et compression de modèles
Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
  • Émargement numérique.
Ressources techniques et pédagogiques
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.
  • Espace intranet de formation

Qualité et satisfaction

Taux de satisfaction des apprenants. Nombre d'apprenants. Taux et causes des abandons. Taux de retour des enquêtes.
Taux de satisfaction des apprenants
7,2/10
(8 avis)

Accessibilité

Du 15 au 17 octobre 2025