
Machine Learning - Traitement de la parole
Formation créée le 21/05/2024. Dernière mise à jour le 18/04/2025.
Version du programme : 2
Programme de la formation
Cette formation vise à fournir aux participants des connaissances approfondies dans le domaine de l'IA, en se concentrant spécifiquement sur le machine-learning et le traitement de la parole. Les participants acquerront une vue d'ensemble sur les technologies vocales modernes, y compris le codage, la reconnaissance et la synthèse de la parole, ainsi que les applications pratiques de ces technologies.
Objectifs de la formation
- Comprendre les principes du traitement de la parole.
- Appliquer des techniques de codage vocal.
- Mettre en œuvre des modèles de reconnaissance automatique de la parole.
- Comprendre les méthodes de synthèse vocale et les appliquer.
- Explorer les applications pratiques du traitement de la parole.
- Analyser des études de cas et résoudre des problèmes concrets.
Profil des bénéficiaires
- Cette formation s'adresse à tout personnel technique, notamment les techniciens et ingénieurs, souhaitant acquérir des connaissances approfondies dans le domaine du traitement de la parole.
- Des connaissances générales dans un domaine des télécommunications et/ou des réseaux sont recommandées.
Contenu de la formation
-
Introduction au traitement du signal audio (1,5 heures)
- Définitions et concepts clés (signal, échantillonnage, quantification)
- Représentations temporelle et fréquentielle des signaux
- Signaux périodiques (sinus, carrés) et signaux aléatoires (bruit blanc, rose)
- Optionnel : l'analyse spectrale (transformée de Fourier, spectrogramme, fenêtrage)
-
Caractéristiques du signal de parole (1 heures)
- Production de la parole et organes phonatoires
- Formants et enveloppe spectrale
- Prosodie (intonation, rythme, accent)
-
Vue d'ensemble des technologies de reconnaissance et de synthèse vocale (3 heures)
- Concepts fondamentaux (modélisation acoustique, modélisation linguistique, synthèse vocale)
- Applications et cas d'utilisation
- Traitement du signal audio
- Exercice : Analyser un fichier WAV et extraire une caractéristique
- Exercice : Chargement et visualisation de signaux audio avec Python
- Exercice : Analyse spectrale et extraction de caractéristiques
- Exercice : Exercices sur les signaux périodiques et le bruit
- Exercice : Analyse de signaux de parole
-
Techniques de modélisation acoustique (Réseaux de neurones profonds) (2,5 heures)
- Exercice : Workflow d'un système de reconnaissance vocale
- Exercice : Évaluation et métriques
- Exercice : Extraction de caractéristiques et traitement du signal
-
Modèles acoustiques (3 heures)
- Réseaux de neurones (RNN, LSTM, GRU)
- Transformers (attention, self-attention)
- Optionnel : Les techniques de prétraitement du signal (préaccentuation, normalisation, suppression du silence)
-
Boîte à outils du traitement de la parole (4 heures)
- Introduction aux boîtes à outils populaires de reconnaissance vocale (speech-to-text)
- Introduction aux boîtes à outils populaires de synthèse vocale (text-to-speech)
- Traitement des données dans la reconnaissance vocale
- Chargement de modèles pré-entraînés (Hugging Face)
- Exercice : Travaux pratiques avec les boîtes à outils
- Exercice : Prétraitement de signaux de parole
- Exercice : Entraînement d'un modèle acoustique simple
- Exercice : Évaluation des performances
-
Modèles de langage (3 heures)
- Modèles de reconnaissance vocale end-to-end (Transformer, Conformer)
- Exploration des architectures Transformer audio, comprendre leurs différences et les tâches auxquelles elles sont le mieux adaptées (reconnaissance vocale multi-locuteurs et multilingue, bonus : transfert d'apprentissage et adaptation au domaine)
-
Travaux pratiques (4 heures)
- Exercice (créer application) : Apprendre à générer du texte à partir de la parole OU Apprendre à générer de la parole à partir de texte
- Bonus / Optionnel : Considérations pour le déploiement (services cloud, solutions sur site, appareils de périphérie)
- Bonus / Optionnel : Considérations éthiques et de confidentialité dans les technologies de la parole
- Bonus / Optionnel : Optimisation des performances et compression de modèles
Professionnel expert technique et pédagogique.
- Feuilles de présence.
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
- Émargement numérique.
- Documents supports de formation projetés.
- Exposés théoriques
- Etude de cas concrets
- Mise à disposition en ligne de documents supports à la suite de la formation.
- Espace intranet de formation