Machine Learning - Natural Language Processing
Formation créée le 12/05/2022. Dernière mise à jour le 16/03/2023.
Version du programme : 1
Programme de la formation
Objectif de formation : Le traitement du langage naturel NLP (Natural Language Processing) est une branche de l'intelligence artificielle qui aide les ordinateurs à comprendre, interpréter et manipuler le langage humain. Le NLP s'inspire de nombreuses disciplines, notamment l'informatique et la linguistique computationnelle, pour combler le fossé entre la communication humaine et la compréhension de l'ordinateur. Cette formation vise à présenter le NLP, à en comprendre les nuances et le contexte qui l'entoure, ainsi que le traitement par vectorisation (ou "embedding").
Objectifs de la formation
- Comprendre les technologies de NLU et les architectures pour les mettre en place
- Appliquer des modèles sémantiques structurés sur des applications de récupération d’information
- Appliquer les modèles NLP pour résoudre des problèmes de rapprochement sémantique
- Manipuler des modèles pré entraînés associé à une architecture innovante (Transformers)
Profil des bénéficiaires
- Ingénieurs
- Chefs de projets IA
- Consultants IA
- Développeurs
- Maîtriser la programmation python
- Notions en IA/Machine learning
Contenu de la formation
-
Introduction à l'IA, Machine Learning & NLP (0,2 jour)
- Définition
- Données structurées et non structurées
- Exemples d’applications du NLP
- Lien avec le Machine Learning
-
Création d’un corpus, nettoyage de texte et réduction de la dimensionnalité (0,2 jour)
- Interroger les chaînes de caractères et transformer un texte
- Définition des regex et fonctions de base de nettoyage
- Intérêt de la réduction de dimensionnalité
- Différence avec la réduction de dimension
- Présentation des méthodes classiques de réduction (Harmonisation, Correction orthographique, Synonymes, Stopwords, Lemmatisation et Stemming )
- Travaux pratiques : construction de fonctions de nettoyage et normalisation pour le texte français (accents, caractères spéciaux, lemm, stem, stop words, …)
-
Structurer les données dans des matrices de scores (modèles statistiques) (0,6 jour)
- Présentation du vocabulaire
- Matrice termes-documents
- Définition des tokens et notions de n-grams
- Modèles statistiques classiques en NLP : Word Count, TF-IDF
- Influence des données sur le choix des indicateurs
- Travaux pratiques : extraction d’expression caractérisant des commentaires clients
-
Réalisation d’un algorithme d’apprentissage (0,4 jour)
- Rappels de Machine Learning
- Classification binaire (Régression Logistique, Naives Bayes, SVM et Random Forest)
- Travaux pratiques : application sur un classifier de polarité de document (positif/négatif)
-
Featurisation du texte et similarité sémantique (0,4 jour)
- Rappels outils d’analyse de distance (Manhattan, Jaccard, Cosinus, …)
- Qualification du rapprochement sémantique de documents
- Travaux pratiques : réalisation d’outils de rapprochement sémantique CV/poste d’emploi
- Travaux pratiques : réalisation d’un chatbot 2nd generation (pour FAQ)
-
Deep Learning & architecture transformers (1,2 jours)
- Word embedding
- Rappels RNN
- “Attention is all you need”
- Modèles pré entrainés BERT
- Library NLP / DL : PyTorch, Hugging face et spacy
- Travaux pratiques : manipulation BERT sur “use case” et utilisation de PyTorch & Hugging Face
Professionnel expert technique et pédagogique.
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
- Espace numérique de travail
- Documents supports de formation projetés
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation