Text Mining & Natural Language Processing - Pratique
0/10
(0 avis)
Formation créée le 28/05/2021. Dernière mise à jour le 25/07/2022.
Version du programme : 1
Programme de la formation
Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.
Objectifs de la formation
- Appréhender les techniques de la statistique textuelle
- Réaliser l’extraction des caractéristiques de données textuelles
- Construire des sélections et des classements dans des volumes importants de données textuelles
- Définir un algorithme de classification
- Mesurer les performances prédictives d’un algorithme
Profil des bénéficiaires
Pour qui
- Ingénieurs
- Chefs de projets IA
- Consultants IA
- Toute personne souhaitant utiliser le Text Mining
Prérequis
- Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
- Avoir une expérience pratique
Contenu de la formation
-
Les bases traditionnelles du Text Mining
- L’utilisation d’API pour récupérer des données textuelles
- Préparer les données textuelles selon le cas d’usage
- Récupérer et explorer le corpus de textes
- Supprimer les caractères accentués et spéciaux
- Stemming Lemmatization & retrait des mots de liaison
- Rassembler les données pour le nettoyage
- Normaliser les données
- Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données
-
Feature engineering : répresentation de texte
- Présentation de la syntaxe et de la structure du texte
- Le modèle Bag of Words & Bag of N-Grams
- Le modèle TF-IDF, Transformer & Vectorizer
- Le modèle Word2Vec et l’implémenter avec Gensim
- Le modèle GloVe
- Le modèle FastText
- Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.
-
Similarité des textes et classification non-supervisée
- Les concepts fondamentaux de similarité
- Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein
- Analyser la similarité des documents
- Okopi BM25 et le palmarès de classement
- Les algorithmes de classification non supervisée
- Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits
-
La classification supervisée du texte
- Prétraitement et normalisation des données
- Modèles de classification
- Multinomial Naïve Bayes
- Régression logistique
- Support Vector Machines
- Random forest
- Gradient Boosting Machines
- Évaluation des modèles de classification
- Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données
-
NLP & Deep Learning
- Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
- Les librairies de Deep Learning : Theano, TensorFlow, Keras
- Natural Language Processing & Recurrent Neural Networks
- RNN & Long Short-Term Memory
- Les modèles bidirectionnels RNN
- Les modèles Sequence-to-Sequence
- Questions & réponses avec les modèles RNN
- Travaux pratiques : créer un RNN pour générer un texte
Équipe pédagogique
Professionnel expert technique et pédagogique.
Suivi de l'exécution et évaluation des résultats
- Émargement numérique
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Espace intranet de formation
- Documents supports de formation projetés.
- Exposés théoriques
- Etude de cas concrets
- Mise à disposition en ligne de documents supports à la suite de la formation.
Qualité et satisfaction
Taux de satisfaction des stagiaires, progression des compétences visées, taux d'abandon, taux de retour des enquêtes, taux d'interruption en cours de prestation
0/10
(0 avis)