Text Mining & Natural Language Processing - Pratique

Formation créée le 28/05/2021. Dernière mise à jour le 25/07/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)
Cette formation est gratuite.
S'inscrire
Cette formation est gratuite.
S'inscrire

Text Mining & Natural Language Processing - Pratique


Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.

Objectifs de la formation

  • Appréhender les techniques de la statistique textuelle
  • Réaliser l’extraction des caractéristiques de données textuelles
  • Construire des sélections et des classements dans des volumes importants de données textuelles
  • Définir un algorithme de classification
  • Mesurer les performances prédictives d’un algorithme

Profil des bénéficiaires

Pour qui
  • Ingénieurs
  • Chefs de projets IA
  • Consultants IA
  • Toute personne souhaitant utiliser le Text Mining
Prérequis
  • Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
  • Avoir une expérience pratique

Contenu de la formation

Les bases traditionnelles du Text Mining
  • L’utilisation d’API pour récupérer des données textuelles
  • Préparer les données textuelles selon le cas d’usage
  • Récupérer et explorer le corpus de textes
  • Supprimer les caractères accentués et spéciaux
  • Stemming Lemmatization & retrait des mots de liaison
  • Rassembler les données pour le nettoyage
  • Normaliser les données
  • Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données
Feature engineering : répresentation de texte
  • Présentation de la syntaxe et de la structure du texte
  • Le modèle Bag of Words & Bag of N-Grams
  • Le modèle TF-IDF, Transformer & Vectorizer
  • Le modèle Word2Vec et l’implémenter avec Gensim
  • Le modèle GloVe
  • Le modèle FastText
  • Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.
Similarité des textes et classification non-supervisée
  • Les concepts fondamentaux de similarité
  • Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein
  • Analyser la similarité des documents
  • Okopi BM25 et le palmarès de classement
  • Les algorithmes de classification non supervisée
  • Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits
La classification supervisée du texte
  • Prétraitement et normalisation des données
  • Modèles de classification
  • Multinomial Naïve Bayes
  • Régression logistique
  • Support Vector Machines
  • Random forest
  • Gradient Boosting Machines
  • Évaluation des modèles de classification
  • Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données
NLP & Deep Learning
  • Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
  • Les librairies de Deep Learning : Theano, TensorFlow, Keras
  • Natural Language Processing & Recurrent Neural Networks
  • RNN & Long Short-Term Memory
  • Les modèles bidirectionnels RNN
  • Les modèles Sequence-to-Sequence
  • Questions & réponses avec les modèles RNN
  • Travaux pratiques : créer un RNN pour générer un texte

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Émargement numérique
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

  • Espace intranet de formation
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Qualité et satisfaction

Taux de satisfaction des stagiaires, progression des compétences visées, taux d'abandon, taux de retour des enquêtes, taux d'interruption en cours de prestation