Big Data - Data classification

Formation créée le 21/02/2023. Dernière mise à jour le 16/03/2023.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

14 heures (2 jours)

Big Data - Data classification


Objectif de formation : Appréhender le Machine Learning du point de vue du traitement de la donnée ainsi qu’au processus de modélisation statistique

Objectifs de la formation

  • Savoir définir les étapes de préparation des données
  • Comprendre et mettre en oeuvre l’apprentissage automatique
  • Appréhender les techniques de classification de données
  • Comprendre les apports des réseaux de neurones et du Deep Learning

Profil des bénéficiaires

Pour qui
  • Chefs de projets
  • Développeurs
  • Data scientists
  • Architectes
Prérequis
  • Connaissances des principes du Big Data et des architectures techniques

Contenu de la formation

Introduction
  • Zoom sur les données
  • Présentation des requêtes
  • Attentes des utilisateurs
  • Étapes de la préparation des données
  • Définitions, présentation du data munging
  • Rôle du data scientist
Gouvernance des données
  • Qualité des données
  • Transformation de l’information en donnée
  • Qualification et enrichissement
  • Sécurisation et étanchéité des lacs de données
  • Flux de données et organisation dans l’entreprise
  • Donnée maître à la donnée de travail
  • Mise en oeuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données
Traitements statistiques de base
  • Introduction aux calculs statistiques
  • Paramètres des fonctions
  • Applications aux fermes de calculs distribués
  • Problématiques induites
  • Approximations
  • Précision des estimations
Data Mining
  • Besoin, apports et enjeux
  • Extraction et organisation des classes de données
  • Analyse factorielle
Machine Learning
  • Apprentissage automatique
  • Définition & les attentes par rapport au Machine Learning
  • Valeurs d’observation et variables cibles
  • Ingénierie des variables
  • Apprentissage supervisé et non supervisé
  • Classification des données
  • Panorama des différents algorithmes
  • Conception de jeux d’essai, entraînement et construction de modèles
  • Prévisions à partir de données réelles
  • Mesure de l’efficacité des algorithmes
  • Courbes ROC
  • Parallélisation des algorithmes. Choix automatique.
IA
  • Introduction aux réseaux de neurones
  • Réseaux de neurones à convolution
  • Modèles de CNN
  • Types de couches
  • Deep Learning & Deeplearning4j sur Spark
Risques & erreurs à éviter
  • Importance de la préparation des données
  • Surapprentissage
Visualisation des données
  • Intérêt de la visualisation
  • Outils disponibles

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Émargement numérique
  • Mises en situation
  • Formulaires d’évaluation de la formation
  • Certificat de réalisation de l’action de formation

Ressources techniques et pédagogiques

  • Espace intranet de formation
  • Documents supports de formation projetés
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation...