Data Science - Spark ML

Formation créée le 21/09/2021. Dernière mise à jour le 16/09/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Data Science - Spark ML


Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.

Objectifs de la formation

  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala

Profil des bénéficiaires

Pour qui
  • Statisticiens
  • Consultants Big Data
  • Data Scientists
  • Data analysts
Prérequis
  • Avoir de fortes connaissances en algorithmes d'intelligence artificielle
  • Maîtriser Scala et de l'écosystème Hadoop

Contenu de la formation

Présentation du Big Data et d'Apache Spark
  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Tour d'horizon de l'écosystème
  • L'analyse en temps réel
  • In-memory Data & Streaming Data sous Spark
  • Introduction à Spark
  • Présentation de l'écosystème Spark
  • Présentation des différents modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI
  • Travaux pratiques : installation et configuration de Spark
Introduction aux opérations de bases sur Spark
  • Les usages de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Manipulation d'opérations basiques sur un fichier avec Spark Shell
  • Environnement de développement SBT
  • Création d'un projet Spark avec SBT
  • Exécution d'un projet Spark avec SBT
  • Mode local
  • Mode Spark
  • Caching sur Spark
  • Persistance distribuée
  • Travaux pratiques : Data Preprocessing
Spark ML
  • Présentation générale du Machine Learning
  • Terminologies & définitions
  • Usages du Machine Learning
  • Machine Learning & Spark
  • Spark ML API
  • DataFrames
  • Transformateurs et estimateurs
  • Pipelines
  • Fonctionnement en pipeline
  • DAG Pipelines
  • Vérification durant l'exécution
  • Passage de paramètres
  • General Machine Learning Pipeline
  • Sélection de modèles via une validation croisée
  • Les types supportés, les algorithmes et les utilitaires
  • Les types de données
  • Les fonctionnalités d'extraction et les statistiques basiques
  • Clustering
  • K-Means
  • Mise en place le Clustering en utilisant K-Means
  • Gaussian Mixture
  • Power Iteration Clustering (PIC)
  • Latent Dirichlet Allocation (LDA)
  • Présentation du filtrage collaboratif
  • Classification
  • Régression
  • Exemple de régression
  • Mise en place une classification en utilisation la régression linéaire
  • Mise en place un système de recommandations avec le filtrage collaboratif
  • Travaux pratiques : Utilisation du Machine Learning sous Spark

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation