Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Data Science - Spark ML

Data Science - Spark ML

Formation à distance
Durée : 21 heures (3 jours)
Durée :21 heures (3 jours)
HT
Se préinscrire
Durée :21 heures (3 jours)
HT
Se préinscrire
Durée :21 heures (3 jours)
HT
Se préinscrire

Formation créée le 21/09/2021. Dernière mise à jour le 16/09/2022.

Version du programme : 1

Programme de la formation

Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.

Objectifs de la formation

  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala

Profil des bénéficiaires

Pour qui
  • Statisticiens
  • Consultants Big Data
  • Data Scientists
  • Data analysts
Prérequis
  • Avoir de fortes connaissances en algorithmes d'intelligence artificielle
  • Maîtriser Scala et de l'écosystème Hadoop

Contenu de la formation

  • Présentation du Big Data et d'Apache Spark
    • Introduction au Big Data
    • Les challenges du Big Data
    • Batch vs le temps réel dans le Big Data Analytics
    • Analyse en Batch Hadoop
    • Tour d'horizon de l'écosystème
    • L'analyse en temps réel
    • In-memory Data & Streaming Data sous Spark
    • Introduction à Spark
    • Présentation de l'écosystème Spark
    • Présentation des différents modes de Spark
    • Installation de Spark
    • Vue d'ensemble de Spark en cluster
    • Spark Standalone cluster
    • Spark Web UI
    • Travaux pratiques : installation et configuration de Spark
  • Introduction aux opérations de bases sur Spark
    • Les usages de Spark Shell
    • Création d'un contexte Spark
    • Chargement d'un fichier en Shell
    • Manipulation d'opérations basiques sur un fichier avec Spark Shell
    • Environnement de développement SBT
    • Création d'un projet Spark avec SBT
    • Exécution d'un projet Spark avec SBT
    • Mode local
    • Mode Spark
    • Caching sur Spark
    • Persistance distribuée
    • Travaux pratiques : Data Preprocessing
  • Spark ML
    • Présentation générale du Machine Learning
    • Terminologies & définitions
    • Usages du Machine Learning
    • Machine Learning & Spark
    • Spark ML API
    • DataFrames
    • Transformateurs et estimateurs
    • Pipelines
    • Fonctionnement en pipeline
    • DAG Pipelines
    • Vérification durant l'exécution
    • Passage de paramètres
    • General Machine Learning Pipeline
    • Sélection de modèles via une validation croisée
    • Les types supportés, les algorithmes et les utilitaires
    • Les types de données
    • Les fonctionnalités d'extraction et les statistiques basiques
    • Clustering
    • K-Means
    • Mise en place le Clustering en utilisant K-Means
    • Gaussian Mixture
    • Power Iteration Clustering (PIC)
    • Latent Dirichlet Allocation (LDA)
    • Présentation du filtrage collaboratif
    • Classification
    • Régression
    • Exemple de régression
    • Mise en place une classification en utilisation la régression linéaire
    • Mise en place un système de recommandations avec le filtrage collaboratif
    • Travaux pratiques : Utilisation du Machine Learning sous Spark
Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation