Data Science - Spark ML

Formation créée le 21/09/2021. Dernière mise à jour le 16/09/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

€ HT

S'inscrire

€ HT

S'inscrire

€ HT

S'inscrire

Data Science - Spark ML

Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.

Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala

Pour qui

Statisticiens
Consultants Big Data
Data Scientists
Data analysts

Prérequis

Avoir de fortes connaissances en algorithmes d'intelligence artificielle
Maîtriser Scala et de l'écosystème Hadoop

Introduction au Big Data
Les challenges du Big Data
Batch vs le temps réel dans le Big Data Analytics
Analyse en Batch Hadoop
Tour d'horizon de l'écosystème
L'analyse en temps réel
In-memory Data & Streaming Data sous Spark
Introduction à Spark
Présentation de l'écosystème Spark
Présentation des différents modes de Spark
Installation de Spark
Vue d'ensemble de Spark en cluster
Spark Standalone cluster
Spark Web UI
Travaux pratiques : installation et configuration de Spark

Les usages de Spark Shell
Création d'un contexte Spark
Chargement d'un fichier en Shell
Manipulation d'opérations basiques sur un fichier avec Spark Shell
Environnement de développement SBT
Création d'un projet Spark avec SBT
Exécution d'un projet Spark avec SBT
Mode local
Mode Spark
Caching sur Spark
Persistance distribuée
Travaux pratiques : Data Preprocessing

Présentation générale du Machine Learning
Terminologies & définitions
Usages du Machine Learning
Machine Learning & Spark
Spark ML API
DataFrames
Transformateurs et estimateurs
Pipelines
Fonctionnement en pipeline
DAG Pipelines
Vérification durant l'exécution
Passage de paramètres
General Machine Learning Pipeline
Sélection de modèles via une validation croisée
Les types supportés, les algorithmes et les utilitaires
Les types de données
Les fonctionnalités d'extraction et les statistiques basiques
Clustering
K-Means
Mise en place le Clustering en utilisant K-Means
Gaussian Mixture
Power Iteration Clustering (PIC)
Latent Dirichlet Allocation (LDA)
Présentation du filtrage collaboratif
Classification
Régression
Exemple de régression
Mise en place une classification en utilisation la régression linéaire
Mise en place un système de recommandations avec le filtrage collaboratif
Travaux pratiques : Utilisation du Machine Learning sous Spark

Professionnel expert technique et pédagogique.

Feuilles de présence.
Questions orales ou écrites (QCM).
Mises en situation.
Formulaires d'évaluation de la formation.
Certificat de réalisation de l’action de formation.

Espace numérique de travail
Documents supports de formation projetés
Exposés théoriques
Etude de cas concrets
Quiz en salle
Mise à disposition en ligne de documents supports à la suite de la formation

Résultats de la recherche

Data Science - Spark ML

Objectifs de la formation

Profil des bénéficiaires

Contenu de la formation

Équipe pédagogique

Suivi de l'exécution et évaluation des résultats

Ressources techniques et pédagogiques