Data Science - Spark ML
0/10
(0 avis)
Formation créée le 21/09/2021. Dernière mise à jour le 16/09/2022.
Version du programme : 1
Programme de la formation
Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.
Objectifs de la formation
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala
Profil des bénéficiaires
Pour qui
- Statisticiens
- Consultants Big Data
- Data Scientists
- Data analysts
Prérequis
- Avoir de fortes connaissances en algorithmes d'intelligence artificielle
- Maîtriser Scala et de l'écosystème Hadoop
Contenu de la formation
-
Présentation du Big Data et d'Apache Spark
- Introduction au Big Data
- Les challenges du Big Data
- Batch vs le temps réel dans le Big Data Analytics
- Analyse en Batch Hadoop
- Tour d'horizon de l'écosystème
- L'analyse en temps réel
- In-memory Data & Streaming Data sous Spark
- Introduction à Spark
- Présentation de l'écosystème Spark
- Présentation des différents modes de Spark
- Installation de Spark
- Vue d'ensemble de Spark en cluster
- Spark Standalone cluster
- Spark Web UI
- Travaux pratiques : installation et configuration de Spark
-
Introduction aux opérations de bases sur Spark
- Les usages de Spark Shell
- Création d'un contexte Spark
- Chargement d'un fichier en Shell
- Manipulation d'opérations basiques sur un fichier avec Spark Shell
- Environnement de développement SBT
- Création d'un projet Spark avec SBT
- Exécution d'un projet Spark avec SBT
- Mode local
- Mode Spark
- Caching sur Spark
- Persistance distribuée
- Travaux pratiques : Data Preprocessing
-
Spark ML
- Présentation générale du Machine Learning
- Terminologies & définitions
- Usages du Machine Learning
- Machine Learning & Spark
- Spark ML API
- DataFrames
- Transformateurs et estimateurs
- Pipelines
- Fonctionnement en pipeline
- DAG Pipelines
- Vérification durant l'exécution
- Passage de paramètres
- General Machine Learning Pipeline
- Sélection de modèles via une validation croisée
- Les types supportés, les algorithmes et les utilitaires
- Les types de données
- Les fonctionnalités d'extraction et les statistiques basiques
- Clustering
- K-Means
- Mise en place le Clustering en utilisant K-Means
- Gaussian Mixture
- Power Iteration Clustering (PIC)
- Latent Dirichlet Allocation (LDA)
- Présentation du filtrage collaboratif
- Classification
- Régression
- Exemple de régression
- Mise en place une classification en utilisation la régression linéaire
- Mise en place un système de recommandations avec le filtrage collaboratif
- Travaux pratiques : Utilisation du Machine Learning sous Spark
Équipe pédagogique
Professionnel expert technique et pédagogique.
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Espace numérique de travail
- Documents supports de formation projetés
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation