Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Big Data - Architectures & infrastructures

Big Data - Architectures & infrastructures

Formation à distance
Durée : 14 heures (2 jours)
Durée :14 heures (2 jours)
HT
Se préinscrire
Durée :14 heures (2 jours)
HT
Se préinscrire
Durée :14 heures (2 jours)
HT
Se préinscrire

Formation créée le 17/03/2022. Dernière mise à jour le 15/03/2024.

Version du programme : 1

Programme de la formation

Objectif de formation : à l’issue de la formation, le stagiaire sera capable d’initier la conception d’une architecture et d’une infrastructure Big Data, en disposant d’une vue d’ensemble des différentes solutions dédiées au traitement des données de masse.

Objectifs de la formation

  • Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
  • Savoir analyser les difficultés propres à un projet Big Data
  • Déterminer la nature des données manipulées
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Exploiter les architectures Big Data
  • Mettre en place des socles techniques complets pour des projets Big Data

Profil des bénéficiaires

Pour qui
  • Chefs de projets
  • Architectes
  • Développeurs
  • Data Scientists
  • Toute personne souhaitant connaître les outils pour concevoir une architecture Big Data
Prérequis
  • Avoir une bonne culture générale des systèmes d'information et plus particulièrement
  • Avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation

Contenu de la formation

  • Introduction : les projets Big Data
    • Définition & historique du Big Data
    • Les enjeux de la data
    • Présentation d'un système Big Data
    • Tour d'horizon des architectures actuelles
    • Comparatif des forces & faiblesses
    • Principes de fonctionnement
  • Enjeux sécuritaire & éthique
    • Sécurité de la donnée & enjeux juridiques
    • Données personnelles
    • Informations sensibles / interdites
    • Présentation de l'organe régulateur en France : la CNIL
    • Les accords internationaux
  • Infrastructure & architecture
    • Les architectures décisionnelles traditionnelles
    • Introduction du NoSQL
    • Tour d'horizon des acteurs principaux
    • Big Table & Big Query
    • Database machine
    • BDD vectorielles
    • Présentation d'Hadoop
    • Enjeux techniques & économiques
  • Architectures distribuées
    • Enjeux des architectures distribuées
    • Forces & faiblesses
    • Architectures massivement parallèles
    • Traitements complexes
    • Paradigmes de calculs distribués
    • Le NoSQL & le calcul distribué
  • Qualité des données
    • Infrastructure & qualité
    • L'importance de la qualité pour l'analyse
    • Volume, Vélocité, Variété et Véracité
    • Base à Chaud & à froid
    • Outil de Dataquality : intérêts et limites
    • L'utilisation d'un ETL
    • Talend Data Integration
    • Analyse des données par fusion avec des données internes
    • Présentation du Master Data Management
  • Préparation & configuration du cluster Hadoop
    • Hadoop Distributed File System (HDFS)
    • MapReduce
    • Design "type" du cluster
    • Choix du matériel
  • Installation de la plateforme
    • Choix du type de déploiement
    • Installation d'Hadoop & de ses composantes
    • Tour d'horizon des distributions
  • Gestion du cluster
    • Management des noeuds
    • Présentation des outils TaskTracker & JobTracker pour MapReduce
    • Utilisation de schedulers
    • Gestion des logs
    • Utilisation d'un manager
  • Gestion des données dans HDFS
    • Importation de données externe dans Hadoop Distributed File System
    • Maniement des fichier Hadoop Distributed File System
  • Paramétrage avancé
    • Management des autorisations
    • Gestion de la sécurité
    • Reprise sur échec d'un name node
    • NameNode high availability
  • Monitoring & optimisation Tuning
    • Monitoring
    • Benchmarking / Profiling d'un cluster
    • Présentation d'Apache GridMix
    • Présentation de Vaaidya
    • Choisir la taille des blocs
    • Tour d'horizon des autres options de tuning
  • Introduction à Spark & MapReduce Spark
    • Comparatif Spark & Hadoop
    • Combinaison Spark/Hadoop
    • Comparaison des performances
    • Reprise après incident
    • Fonctionnement de MapReduce Spark
    • Paramétrage d'un noeud Hadoop pour le calcul MapReduce Spark
    • Hadoop Streaming & prototypage rapide de MapReduce Spark
    • Ecriture de MapReduce Spark pour la résolution de problèmes concerts
Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation...