Big Data - Architectures & infrastructures
Formation créée le 17/03/2022. Dernière mise à jour le 15/03/2024.
Version du programme : 1
Version du programme : 1
Type de formation
Formation à distanceDurée de formation
14 heures (2 jours)Big Data - Architectures & infrastructures
Objectif de formation : à l’issue de la formation, le stagiaire sera capable d’initier la conception d’une architecture et d’une infrastructure Big Data, en disposant d’une vue d’ensemble des différentes solutions dédiées au traitement des données de masse.
Objectifs de la formation
- Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
- Savoir analyser les difficultés propres à un projet Big Data
- Déterminer la nature des données manipulées
- Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
- Exploiter les architectures Big Data
- Mettre en place des socles techniques complets pour des projets Big Data
Profil des bénéficiaires
Pour qui
- Chefs de projets
- Architectes
- Développeurs
- Data Scientists
- Toute personne souhaitant connaître les outils pour concevoir une architecture Big Data
Prérequis
- Avoir une bonne culture générale des systèmes d'information et plus particulièrement
- Avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation
Contenu de la formation
Introduction : les projets Big Data
- Définition & historique du Big Data
- Les enjeux de la data
- Présentation d'un système Big Data
- Tour d'horizon des architectures actuelles
- Comparatif des forces & faiblesses
- Principes de fonctionnement
Enjeux sécuritaire & éthique
- Sécurité de la donnée & enjeux juridiques
- Données personnelles
- Informations sensibles / interdites
- Présentation de l'organe régulateur en France : la CNIL
- Les accords internationaux
Infrastructure & architecture
- Les architectures décisionnelles traditionnelles
- Introduction du NoSQL
- Tour d'horizon des acteurs principaux
- Big Table & Big Query
- Database machine
- BDD vectorielles
- Présentation d'Hadoop
- Enjeux techniques & économiques
Architectures distribuées
- Enjeux des architectures distribuées
- Forces & faiblesses
- Architectures massivement parallèles
- Traitements complexes
- Paradigmes de calculs distribués
- Le NoSQL & le calcul distribué
Qualité des données
- Infrastructure & qualité
- L'importance de la qualité pour l'analyse
- Volume, Vélocité, Variété et Véracité
- Base à Chaud & à froid
- Outil de Dataquality : intérêts et limites
- L'utilisation d'un ETL
- Talend Data Integration
- Analyse des données par fusion avec des données internes
- Présentation du Master Data Management
Préparation & configuration du cluster Hadoop
- Hadoop Distributed File System (HDFS)
- MapReduce
- Design "type" du cluster
- Choix du matériel
Installation de la plateforme
- Choix du type de déploiement
- Installation d'Hadoop & de ses composantes
- Tour d'horizon des distributions
Gestion du cluster
- Management des noeuds
- Présentation des outils TaskTracker & JobTracker pour MapReduce
- Utilisation de schedulers
- Gestion des logs
- Utilisation d'un manager
Gestion des données dans HDFS
- Importation de données externe dans Hadoop Distributed File System
- Maniement des fichier Hadoop Distributed File System
Paramétrage avancé
- Management des autorisations
- Gestion de la sécurité
- Reprise sur échec d'un name node
- NameNode high availability
Monitoring & optimisation Tuning
- Monitoring
- Benchmarking / Profiling d'un cluster
- Présentation d'Apache GridMix
- Présentation de Vaaidya
- Choisir la taille des blocs
- Tour d'horizon des autres options de tuning
Introduction à Spark & MapReduce Spark
- Comparatif Spark & Hadoop
- Combinaison Spark/Hadoop
- Comparaison des performances
- Reprise après incident
- Fonctionnement de MapReduce Spark
- Paramétrage d'un noeud Hadoop pour le calcul MapReduce Spark
- Hadoop Streaming & prototypage rapide de MapReduce Spark
- Ecriture de MapReduce Spark pour la résolution de problèmes concerts
Équipe pédagogique
Professionnel expert technique et pédagogique.
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Espace numérique de travail
- Documents supports de formation projetés
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation
Qualité et satisfaction
Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation...