Hadoop Cloudera - Architecture & administration
Formation créée le 19/05/2021. Dernière mise à jour le 25/07/2022.
Version du programme : 1
Programme de la formation
Objectif de formation : L'apprenant saura au terme de cette formation comprendre l'architecture d'Hadoop Cloudera et l'administrer pour ses projets.
Objectifs de la formation
- Appréhender le framework Hadoop
- Administrer des clusters Cloudera
Profil des bénéficiaires
Pour qui
- Administrateurs système et consultants SI…
Prérequis
- Maîtriser les commandes Shell
- Avoir des connaissances de base autour des requêtes SQL
Contenu de la formation
-
Introduction
- La Big Data
- L’écosystème Hadoop
- L’architecture Hadoop
- NoSQL
- Travaux pratiques: présentation des outils Cloudera Distributed Hadoop (CDH), Cloudera Manager
-
Les clusters avec Cloudera
- Tour d’horizon des fonctionnalités des clusters
- Pourquoi une solution de gestion de cluster ?
- Cloudera Manager : caractéristiques
- L’installation d’un cluster : éléments nécessaires
-
Gestion des usagers
- Utilisateurs et groupes
- Privilèges des utilisateurs locaux et LDAP
-
Configuration d'un cluster Cloudera
- Introduction
- Réglages de configuration
- Fichiers de configuration
- Instances de rôle
- Nouveaux services
- Créer ou retirer des hôtes
- Travaux pratiques: configuration du cluster
-
Les fichiers distribués Hadoop: le système HDFS
- Fonctionnalités HDFS
- Écriture de fichiers
- Lecteur de fichiers
- Mémoire NameNode
- Sécurité HDFS
- Stockage HDFS
- Utilisation de Hadoop File Shell
- Travaux pratiques: manipuler des fichiers via HDFS
-
YARN, MapReduce & Spark
- L’utilisation des frameworks de calcul
- La gestion des ressources de cluster : YARN
- MapReduce
- Spark
- L’utilisation des frameworks de calcul sur YARN
- L’interface Web et Shell : explorer les applications YARN
- Les logs applicatifs
-
Intégration des données HDFS
- Intégration des données par des sources externes : Flume, Nifi & Kafka
- Intégration des données par des bases de données relationnelles avec Sqoop
- Les Best Practices pour l’importation de données
-
Planifier le cluster
- Introduction à la planification
- Sélection du matériel
- Virtualisation
- La gestion des réseaux
- Paramétrages des nœuds
-
Installation et configuration d'outils
- Hive
- Impala
- Pig
-
Clients Hadoop avec Hue
- Paramétrage des clients Hadoop
- Paramétrage de la teinte
- Système d’authentification et d’autorisation avec Hue
-
Configuration avancée du cluster
- Configurations avancées
- Réglages des ports Hadoop
- Sensibilisation au rack : paramétrage de HDFS
- Haute disponibilité et HDFS
-
La sécurité sous Hadoop
- Pourquoi la sécurité ?
- Le système de sécurité d’Hadoop
- Kerberos: présentation, fonctionnement, sécurisation d’un cluster Hadoop
- Les autres principes de sécurité
-
La gestion des ressources
- Paramétrage des Cgroups & pools de services statistiques
- Planification des ressources
- Paramétrage des pools de ressources dynamiques
- Mémoire YARN
- Réglages du CPU
- Planifier des requêtes Impala
-
Entretien du cluster
- Vérification de l’état HDFS
- Copier les données vers un autre cluster
- Ajout et suppression de node de cluster
- Rééquilibrage du cluster snapshots de répertoires
- Mise à niveau du cluster
-
Suivi & débogage
- Fonctionnalité de suivi de Cloudera Hadoop
- Tests de santé
- Suivi des clusters
- Dépannage des clusters
Équipe pédagogique
Professionnel dans la Big Data
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence
- Mises en situation
- Formulaires d'évaluation de la formation
- Certificat de réalisation de l’action de formation
- Émargement numérique
Ressources techniques et pédagogiques
- Documents supports de formation projetés
- Exposés théoriques
- Etude de cas concrets
- Mise à disposition en ligne de documents supports à la suite de la formation
- Espace intranet de formation
Qualité et satisfaction
Taux de satisfaction des stagiaires
Progression des compétences visées
Taux d'abandon
Taux de retour des enquêtes
Taux d'interruption en cours de prestation