Logo de l'organisme de formation

La formation au coeur de l'avenir technologique

Représentation de la formation : Big Data - Architecture et infrastructure Hadoop On-Premise et sur le Cloud5

Big Data - Architecture et infrastructure Hadoop On-Premise et sur le Cloud5

Formation à distance
Durée : 35 heures (5 jours)
Durée :35 heures (5 jours)
HT
Se préinscrire
Durée :35 heures (5 jours)
HT
Se préinscrire
Durée :35 heures (5 jours)
HT
Se préinscrire

Besoin d’adapter cette formation à vos besoins ?

N’hésitez pas à nous contacter afin d’obtenir un devis sur mesure !

Formation créée le 20/03/2024.

Version du programme : 1

Programme de la formation

Objectif de formation : Cette formation vise à fournir aux participants les connaissances et les compétences nécessaires pour concevoir, mettre en œuvre et gérer des architectures Big Data utilisant Hadoop, à la fois sur site (On-Premise) et dans des environnements Cloud.

Objectifs de la formation

  • Acquérir une compréhension approfondie des concepts et des technologies Big Data, en mettant l'accent sur Hadoop
  • Être capable de concevoir, déployer et gérer des architectures Big Data utilisant Hadoop, à la fois sur site et dans le Cloud
  • Maîtriser les techniques de stockage, de traitement et d'analyse des données dans un environnement Hadoop

Profil des bénéficiaires

Pour qui
  • Ingénieurs Big Data
  • Architectes de données
  • Administrateurs système
  • Développeurs
Prérequis
  • Connaissances de base en informatique et en traitement des données
  • Expérience avec Hadoop et les technologies Big Data
  • Familiarité avec les environnements Cloud

Contenu de la formation

  • Introduction au Big Data et à Hadoop (5 heures)
    • Définitions du Big Data et Hadoop
    • Expliquer les trois V du Big Data (Volume, Vélocité, Variété) et les implications pour le stockage et le traitement des données
    • Hadoop : Décrire Hadoop Distributed File System (HDFS), MapReduce, Yet Another Resource Negotiator (YARN), et discuter de leur rôle dans le traitement et l'analyse des données
    • Configuration des binaires Hadoop, configuration des fichiers de configuration, et démarrage des services
    • Configuration du cluster : Vérification de la connectivité entre les nœuds, exécution de commandes de diagnostic pour s'assurer que les services fonctionnent correctement
  • Architecture Hadoop On-Premise (6 heures)
    • Conception d'une architecture Hadoop On-Premise
    • Planification du cluster : Évaluation des besoins en termes de volume de données à stocker, de performances de traitement, et de disponibilité
    • Stratégies pour connecter Hadoop aux entrepôts de données, aux bases de données et aux applications métier
    • Discussions sur les protocoles de communication, les formats de données pris en charge, et les outils d'intégration
    • Travaux pratiques : Configuration avancée d'un cluster Hadoop On-Premise (partitionnement des données, du repliement de blocs, et de la stratégie de réplication)
  • Stockage de données dans Hadoop (6,5 heures)
    • Gestion du stockage : Explication du fonctionnement du système de fichiers distribué HDFS et de ses caractéristiques de fiabilité et de tolérance aux pannes
    • Discussion sur la répartition des données en blocs, la redondance des données, et les stratégies de placement des blocs
    • Exploration des différents formats de données (CSV, JSON, Parquet, etc.) et des meilleures pratiques pour les stocker dans Hadoop
    • Comparaison des avantages et des inconvénients de chaque format en fonction des types de requêtes et des types d'analyse prévus
    • Travaux pratiques : Utilisation de commandes Hadoop CLI et de scripts pour copier des données depuis des systèmes de fichiers locaux ou distants
    • Travaux pratiques : Introduction au développement de scripts MapReduce simples pour filtrer, trier, et grouper les données
  • Traitement des données avec MapReduce (6,5 heures)
    • Principe de fonctionnement de MapReduce pour le traitement distribué des données
    • Explication du modèle MapReduce avec des exemples de tâches Map et Reduce
    • Création de jobs MapReduce pour effectuer des opérations de traitement et d'analyse sur les données
    • Travaux pratiques : Implémentation de la logique MapReduce pour des tâches telles que le comptage des mots, le tri, ou le calcul des agrégats
  • Hadoop dans le Cloud (6 heures)
    • Comparaison des principales plateformes Cloud (AWS, Azure, Google Cloud) et de leurs offres pour le traitement et le stockage des données
    • Migration : Stratégies et meilleures pratiques pour migrer des clusters Hadoop existants vers des environnements Cloud
    • Évaluation des outils de migration disponibles, des coûts associés, et des considérations de performance et de sécurité
    • Travaux pratiques : Utilisation d'outils de transfert de données comme DistCp ou les outils d'import/export Cloud pour déplacer les données
  • Gestion et maintenance de l'infrastructure Big Data (5 heures)
    • Focus sur les outils de surveillance pour suivre les performances du cluster Hadoop et identifier les goulots d'étranglement
    • Configuration de métriques de surveillance pour collecter des informations sur l'utilisation des ressources et les temps de réponse
    • Configuration des politiques de sécurité pour contrôler l'accès aux données sensibles et aux fonctionnalités du système
    • Travaux pratiques : Mise en place de tableaux de bord de surveillance personnalisés pour suivre les indicateurs clés de performance
Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation...