Hadoop - Développement

Formation créée le 17/03/2022. Dernière mise à jour le 19/09/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Hadoop - Développement


Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de développer des applications compatibles avec la plateforme Hadoop d'Apache pour traiter des données Big Data.

Objectifs de la formation

  • Comprendre l’écosystème Hadoop Cloudera/Hortonworks
  • Présenter les principes du Framework Hadoop
  • Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Charger des données non structurées des systèmes HDFS et HBase

Profil des bénéficiaires

Pour qui
  • Développeurs
  • Chefs de projets
  • Data-scientists
  • Architectes
Prérequis
  • Avoir la connaissance d'un langage de programmation objet comme Java et du scripting

Contenu de la formation

Présentation d'Hadoop
  • Introduction & historique
  • Fonctionnalités
  • Tour d'horizon du projet et des modules
  • Yarn & jobs MapReduce
MapReduce
  • Principe objectif du modèle de programmation
  • Fonctions map() & reduce ()
  • Couples (clés, valeurs)
  • Implémentation par le framework Hadoop
  • Etude de la collection d'exemples
  • Travaux pratiques : Écriture d'un programme et exécution avec Hadoop
Programmation
  • Paramétrage des jobs
  • Interfaces
  • Chaine de production
  • Partitioner, outputcollector, codecs, compresseurs
  • InputFormat et OutputFormat
  • Travaux pratiques : Type personnalisés : création d'un writable spécifique. Utilisation. Contraintes
Outils complémentaires
  • Mise en place du cache distribué
  • Utilisation du langage Python pour la création d'un Job MapReduce
  • Répartition sur la ferme
  • Forces & faiblesses
  • Liaisons avec des systèmes externes
  • Présentation du pont HadoopR
  • Travaux pratiques : Création d'un Job MapReduce sous Python & suivi en streaming
Création de MapReduce avec Apache Pig
  • Pattern & best practices MapReduce
  • Présentation de l'outil Apache Pig
  • Présentation du langage Pig Latin
  • Fonctions de bases
  • Fonctions personnalisées
  • UDF
  • Exécution
  • Travaux pratiques : Installation d'Apache Pig, écriture de fonctions & exécution du programme
Apache Hive
  • Requêtage
  • Syntaxe
  • Comparatif Pig / Hive
  • Travaux pratiques : Création de tables & de requêtes
Sécurité
  • Gestion de l'authentification
  • Travaux pratiques : Paramétrage des ACLs

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons, taux de retour des enquêtes, taux d'interruption en cours de prestation.