Talend - Intégration de données pour le Big Data

Formation créée le 17/03/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Talend - Intégration de données pour le Big Data


Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.

Objectifs de la formation

  • Maîtriser Talend dans un environnement Big Data
  • Se servir de Talend comme lien entre les fichiers, applications et bases de données
  • Acquérir la philosophie de l'outil
  • Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
  • Être capable d'implémenter ses Jobs
  • Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
  • Réaliser des Jobs de transformation à l'aide de Pig et Hive
  • Gérer la qualité de la donnée avec Talend
  • Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
  • Maîtriser l'utilisation de la bibliothèque de composants
  • Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Profil des bénéficiaires

Pour qui
  • Consultants BI
  • Architectes
  • Chefs de projets
  • Gestionnaires de données
  • Toute personne devant gérer des flux de données
Prérequis
  • Avoir des connaissances en Hadoop, Spark et Kafka

Contenu de la formation

Présentation de l'outil
  • Introduction : présentation, définitions, forces & faiblesses
  • Versions & compatibilité
  • Installation
  • Création d'un projet
  • Monitoring d'un cluster Hadoop
  • Construction d'un cluster de métadonnées
HDFS
  • Stockage d'un fichier
  • Stockage de plusieurs fichiers
  • Lecture de données
  • Utilisation de HBase pour la sauvegarde des données
Utilisation de tables
  • Présentation de Sqoop
  • Importation de tables avec Sqoop
  • Présentation d'Hive
  • Création de tables dans HDFS avec Hive
Traitement des données et des tables en Hadoop Distributed File System
  • Utilisation d'Hive pour le traitement des tables avec des jobs
  • Utilisation d'Apache Pig pour le traitement des données
  • Traitement des données par lots
Maintenance du cluster
  • Guide de dépannage
  • Mise en oeuvre du dépannage
Clickstream
  • Surveillance du Cluster Hadoop
  • Construction d'un environnement de développement
  • Chargement des données HDFS
  • Enrichissement des logs
  • Calcul & suivi des statistiques
  • Création d'un lot Big Data à partir d'un job standard
  • Jobs MapReduce
  • Configuration des resource requests vers YARN à l'aide du studio
  • Cas pratique : Chargement d'un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l'exécution du job
Présentation de Kafka
  • Surveillance du cluster Hadoop
  • Comprendre les bases de kafka
  • Publication de messages sur un sujet
  • Consommer des messages
Présentation de Spark
  • Compréhension des bases de Spark
  • Analyse des données des clients
  • Production & consommation des messages en temps réel
Génération de logs enrichis
  • Génération de logs bruts
  • Génération de logs enrichis
  • Surveillance des logs enrichis
  • Création de rapports à partir des fenêtres de données
Analyse de Batchs
  • Ingestion de flux de données
  • Analyse de logs à partir d'un batch job

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

  • Espace numérique de travail
  • Documents supports de formation projetés
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons; taux de retour des enquêtes, taux d'interruption en cours de prestation...