Talend - Intégration de données pour le Big Data
0/10
(0 avis)
Formation créée le 17/03/2022.
Version du programme : 1
Programme de la formation
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Objectifs de la formation
- Maîtriser Talend dans un environnement Big Data
- Se servir de Talend comme lien entre les fichiers, applications et bases de données
- Acquérir la philosophie de l'outil
- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
- Être capable d'implémenter ses Jobs
- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
- Réaliser des Jobs de transformation à l'aide de Pig et Hive
- Gérer la qualité de la donnée avec Talend
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Maîtriser l'utilisation de la bibliothèque de composants
- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Profil des bénéficiaires
Pour qui
- Consultants BI
- Architectes
- Chefs de projets
- Gestionnaires de données
- Toute personne devant gérer des flux de données
Prérequis
- Avoir des connaissances en Hadoop, Spark et Kafka
Contenu de la formation
-
Présentation de l'outil
- Introduction : présentation, définitions, forces & faiblesses
- Versions & compatibilité
- Installation
- Création d'un projet
- Monitoring d'un cluster Hadoop
- Construction d'un cluster de métadonnées
-
HDFS
- Stockage d'un fichier
- Stockage de plusieurs fichiers
- Lecture de données
- Utilisation de HBase pour la sauvegarde des données
-
Utilisation de tables
- Présentation de Sqoop
- Importation de tables avec Sqoop
- Présentation d'Hive
- Création de tables dans HDFS avec Hive
-
Traitement des données et des tables en Hadoop Distributed File System
- Utilisation d'Hive pour le traitement des tables avec des jobs
- Utilisation d'Apache Pig pour le traitement des données
- Traitement des données par lots
-
Maintenance du cluster
- Guide de dépannage
- Mise en oeuvre du dépannage
-
Clickstream
- Surveillance du Cluster Hadoop
- Construction d'un environnement de développement
- Chargement des données HDFS
- Enrichissement des logs
- Calcul & suivi des statistiques
- Création d'un lot Big Data à partir d'un job standard
- Jobs MapReduce
- Configuration des resource requests vers YARN à l'aide du studio
- Cas pratique : Chargement d'un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l'exécution du job
-
Présentation de Kafka
- Surveillance du cluster Hadoop
- Comprendre les bases de kafka
- Publication de messages sur un sujet
- Consommer des messages
-
Présentation de Spark
- Compréhension des bases de Spark
- Analyse des données des clients
- Production & consommation des messages en temps réel
-
Génération de logs enrichis
- Génération de logs bruts
- Génération de logs enrichis
- Surveillance des logs enrichis
- Création de rapports à partir des fenêtres de données
-
Analyse de Batchs
- Ingestion de flux de données
- Analyse de logs à partir d'un batch job
Équipe pédagogique
Professionnel expert technique et pédagogique.
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Espace numérique de travail
- Documents supports de formation projetés
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation
Qualité et satisfaction
Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons; taux de retour des enquêtes, taux d'interruption en cours de prestation...
0/10
(0 avis)