Talend - Intégration de données pour le Big Data

Formation à distance

Durée : 21 heures (3 jours)

0/10

(0 avis)

Durée :21 heures (3 jours)

€ HT

S'inscrire

Durée :21 heures (3 jours)

€ HT

S'inscrire

Durée :21 heures (3 jours)

€ HT

S'inscrire

Formation créée le 17/03/2022.

Version du programme : 1

Programme de la formation

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.

Objectifs de la formation

Maîtriser Talend dans un environnement Big Data
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Acquérir la philosophie de l'outil
Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
Être capable d'implémenter ses Jobs
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Réaliser des Jobs de transformation à l'aide de Pig et Hive
Gérer la qualité de la donnée avec Talend
Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Maîtriser l'utilisation de la bibliothèque de composants
Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Profil des bénéficiaires

Consultants BI
Architectes
Chefs de projets
Gestionnaires de données
Toute personne devant gérer des flux de données

Avoir des connaissances en Hadoop, Spark et Kafka

Contenu de la formation

Présentation de l'outil
- Introduction : présentation, définitions, forces & faiblesses
- Versions & compatibilité
- Installation
- Création d'un projet
- Monitoring d'un cluster Hadoop
- Construction d'un cluster de métadonnées
HDFS
- Stockage d'un fichier
- Stockage de plusieurs fichiers
- Lecture de données
- Utilisation de HBase pour la sauvegarde des données
Utilisation de tables
- Présentation de Sqoop
- Importation de tables avec Sqoop
- Présentation d'Hive
- Création de tables dans HDFS avec Hive
Traitement des données et des tables en Hadoop Distributed File System
- Utilisation d'Hive pour le traitement des tables avec des jobs
- Utilisation d'Apache Pig pour le traitement des données
- Traitement des données par lots
Maintenance du cluster
- Guide de dépannage
- Mise en oeuvre du dépannage
Clickstream
- Surveillance du Cluster Hadoop
- Construction d'un environnement de développement
- Chargement des données HDFS
- Enrichissement des logs
- Calcul & suivi des statistiques
- Création d'un lot Big Data à partir d'un job standard
- Jobs MapReduce
- Configuration des resource requests vers YARN à l'aide du studio
- Cas pratique : Chargement d'un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l'exécution du job
Présentation de Kafka
- Surveillance du cluster Hadoop
- Comprendre les bases de kafka
- Publication de messages sur un sujet
- Consommer des messages
Présentation de Spark
- Compréhension des bases de Spark
- Analyse des données des clients
- Production & consommation des messages en temps réel
Génération de logs enrichis
- Génération de logs bruts
- Génération de logs enrichis
- Surveillance des logs enrichis
- Création de rapports à partir des fenêtres de données
Analyse de Batchs
- Ingestion de flux de données
- Analyse de logs à partir d'un batch job

Équipe pédagogique

Professionnel expert technique et pédagogique.

Suivi de l'exécution et évaluation des résultats

Feuilles de présence.
Questions orales ou écrites (QCM).
Mises en situation.
Formulaires d'évaluation de la formation.
Certificat de réalisation de l’action de formation.

Ressources techniques et pédagogiques

Espace numérique de travail
Documents supports de formation projetés
Exposés théoriques
Etude de cas concrets
Quiz en salle
Mise à disposition en ligne de documents supports à la suite de la formation

Qualité et satisfaction

Taux de satisfaction des apprenants, nombre d'apprenants, taux et causes des abandons; taux de retour des enquêtes, taux d'interruption en cours de prestation...

0/10

(0 avis)