Python - Extraction des données, scrapping & growth hacking

Formation créée le 19/05/2021. Dernière mise à jour le 25/07/2022.
Version du programme : 1

Type de formation

Formation à distance

Durée de formation

21 heures (3 jours)

Python - Extraction des données, scrapping & growth hacking


Objectif de formation : Savoir utiliser Python dans le cadre du scrapping de données et du growth hacking.

Objectifs de la formation

  • Maîtriser le scrapping de données
  • Réaliser les actions d’ingestion pour alimenter un Data Lake

Profil des bénéficiaires

Pour qui
  • Développeur, intégrateurs, chefs de projets, consultants…
Prérequis
  • Maîtriser les bases du langage Python
  • Avoir des connaissances en algorithmique

Contenu de la formation

Présentation de Python
  • Les éléments fondamentaux du langage
  • Les apports et enjeux de Python dans la Big Data et l’analyse de données
  • Les différents types de bases
  • Les procédures et fonctions
L'ingestion avec Python
  • Pandas : présentation de la librairie
  • Manipuler les données avec cette librairie
  • Définition du concept de DataFrame
  • Les structures d’interrogation et d’indexation
  • Les données manquantes et leur traitement
  • La fusion de DataFrame
  • Manipuler les dates
  • Appliquer des mesures statistiques variées sur les DataFrames
  • Les problèmes de mesure et de normalisation
  • Réaliser des métriques d’analyse
Le concept de scrapping de données
  • Définition du scrapping
  • Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
  • Les usages pratiques du scrapping
  • L’architecture d’internet
  • Définition d’un « Client »
  • Définition d’un « Serveur »
  • L’importance des deux notions
  • L’impact du HTTP et du HTML sur les scrapers
  • La balise HTML et son attribut
  • L’identification d’éléments par « class » et par « id »
Python: l'usage en solution ETL
  • Les formats de données structurées: CSV, XML, JSON
  • Lecture et écriture des fichiers
  • Exploiter les données de fichiers de différentes sources
  • Les fonctions d’accès
  • Chargement des données en blocs de lignes
  • Beautiful Soup & CSS Select : les outils dédiés au scrapping
Mise en place d'un scraper
  • Les scrapers simples
  • Élaborer une stratégie pour naviguer sur le site
  • Le codage du scraper
  • Les scrapers complexes : l’envoi de données à un site internet
  • Les requêtes POST et les requêtes GET
  • Parcourir un site pour trouver des données
  • Élaborer une stratégie

Équipe pédagogique

Professionnel expert dans le Big Data

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
  • Émargement numérique

Ressources techniques et pédagogiques

  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.
  • Espace intranet de formation

Qualité et satisfaction

Taux de satisfaction des stagiaires Progression des compétences visées Taux d'abandon Taux de retour des enquêtes Taux d'interruption en cours de prestation