Comment Veepee scale sa Data Platform avec les Data Contracts
#47 - Le zoom, le podcast et les ressources de Victor
Hello,
Bienvenue dans l’édition #47 de la newsletter DataGen ! 👋
Avant tout, voici quelques liens utiles :
Retrouve ici les anciennes éditions de la newsletter en libre service.
Abonne-toi à la chaîne YouTube. Les interviews sont maintenant disponibles en format vidéo.
Suis-moi sur LinkedIn si ce n'est pas encore fait, je partage du contenu data chaque semaine.
L'agenda de la semaine :
🔍 Zoom sur la Data Platform et l’approche Data Contracts de Veepee.
🎙 Le podcast avec Victor, Head of Data Platform chez Veepee.
📚 Les ressources recommandées par Victor.
C’est parti !
📢 Cette édition est rendue possible par Rivery, l’ETL qui bouscule le marché
J'ai entendu parlé de Rivery lors d'un live que j'avais organisé avec l'équipe data de BlaBlaCar et dans l'épisode que j'ai fait récemment avec Welcome to the Jungle.
Si vous souhaitez en savoir plus sur Rivery et sur le marché de l'ETL, allez écouter l'épisode 82.
Participez au tirage au sort pour gagner des AirPods en répondant à ce questionnaire sur le marché de l'ETL en France (2 min). 🎁
On partagera les réponses du sondage aux participants. 😉
🔍 Zoom sur la Data Platform et l’approche Data Contracts de Veepee - 3 min
Ce zoom est tiré de mon échange avec Victor qui est Head of Data Platform chez Veepee, (ex-Vente-privée.com), la licorne française leader européenne des ventes événementielles en ligne. Ils sont 50 profils data et comptent 3 millions de visiteurs uniques chaque jour dans 10 pays.
Le design de la stack data de Veepee
- Ingestion : Un outil interne qui permet de collecter les données de tous les systèmes développés par les équipes Tech et Informatica qui permet de collecter les données des systèmes “legacy”.
“On utilise beaucoup notre outil interne. On n’a pas d’ETL* moderne type Fivetran ou Airbyte car on a beaucoup d’outils spécifiques développés par la Tech en interne.”
*On explique avec Victor ce qu’est un ETL (Extract Load Transform) dans l’épisode vers 8:00 lorsqu’on parle de la stack.
- Data Warehouse : BigQuery de Google Cloud Platform.
- Transformation : DBT
“On l’utilise pour faire toutes les transformations de données en SQL.”
- Orchestrateur : Airflow
“Il nous permet d’orchestrer DBT : par exemple, je déclenche telle transformation de données à 7h.”
- Business Intelligence : MicroStrategy
- Reverse-ETL : APIs développées en interne
“Le Reverse-ETL permet de renvoyer de la donnée depuis BigQuery dans des outils métier tel que le CRM pour que les commerciaux aient accès à leur performance.”
L’outil d’ingestion interne et l’approche Data Contracts
Voici le post LinkedIn dans lequel j’ai synthétisé cette partie.
Un avis, une question ? Réagis sur le post et je te réponds. 😁
Le plus gros challenge de Victor
Son enjeu principal sur ce projet a été d’augmenter l’adoption de l’outil d’ingestion par les équipes.
“On était environ à 30% de données ingérées via l’outil, on souhaitait plutôt être à 60%.”
Il a fallu identifier comment apporter plus de valeur aux équipes utilisatrices qui mettent leurs données à disposition via l’outil.
L’élément clé pour améliorer l’expérience utilisateur a été de mettre en place du monitoring et des services pour mieux accompagner ces équipes :
- Identification des problèmes qui émergent ? (ex : changements dans la structure des données qui impactent un pipeline d’ingestion).
- Mise en place d’alertes pour informer les équipes utilisatrices afin qu’elles puissent à leur tour en informer les équipes Business impactées.
- Identification des process pour corriger rapidement les erreurs.
”Il faut s’engager vis-à-vis des stakeholders. Et ce qu’il faut éviter, c’est que ce soit le Business qui nous informe qu’il y a un souci parce qu’il manque 50% des données dans un dashboard.”
🎙 Le podcast avec Victor, Head of Data Platform chez Veepee
Découvre l'intégralité de notre échange avec Victor.
On aborde également :
Son parcours et ses débuts au sein du Graduate Program spécialisé data
Le concept de Data Contracts plus en détail
L’approche adoptée pour mettre en place l’outil d’ingestion interne
Les premiers POC (Proof of Concept) réalisés avec les équipes
Comment Victor a relevé son challenge lié à l’adoption
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
📚 Les ressources recommandées par Victor
”Il fait une super newsletter. D’ailleurs, j’ai écouté aussi l’épisode #67 dans lequel tu l’as invité et où il expliquait le concept de Data Contract.”
Modern Data Stack : le site, la newsletter, le podcast
“Dans le monde anglo saxon, il y a un site, une newsletter, un podcast que je suis beaucoup et qui est très bien : Modern Data Stack.”