Migrer vers la Modern Data Stack avec Voyage Privé
Hello,
Tu vas bien ? Les projets data avancent comme tu veux ? 😁
Bienvenue dans la 18ème édition de la newsletter Data Gen. On est maintenant 933 passionnés de data au sein de la communauté. 🚀
Avant tout, voici quelques liens utiles :
On t'a partagé ce mail ? Inscris-toi à la communauté pour recevoir les prochaines éditions.
Ajoute-moi sur LinkedIn si ce n'est pas encore fait, je partage du contenu data chaque semaine.
L'agenda de la semaine :
🔍 Le zoom sur une migration vers la Modern Data Stack.
🎙 Le podcast avec Orianne, Chief Data Officer chez Voyage Privé.
📚 La ressource recommandée par Orianne.
🤝 Les mouv' de la communauté.
C’est parti !
🔍 Le zoom sur une migration vers la Modern Data Stack - 4 min
Ce zoom est tiré de mon échange avec Orianne, Chief Data Officer chez Voyage Privé, leader européen de la vente de voyage éphémère en ligne. L’entreprise comptabilise 56 millions de membres et environ 1 milliard de chiffre d’affaires annuel.
Depuis son arrivée il y a un an au sein de l'entreprise, le plus plus gros challenge d'Orianne a été de moderniser l'architecture data.
"L'objectif était de réduire nos problèmes de fiabilité, d'accessibilité et d'exhaustivité des données."
La genèse de la migration
Il y a deux éléments clés qu'Orianne mentionne pour expliquer le lancement de ce chantier de migration :
1) Une faible fiabilité des données
L'équipe Data recevait énormément de demandes de maintenance sur les tableaux de bord mis à disposition des équipes métiers (incohérences, écarts entre deux tableaux de bord, etc.).
2) Un design d'architecture "passé"
Par exemple, la collecte de données dans l'entrepôt suivait le principe de l'ETL (Extract Transform Load) et non de l'ELT : les données étaient transformées avant d'être ingérées dans l'entrepôt.
"Avec ce principe, dès qu'on avait une erreur quelque part, il ne fallait pas uniquement changer les scripts de transformation de données mais aussi les scripts de collecte. Ça créait de la dépendance avec les Data Engineers qui étaient responsables de ces pipelines. Les délais de correction étaient donc très longs."
Overview de quelques technologies mises en place
1) Cloud Composer
Cet outil de Google Cloud Platform permet d'orchestrer les pipelines d'ingestion et de transformation. C'est notamment en utilisant cet outil que l'équipe Data est passée de l'ETL à l'ELT (Extract Load Transform).
"L'équipe a revu ses principes de collecte pour avoir des données brutes exhaustives dans l'entrepôt de données. Ainsi, les BI Engineers, les Data Analysts et les Data Scientists peuvent retrouver toutes les données en autonomie lorsqu'ils en ont besoin."
2) Airbyte
Cet ELT permet de collecter en quelques clics les données d'outils externes (ex : CRM).
"On a préféré utiliser Airbyte plutôt que de développer des APIs en interne afin de gagner du temps."
3) DBT
Cet outil permet de rendre les BI Engineers et Data Analysts autonomes dans la transformation de la donnée car il nécessite uniquement des compétences en SQL. Par ailleurs, il permet d'avoir un data lineage (un tracking des transformations effectuées). Un accès au lineage est très utile lorsqu'on doit corriger des erreurs ou faire évoluer des pipelines.
Une approche en 3 étapes
1) Etat des lieux
La première étape a été d'identifier toutes les limitations en termes de data. Celles-ci ont permis de nourrir les discussions d'architecture.
"On fait pas de la tech pour la tech. L'objectif n'est pas d'être à l'état de l'art ou au niveau du marché, c'est de résoudre nos problématiques."
2) Eveil des consciences
Comme les tableaux de bord étaient mis à disposition et que les erreurs étaient corrigées à la demande, les équipes métiers et autres dirigeants ne se rendaient pas compte des besoins en termes de data.
"J'ai utilisé l'image d'une déchetterie en bord de route pour leur faire visualiser l'état de l'entrepôt de données. Pour la cible, j'ai pris l'image d'un centre de tri de recyclage avec les piles de carton et de canette. Le message était qu'il serait plus facile de retrouver facilement ce qu'on cherche lorsque les modèles seraient bien organisés."
3) Feuille de route
Il a fallu réaliser de nombreux ateliers avec l'équipe Data pour documenter l'architecture existante, ses limitations à chaque étape (collecte, transformation, etc.) ainsi que la cible. C'était également l'occasion de remettre en question les rôles définis au sein de l'équipe Data.
"Ces ateliers ont permis de définir une feuille de route avec tous les sous-chantiers à initier."
Les 2 difficultés rencontrées
1) La petite taille de l'équipe Data
Lorsqu'on arrive sur un rôle de Chief Data Officer qui existait déjà auparavant, il faut s'attendre à un turnover significatif de l'équipe. C'est normal, un changement de leadership marque la fin d'un cycle. Certains membres de l'équipe vont préférer changer d'entreprise à ce moment-là. Dans le cas d'Orianne, 50% de l'équipe Data est partie.
"J'avais un peu sous-estimé ce point. Avec les difficultés à recruter dans ce secteur, on a pris 6 mois de retard sur la feuille de route."
2) La qualité de la donnée
Chez Voyage Privé, il y a beaucoup de données entrées manuellement. Par exemple, c'est le cas des données du catalogue : les tarifs, les dates de disponibilité, etc. Ces interventions manuelles peuvent générer des erreurs et des incohérences dans les systèmes.
🎙 Le podcast avec Orianne, Chief Data Officer chez Voyage Privé
Découvre l'intégralité de notre échange avec Orianne. Elle nous parle également de son parcours et des projets data à venir.
"J'ai commencé dans la BI chez meetic. Petit à petit, j'ai leadé les BI, puis les BI et les Data Analysts et enfin la Data Science."
Liens vers l’épisode : Spotify | Apple Podcasts | Deezer | Google Podcasts
📚 La ressource recommandée par Orianne
Se rapprocher de ses partenaires (ex : Google, Airbyte) : Orianne recommande cette ressource souvent sous-exploitée.
"Par exemple, lors de notre benchmark sur les outils à mettre en place, Google nous a beaucoup aidé en nous donnant des insights sur le marché."
🤝 Les mouv' de la communauté
Il y a eu du mouvement au sein de la communauté ces derniers mois ! Bravo à toutes et à tous ! 👏