Back Market : Construire un Data Model robuste et scaler l'Analytics Engineering
#150 - Le zoom, le podcast avec Matthieu, ses ressources préférées, le prochain bootcamp Analytics Engineering démarre le 6 juin
Hello,
Bienvenue dans l’édition #150 de la newsletter DataGen ! 👋
L’agenda de la semaine :
🔍 Zoom sur l'approche Analytics Engineering chez Back Market
🎙 Le podcast avec Matthieu, Analytics Engineering Manager chez Back Market
📚 Les ressources recommandées par Matthieu
📆 Le prochain bootcamp Analytics Engineering démarre le 6 juin
C’est parti !
🔍 Zoom sur l’approche Analytics Engineering chez Back Market - 5 min
Ce zoom est tiré de l’échange qu’a eu Caroline avec Matthieu, Analytics Engineering Manager chez Back Market, la marketplace de produits reconditionnés qui est présente dans 17 pays et qui compte plus de 15 millions de clients. Matthieu est arrivé chez Back Market il y a six ans comme Data Analyst, avant de construire et de manager l’équipe Analytics Engineering.
Le contexte de départ : quand chaque analyste réinventait la roue
Quand Matthieu arrive chez Back Market il y a six ans, il n’existe pas encore de data model structuré.
“Chaque analyste réinventait un petit peu la roue, on refaisait toutes les jointures depuis la raw data, donc c’était super time-consuming.”
Les 6 chantiers de l’équipe Analytics Engineering
Chantier #1 : Construire le Data Model
Matthieu et 2 Data Analysts qui switch vers l'Analytics Engineering construisent les premières couches : staging pour cleaner la data, tables de dimensions et de faits, et une couche datamart consommable par les équipes.
“On utilisait un outil interne qui ressemblait fortement à dbt mais qui n’était pas aussi robuste et auquel il manquait pas mal de features.”
Chantier #2 : Migrer vers dbt Core
La migration est motivée par 2 manques concrets sur l’outil homemade : les tests de qualité et la gestion de l’incrémental.
Voici leur stack actuelle : BigQuery, dbt, Tableau, OpenMetaData (catalog), Mergify (automatisation des PR) et Airflow côté data engineering.
Chantier #3 : Ouvrir le Data Model
Rapidement, l’équipe Analytics Engineering de 5 personnes devient un bottleneck. Les Data Analysts contournent le data model, font leurs propres requêtes dans BigQuery, Google Sheets et Looker Studio. Back Market décide d’ouvrir le data model à tous les Data Analysts. Ils adoptent progressivement le process Git, l’enrichissement des couches dbt et le process de documentation du lineage.
“Les Data Analysts se sont bien frottés au jeu. Maintenant, on a 35 contributeurs réguliers sur le data model.”
Chantier #4 : Qualité & documentation
Avec 35 contributeurs vient le besoin d’harmoniser les pratiques et de créer des standards de qualité et de documentation. Matthieu et son équipe introduisent un tiering des tables (tier 1 à 3 selon le niveau d’usage) et définissent par tier les exigences minimales : description des colonnes, owner, tests sur les primary keys.
“Il y a aussi un enjeu avec l’avènement des LLM. L’agent a besoin de contexte et la documentation, c’est un premier niveau de contexte. Sans elle, l’agent est perdu, il va utiliser n’importe quelle table.”
Chantier #5 : Maîtriser les coûts
Back Market a migré récemment de Snowflake vers BigQuery (décision d’entreprise de centraliser tous les usages sur GCP). Cette migration a provoqué une explosion des coûts liée à la logique de billing au scan de BigQuery. Matthieu et son équipe ont construit un dashboard de monitoring, identifié des cost owners par verticale business et promu de nouvelles guidelines : clustering, partitioning, incrémental.
“Ça a été un mal pour un bien, puisque ça nous a permis de mettre notre nez dans le modèle et d’identifier les axes d’optimisation.”
Chantier #6 : Stabiliser la stack
Avec la croissance du nombre de contributeurs, la stack devient instable. À un moment, un jour sur deux, un modèle casse ou est incorrect. Et lorsque ça tombe sur un modèle central, les conséquences sont importantes. La confiance des utilisateurs s’érode et l’équipe passe son temps à gérer des incidents plutôt qu’à construire de nouvelles choses.
Matthieu et son équipe ont déployé Mergify pour automatiser les règles de validation des pull requests sur GitHub et ont renforcé la CI/CD avec un environnement de préprod où chaque modèle tourne avant de passer en production.
“Avant, c’était complètement manuel. On regardait la pull request et on se disait : ah oui, mais là dans ta modification, il y a une partie finance, il faut peut-être aller valider avec la Finance. Maintenant, on s’assure que tout ce qui doit être vérifié l’est correctement.”
🎙 Le podcast avec Matthieu, Analytics Engineering Manager chez Back Market
On aborde :
Le parcours de Matthieu, de Data Analyst à Analytics Engineering Manager
Le contexte de départ : quand chaque analyste réinventait la roue (cf. zoom)
Les 6 chantiers de l’équipe Analytics Engineering (cf. zoom)
L’organisation de l’équipe Data globale chez Back Market
Les 2 challenges principaux : Gouvernance et Self-Service
Les prochaines étapes : Semantic Layer, Omni, LLM, onboarding des développeurs
“Depuis que je suis arrivé chez Back Market, j’entends “Self-Service, il faut faire du Self-Service”. Mais je ne sais pas s’il y a vraiment des boîtes qui ont réussi à faire du vrai Self-Service. Je pense que beaucoup s’y sont cassé les dents.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
📚 Les ressources recommandées par Matthieu
La newsletter du fondateur de dbt
Le blog Blef.fr de Christophe Blefari
“Ces 2 ressources me permettent d’avoir une vision macro de ce qui se passe et de suivre les tendances.”
📆 Le prochain bootcamp Analytics Engineering démarre le 6 juin
En 2024, DataGen a lancé un bootcamp en Analytics Engineering en collaboration avec DataBird.
Le besoin en Analytics Engineers ou en Data Analysts “Full-Stack” a explosé.
J’observe cette tendance au quotidien dans mes échanges avec les leaders et experts data sur DataGen.
On a décidé avec DataBird d’unir nos forces pour créer le 1er bootcamp spécialisé sur le sujet :
✅ DataGen apporte sa vision du marché pour co-construire le programme
✅ DataBird apporte son expertise dans la formation (4000+ profils data formés)
🎙 Le podcast sur la tendance de l’Analytics Engineering et sur le programme du bootcamp
On a enregistré un épisode avec Alexandre, le co-fondateur de DataBird, pour expliquer plus en détail la tendance de l’Analytics Engineering et présenter le programme.
✅ Pourquoi le besoin en Analytics Engineering a explosé ?
✅ Qu’est-ce qu’un Analytics Engineer ?
✅ En quoi consiste le bootcamp ?
✅ Quels profils devraient se former à l’Analytics Engineering ?
✅ Quelques ressources pertinentes pour en apprendre plus sur le sujet
“Le métier de Data Analyst va se splitter en 2 avec d’un côté des Business Analysts plutôt orientés métier et de l’autre des Analytics Engineers qui deviennent plus techniques”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer

