Brevo : Structurer le département Data d’un centaure (aka +100 millions d’ARR)
#79 - Le zoom, le podcast avec Bilal et ses ressources préférées
Hello,
Bienvenue dans l’édition #79 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Structurer le département Data d’un centaure (aka +100 millions d’ARR)
🎙 Le podcast avec Bilal, Directeur Data chez Brevo
📚 Les ressources recommandées par Bilal
🎙 Les 3 tendances data & IA de 2024 selon Google Cloud
🎁 Résultats de l’enquête sur le marché du Data Catalog en France
C’est parti !
👋 Tu souhaites changer de métier ?
Laisse moi te raconter l’histoire d’Aymeric.
Initialement journaliste, il s’est reconverti en tant que Data Analyst grâce à la formation intensive de DataBird.
Si tu souhaites en savoir plus, n'hésite pas à écouter l'épisode #95, il nous raconte comment il s’y est pris.
DataBird a déjà formé plus de 4 000 personnes à la data.
Découvre leurs formations : ici
Merci à Data Bird de sponsoriser DataGen. ❤️
🔍 Structurer l’équipe Data d’un centaure (aka +100 millions d’ARR)
Ce zoom est tiré de mon échange avec Bilal Baltagi, le Directeur Data de Brevo (ex-Sendinblue), la plateforme de marketing automation qui permet notamment d’orchestrer ses campagnes d'emailing ou de SMS. La scaleup a acquis le statut de “centaure” après avoir dépassé les 100 millions d’euros de revenus annuels.
Les 2 problèmes que Bilal observe au départ
1) Il y avait trop de pratiques data différentes au sein des différentes équipes Business (aka “shadow data”)
Chaque équipe Business utilisait les outils data de son choix et avait ses propres process data ce qui a mené au bout d’un moment à des chiffres contradictoires sur des métriques identiques.
“L'équipe Finance sortait un chiffre, l'équipe Marketing sortait le même indicateur mais les deux valeurs étaient complètement différentes.”
2) Il y avait beaucoup de problèmes de run pour l’équipe Data
Bilal a demandé à toute l'équipe de mesurer combien de temps ils passaient sur la correction des problèmes de production : en moyenne, ils y passaient 70% de leur temps.
“Sur une semaine de 5 jours, 3 jours et demi étaient consacrés à corriger les problèmes. Il fallait absolument réduire ce chiffre.”
Les 2 initiatives principales mises en place
1) Définir une nouvelle architecture cible et des bonnes pratiques
“On ne peut pas avoir 3 Data Warehouse, 5 outils de reporting, des pipelines qui tournent en production sans que personne ne sache à quoi ils servent, s’ils sont critiques ou pas…”
Je vous décris la nouvelle stack data un peu plus bas.
2) Décommissionner petit à petit les outils en doublon ou mal utilisés
“On a décommissionné les outils de reporting en doublon : Chartio, Google Data Studio et Qlik. On a également décommissionné des outils dont l’usage n’était pas optimal : Jenkins, Qlik et Dataiku étaient utilisés pour faire de l’ETL alors qu’ils ne sont pas pensés pour ça à l’origine.”
L’équipe de Bilal a mis 1 an et demi pour opérer cette migration et stabiliser les process autour de la nouvelle architecture.
La stack data de Brevo aujourd’hui
- Ingestion : Meltano & Airbyte
“Avant, il y avait des jobs Python un peu partout, maintenant on utilise que ces 2 outils.”
- Data Warehouse : BigQuery
- Orchestrateur : Airflow Composer
- Transformation : dbt
“On a arrêté tous les process type Spark ou Python pour transformer la donnée.”
- Business Intelligence : Metabase
“Il y a juste l’équipe Finance qui continue d’utiliser Tableau et Pigment en partie pour des données confidentielles.”
L’organisation de l’équipe Data
L’équipe Data est constituée de 12 personnes et il y a 17 profils data au global chez Brevo :
- VP Data & Compliance
- Directeur Data
- Data Engineering : 3 personnes
- Data Science : 3 personnes et 2 autres en cours de recrutement
- Analytics Engineering : 2 personnes
- DataOps : 2 personnes (on zoome sur ce sujet dans l’épisode)
- Data Analysts : environ 5 personnes réparties dans les équipes Business
“L’équipe DataOps travaille surtout avec les Data Scientists. Elle leur permet de déployer les projets directement sur Kubernetes, d’être alertés dès qu’il y a un problème de production, d’utiliser des templates pour développer plus rapidement... Ça leur facilite la vie et ça apporte énormément de valeur.”
🎙 Le podcast avec Bilal, Directeur Data chez Brevo
On aborde également :
Son parcours pour devenir Directeur Data d’un centaure
Le rationnel derrière la stack data mise en place
Les projets de Data Science autour de la fraude
Son plus gros challenge : gagner la confiance du Business
Son retour d’expérience sur l’équipe DataOps
Ses priorités du moment : semantic layer et GenAI
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
“On est la cible d’attaques, de fraudes et la Data Science nous permet de les éviter.”
📚 Les ressources recommandées par Bilal
🎙 Les 3 tendances data & IA de 2024 selon Google Cloud
Vincent Le Roy est expert Data Analytics et IA chez Google Cloud. Dans l’épisode #139, il nous parle des 3 plus grandes tendances data qu’il observe sur le marché. C’est très intéressant d'avoir son prisme et donc à fortiori celui de Google Cloud.
On aborde :
Tendance #1 : la convergence vers une plateforme Data & IA unifiée
Tendance #2 : “English is the new SQL”
Tendance #3 : L’adoption des LLMs en entreprise
La structure de l’écosystème Google Cloud et quelques news
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
“On assiste vraiment à une tendance de convergence sur le marché entre le Data Warehouse et le Datalake. Et ça prend la forme d'une plateforme data et IA unifiée qu'on appelle régulièrement un Lakehouse.”
🎁 Résultats de l’enquête sur le marché du Data Catalog en France
On a organisé avec DataGalaxy un tirage au sort pour faire gagner une montre FitBit à la communauté DataGen.
Il suffisait de répondre à un questionnaire sur le marché du Data Catalog en France.
Bravo à Philippe Hellegouarch qui a gagné la loterie. 👏
Pour accéder aux insights de l’enquête, ça se passe ici.