Agorapulse : Structurer le département data d'une startup (16 millions levés)
#98 - Le zoom, le podcast avec Juliette et ses ressources préférées
Hello,
Bienvenue dans l’édition #98 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur la structuration du département data d’une startup
🎙 Le podcast avec Juliette, Head of Data chez Agorapulse
📚 Les ressources recommandées par Juliette
🎙 La masterclass sur la mise en place de Fabric (Microsoft)
C’est parti !
📢 Vous connaissez CastorDoc ?
C’est le Data Catalog utilisé par plein de belles boîtes telles que ManoMano, Veolia ou Deliveroo.
J’ai reçu Tristan, leur CEO, pour parler de la solution et de comment l’IA vient impacter le marché du Data Catalog.
Par exemple, ils ont lancé une fonctionnalité de Self-Service Analytics. Tu peux poser une question à ta donnée dans un Chatbot et l’utiliser directement dans tes workflows via Slack ou Teams.
C’est maintenant possible grâce aux IA Génératives et avec un Data Catalog bien documenté.
C’est l’épisode 158.
Et depuis 2 ans, ils ont testé plein d’outils Self-Service Analytics et ont tout centralisé dans un benchmark.
N’hésitez pas à contacter Tristan sur LinkedIn ou par mail (tristan@castordoc.com) pour échanger sur le sujet.
Un immense merci à CastorDoc de sponsoriser DataGen. ❤️
🔍 Zoom sur la structuration du département data d’une startup - 3 min
Ce zoom est tiré de mon échange avec Juliette, Head of Data chez Agorapulse, la startup qui propose un outil de gestion des réseaux sociaux qui a levé plus de 16 millions d’euros en 2019. Avant, Juliette était Head of Data chez Ovrsea.
Lorsque Juliette a rejoint Agorapulse, il y avait déjà une équipe de 6 personnes.
“Je parle aujourd’hui des améliorations. Mais quand je suis arrivée, il y avait déjà des choses incroyables mises en place : des dashboards, des process data qui marchaient…”
Après son onboarding, Juliette a identifié 3 chantiers à lancer en priorité.
1) Améliorer la fiabilité des données
Juliette prend 3 décisions rapidement :
- Mettre en place dbt pour tout centraliser au même endroit en suivant les principes clés de dbt (ex : don’t repeat yourself, dry principle, code modulaire).
- Migrer de Looker vers Metabase car Looker nécessite des tables trop abouties ce qui alourdit la code base et implique d’avoir du code qui se répète d’un dashboard à l’autre (ça introduit des risques de fiabilité, des différences et des écarts dans les chiffres).
- Déporter les dernières agrégations dans Metabase en créant des tables un peu moins spécialisées pour une visualisation ce qui permet de réduire les doublons sur le code et les transformations.
“Avec Metabase, on peut faire des jointures entre les tables, poser des questions en SQL, écrire des requêtes poussées. Ça permet d'avoir la dernière étape de transformation non pas dans la codebase, ce qui ferait une codebase énorme, mais vraiment juste dans l'outil de BI.”
2) Mettre en place une approche Self-Service
- L’outil choisi doit permettre aux équipes métiers d’interagir en profondeur avec les données
“Avec des filtres, en cliquant dans les graphiques, en regardant comment ils sont construits, en ajoutant eux-mêmes leurs filtres, en faisant eux-mêmes leurs petites analyses en plus. C’est en partie pour ça qu’on est passé sur Metabase.”
- La partie adoption ne doit pas être négligée une fois que l’outil est mis en place
“Le self-service, c'est une course de longue haleine. Une fois qu'on a mis en place l'outil et qu’on a créé des dashboards, il faut aider les équipes. J'ai mis en place un système de data office hour : une heure par semaine pendant laquelle n'importe qui peut venir nous poser des questions.”
- Les profils Data Analysts ont transitionné vers un rôle plus proche de l’Analytics Engineer
“Par exemple, Alberto était Webmarketing Analyst et historiquement, il faisait surtout des analyses Google Analytics. Aujourd’hui, il a shifté vers un poste plus Analytics Engineering, il écrit notamment des modèles dans dbt.”
3) Développer une mentalité un peu plus ROIste
- Réussir à dire non aux projets qui n’ont pas un ROI assez élevé
“Parfois, il y a des projets qui rendraient vraiment service, mais qui demanderaient trop d'investissements et qui ne sont pas rentables. Il faut réussir à dire non : “on ne va pas le faire parce qu'on pense que le ROI serait négatif”.”
- Estimer le ROI en mettant en place un système de Data Request
“Ils nous disent : “j’ai besoin de ça, voilà le pain que ça résout, voilà comment je fais actuellement et ce que ça va me permettre de faire”. Ensuite, on calcule le ROI qui détermine si on le fait ou pas. Par exemple, si la Data va passer 4h sur un sujet qui fait économiser 1 minute par semaine à l’équipe, on ne le fait pas !”
🎙 Le podcast avec Juliette, Head of Data chez AgoraPulse
On aborde :
Pourquoi Juliette est partie d’Ovrsea pour rejoindre AgoraPulse
Le contexte Data & IA chez AgoraPulse
Chantier #1 : Améliorer la fiabilité des données (cf. zoom)
Ses conseil pour mettre en place dbt
Chantier #2 : Mettre en place le Self-Service (cf. zoom)
Metabase versus Looker versus Tableau
La transition des équipes Data Analyse vers Analytics Engineering
Chantier #3 : Promouvoir une mentalité plus ROIste (cf. zoom)
La stack Data chez AgoraPulse : Segment, BigQuery, Airbyte, Fivetran, dbt, Airflow, Metabase
Le plus gros challenge qu’a rencontré Juliette à son arrivée : le management
Les prochaines étapes pour l’équipe Data chez AgoraPulse : LLM pour le produit et “Self-Service AI”
“Le plus gros challenge quand tu arrives dans une nouvelle équipe, c'est d'arriver à ne pas avoir trop d'esprit critique. Le but c'est vraiment de comprendre le système que tu découvres car il est le résultat d'une multitude de décisions, d'une multitude de contraintes qu'il y a eu dans le passé.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Juliette
La chaîne YouTube 3Blue1Brown
“C'est un YouTuber qui fait des explications très visuelles sur des sujets mathématiques. C’est parfait pour ceux qui apprennent bien visuellement. Par exemple, le chapitre 5 explique comment marchent les LLM en 30 minutes. C'est génial, mais c'est assez technique.”
L’article du Financial Times sur les LLMs
“Il explique comment marche les transformers qui sont à la base des LLM. C'est une super ressource à partager aux équipes métiers qui ont du mal à comprendre ces concepts. C’est une explication super pédagogique.”
🎙 La masterclass sur la mise en place de Fabric (Microsoft)
Enzo Rideau, expert Fabric (le nouvel outil de Microsoft) est Solution Leader Microsoft Analytics chez delaware, le cabinet de conseil leader sur les solutions Microsoft et SAP en France. Il a également fondé le podcast House of Fabric et partage régulièrement du contenu sur LinkedIn (+10 000 abonnés).
On aborde :
Qu’est-ce que Fabric et pourquoi mettre en place sa stack sur Fabric ?
Les 6 étapes de mise en place d’une stack sur Fabric (état des lieux, design…)
Les plus grosses difficultés avec Fabric et ses conseils pour réussir
La tendance #1 sur Fabric : le déploiement des GenAI dans toutes les fonctionnalités.
“Le game changer de Fabric, c'est ce qu'on appelle le One Lake. C’est une couche supplémentaire à tous les outils Microsoft qui existaient déjà. Toutes les données sont stockées dans One Lake quelque soit l’outil que tu utilises et donc tout le monde utilise les mêmse données ce qui est un gros plus pour la collaboration au sein de l’équipe Data.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
Hello ! Je n'utilise jamais les commentaires ici mais je fais un petit test. Vous pouvez me dire ce que vous avez pensé de cette édition ? 😁