Le VP Data de BlaBlaCar partage ses 3 priorités de 2025, avec Blef
#107 - Le zoom, le podcast avec Emmanuel & Blef, quelques ressources
Hello,
Bienvenue dans l'édition #107 de la newsletter DataGen ! 👋

L'agenda de la semaine :
🔍 Zoom sur les 3 priorités du VP Data de BlaBlaCar
🎙 Le podcast avec Emmanuel (VP Data de BlaBlaCar) et Blef
📚 Quelques ressources sur BlaBlaCar que je vous recommande
🎙 L’épisode avec Palantir : la plateforme Data & IA
C’est parti !
📢 Vous envisagez de mettre en place un Data Catalog ?
J’ai reçu sur le podcast Rachid Tighremt, expert Data Governance & Architecture et fondateur de Layer Data, le cabinet de conseil spécialisé sur la gouvernance et la qualité des données.
Ils accompagnent les plus grandes multinationales (LVMH, Coca-Cola ou encore EDF) et ont réalisé une multitude de projets sur toutes les technologies.
Rachid est venu nous expliquer comment mettre en place un Data Catalog sur le podcast : épisode 185. C’est une masterclass !
Si vous souhaitez réussir votre projet Data Catalog, contactez Rachid de ma part : rtighremt@layer-data.com et fblaise@layer-data.com
Un immense merci à Layer Data de sponsoriser DataGen. ❤️
🔍 Zoom sur les 3 priorités du VP Data de BlaBlaCar - 3 min
Ce zoom est tiré de mon échange avec Emmanuel, VP Data chez BlaBlaCar, la licorne française qui propose une plateforme de covoiturage et de transport. Ils sont 50 dans l'équipe Data et c'est une des équipes les plus matures de l'écosystème.
1) Déployer des use cases GenAI
Un des projets GenAI les plus avancés à date concerne la modération. Sur la plateforme de covoiturage, les passagers échangent directement avec les conducteurs. Et BlaBlaCar doit s’assurer qu’il n’y a pas de harcèlement ou de messages déplacés.
Ils utilisent les GenAI (notamment les embeddings) et du ML traditionnel pour analyser les messages et valider s’ils doivent être retirés. La solution a un ROI très très intéressant.
“On va économiser environ 1 million d’euros par an.”
Manu nous explique dans l’épisode le fonctionnement haut niveau de la solution et on prépare une édition dédiée avec le Lead Data Science qui a porté le projet. 😉
D’autres cas d’usage GenAI sont en cours d’exploration ou de développement comme par exemple sur la fraude.
2) BI-as-Code : réduire les coûts et le temps de maintenance
L'équipe Data de BlaBlaCar fait face à des coûts de maintenance importants sur leurs centaines de rapports, notamment lors des migrations techniques.
"Par exemple, il y a deux ans, on a changé le nom d'un dataset dans BigQuery. On a eu besoin de 10 analystes pour réécrire tous les custom SQL dans les tableaux. C’est pas intéressant et c'est inexplicable aux stakeholders car ça ne crée pas de valeur pour eux."
Pour résoudre ce problème, ils voudraient adopter une approche où tous les dashboards sont définis via des fichiers de configuration et donc du code.
"Tu définis une configuration : mon chart, c'est un bar chart, je veux qu'il ait telle couleur, etc. C'est un fichier de configuration qu’on peut ensuite exécuter et qui va générer le dashboard pour le stakeholder."
Le code de ces fichiers de configuration sera plus facile et rapide à maintenir.
"La configuration, c’est du texte, donc on pourra utiliser les GenAI pour maintenir les dashboards.”
Il y a plusieurs outils qui émergent pour mettre en place une approche BI-as-Code.
“Les plus avancés sont Lightdash en open source, Evidence, Rill Data...”
3) Les Software Engineers prennent une casquette Data Analyst
Emmanuel cherche à réduire le temps de l’équipe Data passé à fournir des données brutes pour qu’elle se concentre plutôt sur les analyses.
L’objectif est que les équipes Engineering, qui sont généralement celles qui produisent la donnée primaire, produisent les indicateurs et les poussent aux stakeholders.
Cette approche permet de réduire la charge de l’équipe Data mais a aussi d’autres bénéfices, comme améliorer la qualité de la donnée.
"En fermant la boucle entre les producteurs et les consommateurs de données, il va se passer des choses merveilleuses. Par exemple, si un développeur voit qu’une évolution sur le produit génère un bug sur un indicateur, il s’en rend compte directement."
Les fonctionnement est le suivant : les indicateurs sont toujours centralisés dans le Data Warehouse mais ils sont ensuite affichés dans Datadog qui est l’outil de monitoring déjà utilisé par les développeurs.
🎙 Le podcast avec Emmanuel (VP Data chez BlaBlaCar) et Blef
On aborde :
Sujet #1 : Scaler des use cases GenAI (cf. zoom)
L’approche Hybride GenAI & ML traditionnel
Sujet #2 : BI-as-Code pour réduire les coûts de maintenance (cf. zoom)
Est-ce que c’est compatible avec une approche Self-Service ?
Les outils BI-as-Code qui emergent sur le marché
Un changement de paradigme : les dashboards sont des assets programmables
Sujet #3 : Les Software Engineers prennent une casquette Data Analyst (cf. zoom)
Définir un framework et une gouvernance claire
La difficulté principale est culturelle
Les news de Blef : rachat de SDF par dbt & annonce sur DuckDB
“Ce n'est pas tellement une question de compétences. Suivant à quel ingénieur tu t’adresses, il va te dire : non, je ne fais pas du tout de data, je fais de la programmation."
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Quelques ressources sur BlaBlaCar que je vous recommande
Manu, VP Data, nous explique notamment l’importance de créer des voies de carrière pour fidéliser les contributeurs individuels (Senior Contributeur Individuel, Staff…).
Célia, Data Manager, revient sur la mise en place de l’approche Produit qui a été cruciale dans la réussite d’un cas d’usage Data Science.
Thibault, Data Engineering Manager, revient sur la réorganisation de l’équipe Data Engineering inspirée du Data Mesh et sur l’implémentation de dbt.
Thomas, Staff ML Engineer, nous explique son rôle en détail et comment BlaBlaCar a mis en place une approche Staff".
🎙 L’épisode sur la plateforme Data & IA pour les cas d’usage opérationnels
Agathe Verro est Deployment Lead chez Palantir, la plateforme d’IA et de Data qui permet de mettre en production à l’échelle des cas d’usage opérationnels. Pour ceux qui ne connaissent pas, l’entreprise est valorisée 200 milliards de dollars.
On aborde :
La mission de Palantir : concilier puissance de la Data & de l’IA avec sécurité & confidentialité des données
Les grandes briques de la solution : ontologie, intégration, interfaces opérationnelles et gouvernance
Leur positionnement par rapport aux autres plateformes Data & IA du marché
Quelques use cases et l’impact des IA Génératives sur Palantir (marché, fonctionnalités…)
“L'ontologie, c'est une technologie dans laquelle on a investi depuis des années. Pour résumer, on ré-agence la donnée pour coller à la réalité opérationnelle. Mais c'est bien plus qu’un modèle sémantique.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer