BlaBlaCar : Déployer un projet GenAI qui rapporte 1m€ par an

#121 - Le zoom, le podcast avec Raphaël et ses ressources préférées

juil. 03, 2025

Hello,

Bienvenue dans l'édition #121 de la newsletter DataGen ! 👋

Aujourd’hui, on remercie Raphaël pour son retour d’expérience. 👋

L'agenda de la semaine :

🔍 Zoom sur le projet GenAI dédié à la modération chez BlaBlaCar
🎙 Le podcast avec Raphaël, Data Science Lead chez BlaBlaCar
📚 Les ressources recommandées par Raphaël

C’est parti !

🔍 Zoom sur le projet GenAI de modération chez BlaBlaCar - 4 min

Ce zoom est tiré de mon échange avec Raphaël, Data Science Lead chez BlaBlaCar, la licorne française qui a l'une des équipes Data les plus matures en France et en Europe.

En mars, j'ai échangé avec le VP Data de BlaBlaCar sur ses 3 sujets data et IA les plus importants en 2025. Le premier concernait l'adoption des IA génératives et notamment ce projet sur la modération. C’est suite à cet échange que j’ai décidé de réaliser un épisode avec Raphaël qui porte le projet.

La genèse du projet

Pour une plateforme comme BlaBlaCar, il est très important de contrôler les contenus publiés par les utilisateurs (messages privés, descriptions de trajets...). Ils doivent s’assurer qu’aucun contenu violent, frauduleux, etc. n’est diffusé sur la plateforme.

C’est ce qu’on appelle la modération de contenu.

"Jusqu'à récemment, on sous-traitait la partie modération de texte à une entreprise spécialisée et ça coûtait plus d'un million d'euros par an."

Lors d'un hackathon, les Data Scientists ont eu une idée : créer leur propre outil de modération grâce à la GenAI.

“En 2 jours, on a réussi à prouver qu’on pouvait reproduire les résultats de l’entreprise externe à moindre coûts.”

Le fonctionnement de la solution

Récupération des contenus textes (messages entre utilisateurs, descriptions de trajets...)
Transformation des contenus textes en “embedding*” en utilisant la brique d’interprétation d’un LLM
Utilisation du Machine Learning classique pour classifier le contenu (violent, frauduleux...)
Détection des cas complexes pour validation humaine.

*L’embedding est une brique utilisée et mise à disposition par les fournisseurs de LLM (OpenAI, Google…) qui permet notamment de rendre les résultats des modèles déterministes et donc de les réintégrer dans une approche Machine Learning classique. Raphaël l’explique dans l’épisode à 05:45.

"Ce n'est pas uniquement un projet de cost savings, c'est aussi un projet qui a permis d'apporter de la transparence à la modération. Auparavant, on n'avait aucune idée de la fiabilité de la modération, il y avait une opacité complète sur le service qu'offrait la société à laquelle on sous-traitait ça. Avec notre nouvelle solution (Sphinx), on a la possibilité de mesurer de manière objective la performance de cette modération."

Les 2 axes méthodologiques clés du projet

Mettre en place une brique de mesure au tout début

"On a commencé par mettre en place toute la tuyauterie qui nous permettrait de mesurer la performance de n'importe quel outil de modération. On a ensuite mesuré la performance de la solution existante. On a pu ainsi mesurer dans la foulée la performance de la nouvelle solution, s’assurer objectivement qu’on avait des meilleures performances et migrer sereinement.”

Se restreindre à reproduire l'existant dans un premier temps

“On a essayé de se substituer à l'outil en place sans changer ses interfaces avec les autres équipes et les autres services. Ça nous a permis de couper de manière drastique le nombre de dépendances du projet. Au départ, la migration revient à dire à l’équipe qui utilise le service : au lieu d’appeler l’outil A, vous appelez l’outil B. On a pu aller très vite grâce à ça."

🎙 Le podcast avec Raphaël, Data Science Lead chez BlaBlaCar

On aborde :

La genèse du projet (cf. zoom)
Le fonctionnement de la solution (cf. zoom)
La définition de l’embedding et ses avantages
Les 2 axes méthodologiques clés du projet (cf. zoom)
L'organisation de l’équipe
La stack mise en place
Les plus gros challenges rencontrés
Les prochaines étapes du projet

"On est parti au départ sur l'API d'embedding de Google, mais rapidement on a dû basculer sur des modèles d'embedding open source hébergés sur nos propres instances pour avoir plus de performance. On utilise notamment Qwen, qui est un modèle d'Alibaba qui est open source."

Liens vers l'épisode : Apple Podcasts | YouTube | Spotify

📚 Les ressources recommandées par Raphaël

Les Rules of Machine Learning de Google

"C'est un document qui décrit les bonnes pratiques à suivre pour faire un projet de Machine Learning en production et qui nous a beaucoup inspiré chez BlaBlaCar pour faire de la prise de décision à l'échelle."

L’article qui décrit comment BlaBlaCar fait du Machine Learning

"J'ai aussi écrit un article Medium sur comment on fait du Machine Learning chez BlaBlaCar. Ça a été fortement inspiré de ce document de Google.”

DataGen