Doctolib : Scaler ses projets GenAI avec l’évaluation
#136 - Le zoom, le podcast avec Julien et son conseil pour progresser en data
Hello,
Bienvenue dans l’édition #136 de la newsletter DataGen ! 👋
L’agenda de la semaine :
🔍 Zoom sur le scale des produits GenAI avec l’évaluation chez Doctolib
🎙 Le podcast avec Julien, Senior Data Science Manager chez Doctolib
🤝 Le meilleur conseil de Julien pour progresser
C’est parti !
📢 Quelle stratégie data mettre en place pour le marketing ?
J’ai reçu Denis Ravera, co-Directeur Général chez Arcane, l’agence spécialisée sur la stratégie data appliquée au marketing qui accompagne Leroy Merlin, Decathlon ou encore Europcar Mobility Group.
Denis est venu nous faire une masterclass sur le sujet dans l’épisode 235 : les cas d’usage clés, la méthode, l’équipe et les outils à mettre en place.
Il a également tout synthétisé dans cet article.
Un immense merci à Arcane de sponsoriser DataGen. ❤️
🔍 Zoom sur le scale des produits GenAI et l’évaluation chez Doctolib - 4 min
Ce zoom est tiré de mon échange avec Julien, Senior Data Science Manager chez Doctolib, la licorne française que tout le monde connaît.
Le contexte de départ
Chez Doctolib, l’accélération sur la GenAI a été initiée par le CEO.
“Il y a à peu près un an et demi, il s’est réveillé et nous a dit : il faut faire de la GenAI, sinon on est mort. Et en plus, ça nous ouvre des opportunités incroyables.”
Les produits GenAI sont pensés pour servir les 2 missions de Doctolib.
“La première, c’est de rendre la vie des soignants plus simple. La seconde, c’est d’améliorer l’expérience santé de tout le monde.”
Les 3 produits les plus avancés
L’assistant de consultation
Un médecin passe près de 50 % de sa consultation à taper sur l’ordinateur.
L’assistant de consultation écoute l’échange, génère automatiquement un transcript puis une synthèse, et enfin remplit automatiquement les informations dans le logiciel clinique.
“On l’a lancé en Q4 de l’année dernière. Aujourd’hui, on a plusieurs milliers de praticiens qui l’utilisent en France. Ils économisent 50% de leur temps de consultation.”
L’assistant téléphonique
Plus de la moitié des rendez-vous médicaux se prennent encore par téléphone.
Doctolib a développé un assistant vocal qui permet de prendre ou déplacer des rendez-vous ou de traiter les demandes les plus courantes (ex : renouvellement de prescriptions).
“C’est un produit B2B dans la mesure où on le vend aux praticiens, mais c’est aussi un produit B2C car ce sont les patients qui parlent à cet outil.”
L’assistant pour les parents
Au-delà des produits pour les praticiens, Doctolib développe une application conversationnelle pour répondre aux questions des parents sur la santé de leurs enfants.
“Il y a une exigence particulière sur ce type de produit (réglementations strictes, qualité médicale minimum requise…).”
L’évaluation : le chantier clé qui représente 95% du travail
Aujourd’hui, créer une app GenAI avec un effet “waouh” est relativement simple. La vraie difficulté pour shipper un produit commercial, c’est de s’assurer que les réponses du produit sont fiables.
L’équipe Data Science de Doctolib a développé un framework scientifique spécifique à chaque produit. Par exemple, pour l’assistant à destination des parents, ils définissent des métriques qui permettent de mesurer la qualité “médicale” des réponses.
“On fait ce travail d’évaluation avec une rigueur scientifique parce qu’on est dans le domaine de la santé. On ne peut pas se permettre de déployer un produit qui ne serait pas au niveau. Seules les solutions qui dépassent des critères d’acceptabilité élevés (définis avec des médecins) sont mises en production.”
Côté outils, ils ont démarré par des scripts Python puis ont adopté des outils comme Langfuse et Braintrust pour scaler leurs expérimentations.
“Ces outils nous permettent de faire tourner des expériences en parallèle, d’avoir un tracking sur toutes les évaluations et de facilement comparer les résultats. Ça nous permet également d’onboarder des stakeholders matures pour qu’ils contribuent.”
Lorqu’on construit un produit GenAI, on construit en réalité 2 produits : le premier qui répond aux besoins de l’utilisateur final et le second qui est le système qui permet d’évaluer le premier produit.
“Ce 2nd produit d’évaluation, tu peux l’utiliser en offline pour tester ton produit GenAI avant de le lancer. Mais tu peux aussi en utiliser une partie en online pour avoir de l’observabilité en temps réel une fois que tu as lancé ton produit.”
🎙 Le podcast avec Julien, Senior Data Science Manager chez Doctolib
On aborde :
Le contexte : la GenAI au coeur de la stratégie de Doctolib (cf. zoom)
Leurs 3 produits GenAI les plus avancés (cf. zoom)
L’évaluation : le chantier qui représente 95% du travail (cf. zoom)
Les outils utilisés (Langfuse, Braintrust, Chainlit…)
L’organisation : 40 ML Engineers, PM, Data & ML Platform, développeurs
Les challenges organisationnels et le change management
Les 2 types de profils Machine Learning : “R&D” versus “applied”
Les prochaines étapes : fine tuning, systèmes agentiques avancés
“En termes de change, quand tu commences à parler avec tes PM ou les C-levels et qu’ils te disent : “c’est quoi ta précision ? En dessous de 80%, on lance pas”. Là, tu sais que t’as gagné !”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
🤝 Le meilleur conseil de Julien pour progresser
Aller sur le terrain. Par exemple, Julien envoie ses équipes sur le terrain rencontrer directement les médecins. L’objectif est de voir comment les praticiens utilisent réellement les outils et de comprendre leurs frustrations pour mieux répondre à leurs besoins.
“Les équipes vont en cabinet médical, en face des médecins. Ils prennent le feedback directement sur les produits. Ils sont toujours hyper contents quand ils reviennent et ça leur donne plein d’idées.”

