Doctolib : Scaler sa Data Visualisation auprès de 2000 utilisateurs
#63 - Le zoom, le podcast, la ressource de Lucie, la masterclass Data Catalog
Hello,
Bienvenue dans l’édition #63 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Le zoom sur le scale de la Data Visualisation chez Doctolib
🎙 Le podcast avec Lucie, Data Product Manager chez Doctolib
📚 La ressource recommandée par Lucie
🎙 Une masterclass sur la mise en place d’un Data Catalog
C’est parti !
📢 Cette édition est rendue possible par DataGalaxy, le Data Catalog
Ils sont utilisés par 150+ entreprises dans le monde telles que Total, SNCF ou Bank of China aux Etats-Unis.
On organise avec DataGalaxy un tirage au sort pour faire gagner une montre FitBit à la communauté DataGen.
Participez en répondant à ce questionnaire sur le marché des Data Catalogs en France (3-4 minutes).
On partagera les réponses du sondage aux participants. 😉
🔍 Le zoom sur le scale de la Data Visualisation chez Doctolib - 3 min
Ce zoom est tiré de mon échange avec Lucie, Data Product Manager chez Doctolib, la licorne qui propose notamment une plateforme de prise de rendez-vous avec des médecins. Elle est présente en France, en Allemagne et en Italie, et est aujourd’hui utilisée par 340 000 personnels de santé et plus de 80 millions de patients.
Le contexte
Avec une explosion des usages data et 2000 utilisateurs actifs, Doctolib rencontrait en 2021 des problèmes de scalabilité sur ses outils de Business Intelligence (Data Warehouse surchargé, temps de latence des dashboards…).
Ils ont donc décidé de mettre en place 2 nouveaux outils plus adaptés à leurs besoins : Tableau et Metabase.
“Avec les outils précédents, à chaque fois que quelqu'un rafraîchissait un dashboard, ça lançait une requête sur notre Data Warehouse Redshift. Quand on a 2000 personnes qui se connectent tous les matins. Redshift se retrouve sous l’eau. On a notamment résolu ce problème avec une fonctionnalité de Tableau.”
Un déploiement en 6 étapes
1) Lister les challenges existants et préciser le besoin
Lucie a échangé avec toutes les parties prenantes et le management afin d’affiner la vision cible.
“On a identifié 2 usages clés : un premier dédié aux dashboards officiels avec un besoin de qualité et de fiabilité élevé et un second dédié au Self-Service pour l’exploration de données. On a décidé de partir sur 2 outils parce qu’on pense qu’un seul outil ne permet pas de couvrir ces 2 usages.”
2) Le POC (Proof of Concept)
Lucie et son équipe ont mis en place une première version des outils rapidement afin de les mettre dans les mains de quelques Beta testers au sein de l’équipe Data.
“On leur a fourni un plan de test afin qu’ils puissent valider que les outils remplissaient les critères identifiés en étape 1 : sécurité, gouvernance, accès...”
3) La mise en place technique
Il y a beaucoup de documentation à écrire et à faire valider par d’autres équipes pour s’assurer que les outils soient correctement implémentés d’un point de vue technique.
“Par exemple, comment on va hoster la solution chez nous ? Ce qui est nécessaire chez Doctolib pour des questions de sécurité.”
4) La gouvernance des outils
Ici, l’objectif était de définir dans une grande matrice comment organiser :
- Les dossiers et sous-dossiers
- Les groupes d’utilisateurs
- Les permissions / accès.
“C’est très complexe et ça prend énormément de temps mais c’est primordial. On s’assure que chacun ne voit que la donnée qu’il a le droit de voir et qu’on a bien traité les questions liées aux données sensibles telles que les données personnelles par exemple.”
5) L’ouverture des outils aux équipes
Dans un premier temps, les outils ont été ouverts qu’aux équipes Data car ce sont les principaux utilisateurs des outils de Business Intelligence chez Doctolib.
L’équipe de Lucie a accompagné l’équipe Data dans leur montée en compétence sur les outils et dans la migration de leurs projets sur ces nouveaux outils.
“Ça a été une phase très intense d'itération pour être sûr qu'on partait sur les bonnes bases. On s'est beaucoup appuyé sur des Data Analysts qui étaient déjà experts Tableau grâce à leurs précédentes expériences. Ils nous ont aidé à créer des templates et à partager des bonnes pratiques.”
6) La phase de run
L’objectif est de finaliser la migration :
- S’assurer que les Data Analysts ont migré tous leurs projets
- S’assurer que tout le monde utilise bien les outils
- Mettre en place du monitoring pour piloter que tout se passe bien.
“Encore aujourd’hui après 2 ans, on a quelques projets en cours de migration. Ça prend du temps mais on y est presque !”
🎙 Le podcast avec Lucie, Data Product Manager chez Doctolib
On aborde également :
L’organisation Data chez Doctolib
Son rôle de Data Product Manager
Sa plus grosse difficulté dans le cadre du scale de la Data Visualisation
La stack data de Doctolib
“On a Redshift en Data Warehouse, Airflow pour l’orchestration et on est en cours de migration pour mettre en place dbt.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 La ressource recommandée par Lucie
Dear Data de Giorgia Lupi
“C'est un projet entre deux data designers qui ont collecté chaque semaine des data de leur environnement. Alors ça va de ce qu'elles ont bu dans la semaine, ce qu'elles ont croisé comme animaux et elles s'envoient chaque semaine une carte postale avec une visualisation de la data dessinée à la main.”
🎙 Une masterclass sur la mise en place d’un Data Catalog
Sebastien Thomas est co-fondateur et CEO de DataGalaxy, le Data Catalog qui est utilisé par plus de 150 clients dans le monde tels que Total, SNCF, Swiss Life ou Bank of China aux US. Il nous fait une masterclass sur la mise en place d’un Data Catalog.
On aborde :
Ce qu’est un Data Catalog et dans quel contexte c’est nécessaire
La bonne méthode : procéder par use case et par itération
Les phases clés : collecter ses métadonnées, compléter le glossaire…
Le marché du Data Catalog et les différentes solutions.
“On ne parle pas trop de projet de Data Catalog, on parle vraiment d'outiller le déploiement de la stratégie data. Parce que ce que l’on veut déployer, c'est la culture data dans toute l'entreprise.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
🤝 Vous avez un projet data ?
DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...). Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !
En savoir plus : ici