Les 2 chantiers du Head of Analytics Engineering de Doctolib
#87 - Le zoom, le podcast avec Romain et sa ressource préférée
Hello,
Bienvenue dans l’édition #87 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Les 2 plus gros chantiers d’un Head of Analytics Engineering
🎙 Le podcast avec Romain, Head of Analytics Engineering chez Doctolib
📚 La ressource recommandée par Romain
🎙 L’épisode avec ClickHouse, le Data Warehouse qui concurrence les géants (BigQuery, Snowflake…)
C’est parti !
📢 En rachetant Talend, Qlik est devenu le nouveau géant de la data
Aujourd’hui, Qlik couvre toute la chaîne de l’ingestion à la visualisation.
Pour les équipes Data, c’est top parce que tu as un seul interlocuteur et une stack unifiée.
Charles, un expert data de chez eux est venu nous en parler sur le podcast dans l’épisode 135.
Il nous a également parlé d’autres avantages et de quelques innovations orientées IA Génératives qui sortent en 2024.
Un immense merci à Qlik de sponsoriser DataGen. ❤️
🔍 Les 2 plus gros chantiers d’un Head of Analytics Engineering - 3 min
Ce zoom est tiré de mon échange avec Romain, Head of Analytics Engineering chez Doctolib, la licorne qui propose une plateforme de prise de rendez-vous avec des médecins et qui permet également de faire de la téléconsultation.
Chantier #1 : Tous les Data Analysts deviennent des Analytics Engineers
Initialement, les Data Analysts étaient décentralisés dans les équipes Business (ex : Product, Customer Care). Ils passaient beaucoup de temps à répondre à des demandes du quotidien.
Plusieurs problèmes ont émergé :
- L’organisation ne scalait pas assez, il y avait besoin de trop de Data Analysts.
- Les Data Analysts “tournaient en rond” car ils travaillaient sur trop de petits sujets à faible valeur ajoutée.
Doctolib a réorganisé son équipe en intégrant tous les Data Analysts au sein de l’équipe Analytics Engineering centrale : aujourd’hui, ce sont tous des Analytics Engineers.
“On souhaitait mettre en place une approche Self-Service. On répondait aux besoins du quotidien des équipes métier. Maintenant, on construit des solutions pour qu’elles soient autonomes.”
Chantier #2 : Mise en place de dbt pour créer une modélisation orientée Self-Service
Ils ont mis en place plusieurs couches de modélisation qu’on retrouve souvent dans les implémentations dbt :
- Une couche de staging pour la donnée brute
- Une couche intermédiaire où ils intègrent les règles Business et où chaque donnée est définie clairement
- Une couche orientée reporting avec une approche “One Big Table” qui est mise à disposition du métier via l’outil de Business Intelligence.
“L’élément clé de l’Analytics Engineering, c'est la modélisation. C’est ce qui permet de rendre les projets data scalables : facilement utilisables et maintenables.”
L’équipe Data chez Doctolib
L’équipe Data est rattachée au CTO et est constituée d’une 100aine de personnes :
- Un Directeur Data & IA
- Une équipe Data & Machine Learning Platform qui permet de scaler la plateforme et l’infrastructure en intégrant par exemple les nouveaux besoins en Machine Learning
- Des Product Managers Data qui récupèrent les besoins et conçoivent les solutions
- Une équipe Data Science qui développent des solutions IA notamment lorsque la solution conçue par les Product Managers Data le nécessite
- Des Analytics Engineers qui s’occupent de la modélisation mais aussi des tableaux de bords en Self-Service
- Une équipe Data Governance qui alimente notamment le data catalog et assure une documentation et un ownership clair sur toute la chaîne.
“Sur les 100 personnes, il y a environ 30 personnes dans l’équipe Data & Machine Learning, 30 dans l’équipe Data Science, 30 dans l’équipe Analytics Engineering et le reste dans les équipes PM Data et Data Governance.”
🎙 Le podcast avec Romain, Head of Analytics Engineering chez Doctolib
On aborde également :
Le parcours de Romain pour devenir Head of Analytics Engineering
Leur réorganisation vers une approche Self-Service (en détail)
Sa plus grosse difficulté : la conduite du changement
La stack data de Doctolib aujourd’hui
L’impact des LLM sur la modélisation de données.
Les prochaines priorités pour l’équipe data chez Doctolib
“L'idée, c'est de commencer à travailler pour qu’à la fin, une IA soit capable de répondre à 80% des questions du quotidien, de construire les dashboards associés, de donner des insights aux métiers, etc.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 La ressource recommandée par Romain
“J'ai beaucoup lu et regardé le site GitLab. Ils ont fait une doc sur toute leur orga data, les KPIs qu’ils suivent et pourquoi, leur modélisation… C'est une super source d'inspiration.”
🎙 L’épisode avec ClickHouse, le Data Warehouse qui concurrence les géants (BigQuery, Snowflake…)
Melvyn est Product Manager chez ClickHouse, le Data Warehouse en temps réel utilisé par Netflix, Uber, Disney ou encore Contentsquare.
On aborde :
Son parcours d’Elastic Search jusqu’au Produit chez ClickHouse
Pourquoi des entreprises migrent de BigQuery ou Snowflake vers ClickHouse
Où se positionne ClickHouse dans la Modern Data Stack
Les grandes tendances du marché (Iceberg, GenAI, séparation compute x compute).
“La problématique de ClickHouse, c'était vraiment d’adresser le scénario : on a des gros volumes de données et on veut des réponses à nos requêtes en dessous de la seconde.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
🧑🎓 DataGen a lancé un bootcamp en Analytics Engineering en collaboration avec DataBird
Le besoin en Analytics Engineering a explosé. J’observe cette tendance au quotidien dans mes échanges avec les leaders data.
Le bootcamp est à temps partiel (10h par semaine), peut être suivi en parallèle de son job et est finançable via CPF / OPCO.
Il est pensé pour permettre à des profils Data Analysts ou Data Scientists déjà en poste de devenir Analytics Engineers ou Data Analysts “Full-Stack”.
Si ça vous intéresse, vous pouvez écouter l’épisode 151 qu’on a enregistré avec le cofondateur de DataBird dans lequel on explique plus en détail la tendance de l’Analytics Engineering et le programme du bootcamp.