Qonto : Industrialiser sa Data Platform (Observabilité, Data Contracts, Automatisation, Self-Service)
#139 - Le zoom, le podcast avec Victor, les ressources recommandées et la masterclass dbt
Hello,
Bienvenue dans l’édition #139 de la newsletter DataGen ! 👋
L’agenda de la semaine :
🔍 Zoom sur l'industrialisation de la Data Platform chez Qonto
🎙 Le podcast avec Victor, Data Engineering Team Lead chez Qonto
📚 La ressource recommandée par Victor
🎙 La masterclass sur la mise en place de dbt avec Modeo
C’est parti !
🔍 Zoom sur l’industrialisation de la Data Platform chez Qonto - 5 min
Ce zoom est tiré de mon échange avec Victor, Data Engineering Team Lead chez Qonto, la solution bancaire en ligne qui permet aux PME et aux indépendants de gérer leur quotidien bancaire. Avant de rejoindre Qonto, Victor était Head of Data Platform chez Veepee, une autre licorne française.
Le contexte de départ
Lorsque Victor rejoint Qonto en octobre 2024, l’équipe Data de Qonto compte une 50aine de personnes et l’équipe Data Platform compte 8 Data Engineers. Son mandat est clair : stabiliser la plateforme, améliorer la gouvernance et faire scaler l’équipe.
“La plateforme n’était pas complètement instable mais il y avait des incidents réguliers notamment sur les ingestions et ça allait nous empêcher de scaler correctement.”
Les 4 chantiers
L'observabilité
Chez Qonto, il y avait déjà un reporting quotidien (ex : les ingestions qui ont marché ou non pendant la nuit). L’objectif était de mettre en place du temps réel pour être plus réactif lorsqu’un incident survient :
Être alerté à l’instant où il y a un incident
Avoir les informations nécessaires sur les alertes pour comprendre l’impact des incidents et les résoudre
Victor et son équipe ont rationalisé la stack d'observabilité :
Refonte des métriques, des séries temporelles et de l’alerting dans Prometheus
Refonte du rooting des alertes avec Slack, Opsgenie et des envois d’emails
“On a pris un quarter pour rationnaliser notre stack d’observabilité. Il y avait déjà beaucoup de choses en place. On a surtout standardisé et généralisé les bonnes idées.”
Les Data Contracts
La principale source d’incidents chez Qonto était liée à des changements dans les systèmes sources (ex : changements sur les API utilisées pour ingérer de la donnée externe).
Qonto a mis en place une solution de Data Contracts pour gérer de manière stable et sécurisée l’évolution des interfaces (ex : quand il y a des évolutions, tout le monde est prévenu, il y a un délai pour s’adapter, les impacts potentiels sont identifiés…).
Ils ont mis en place un framework Open Source : Open Data Contract Standard.
“Le framework définit ce qui est attendu dans un Data Contract. C’est un fichier YAML, des métadonnées, une structure de données… On a décidé de prendre un framework existant pour réduire la complexité. Le 2ème point qui est crucial, c’est de créer une interface no code pour que les utilisateurs puissent contribuer. On a fait une interface web avec Streamlit.”
L'automatisation
Grâce aux Data Contracts, l’équipe de Victor a accès au contexte et aux informations nécessaires pour automatiser au maximum (ex : owner pour l’alerting, sources pour la création de pipelines...).
Par exemple, la création de pipelines est automatisée. Dès qu’un Data Contract est créé ou modifié, le système d’orchestration s’adapte automatiquement. En fonction de la source sélectionnée par l’utilisateur (Google Sheet, table PostgreSQL…), le pipeline est provisionné et créé automatiquement sans qu’il y ait besoin de déployer du code.
“On construit des systèmes qui surveillent la configuration. Quand la configuration change, le système s’adapte. Cette première automatisation nous permet de scaler à des milliers d’ingestions sans problème.”
Le Self-Service
L’objectif était de passer d’une équipe Data Engineering qui livre beaucoup d’ingestions à une équipe Data Engineering qui construit une plateforme qui permette aux autres équipes Data de créer elles-mêmes leurs ingestions.
Aujourd’hui chez Qonto, créer un pipeline d’ingestion depuis une source vers Snowflake se fait en trois clics via une interface web.
“Les équipes sont beaucoup plus efficaces et vont plus vite à la valeur lorsqu’elles ont une autonomie relative sur leur stack.”
🎙 Le podcast avec Victor, Data Engineering Team Lead chez Qonto
On aborde :
Le parcours de Victor de Veepee à Qonto
Le contexte de départ (cf. zoom)
Les 4 grands chantiers : Observabilité, Data Contracts, Automatisation, Self-Service (cf. zoom)
La stack chez Qonto : Airflow, Snowflake, dbt, Kafka, PostgreSQL, Flink, Streamlit
Les difficultés : change management et approche produit
Les prochaines étapes : gouvernance avancée, “zéro incident plateform”
“La raison d’être d'une équipe Data Platform, c'est de permettre aux autres équipes de faire abstraction de la complexité : l'infrastructure, les permissions, le déploiement, l'orchestration.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
📚 La ressource recommandée par Victor
Le livre Deciphering Data Architecture
“Il ne faut pas hésiter de temps en temps à se replonger dans les fondamentaux. Ce livre explique les concepts de data lake, de lake house, de data warehouse et de data mesh. Ils sont indispensables quand on construit une plateforme data.
🎙 La masterclass sur la mise en place de dbt avec Modeo
J’ai reçu Matthieu Rousseau, un expert en Data Engineering, sur le sujet de la Modern Data Stack et notamment sur dbt. Il a monté Modeo, l’agence spécialisée sur le Data Engineering où 100% des collaborateurs sont des Data Engineers.
On aborde :
Le rôle de dbt dans la Modern Data Stack
Pourquoi dbt est autant adopté : les 3 raisons principales
Les grandes phases pour l’implémenter : choix de la version, structuration des projets, orchestration, observabilité
Les avantages et les inconvénients de l’outil
“dbt va accélérer la vitesse à laquelle tu construis et tu déploies tes projets. L’autre point crucial, c’est que dbt impose les bonnes pratiques de sofware engineering aux Data Analysts.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
Matthieu a également rédigé un guide pratique pour réussir l’implémentation de dbt et structurer ses projets data dans la durée.

