Mettre en place une Modern Data (& AI) Stack
#61 - Le zoom, le podcast, les ressources de Loïc
Hello,
Bienvenue dans l’édition #62 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Le zoom sur la mise en place d’une Modern Data (& AI) Stack
🎙 Le podcast avec Loïc, Head of Data chez MyLight Systems (100M€ levés en 2023)
📚 Les ressources recommandées par Loïc
C’est parti !
📢 Cette édition est rendue possible par DataGalaxy, le Data Catalog
Ils sont utilisés par 150+ entreprises dans le monde telles que Total, SNCF ou Bank of China aux Etats-Unis.
J’ai rencontré leur CEO Sébastien qui est venu nous expliquer comment mettre en place un Data Catalog sur le podcast. C’est l’épisode 111, je vous le recommande, c’est une masterclass !
En parallèle, on organise avec DataGalaxy un tirage au sort pour faire gagner une montre FitBit à la communauté DataGen.
Participez en répondant à ce questionnaire sur le marché des Data Catalogs en France (3-4 minutes).
On partagera les réponses du sondage aux participants donc vous êtes gagnants dans tous les cas. 😉
🔍 Le zoom sur la mise en place d’une Modern Data (& AI) Stack - 3 min
Ce zoom est tiré de mon échange avec Loïc, Head of Data chez MyLight Systems, la scale up qui propose des solutions d'optimisation énergétique comme des panneaux solaires ou des boîtiers connectés. Ils ont levé 100M€ en 2023 pour accélérer leur développement. Aujourd’hui, ils sont 250 collaborateurs dont 8 côté Data.
Le contexte de départ
- Côté Analytics, des 100aines de rapports PowerBI ont été construits. Les rapports sont branchés directement sur les systèmes sources. Il n’y a pas encore de Data Warehouse mis en place.
- Côté Data Science, des algorithmes d'optimisation énergétique ont déjà été développés par 3 Data Scientists. Les données qu’ils utilisent sont stockées sur Databricks.
Loïc décide rapidement de mettre en place une stack Data commune basée sur Databricks pour alimenter les rapports Analytics et les algorithmes de Data Science.
Étant donné que les données utilisées pour les algorithmes de Data Science étaient déjà sur Databricks, l’enjeu principal a été d’ingérer et de préparer les données pour les besoins Analytics dans Databricks.
Les 6 étapes de mise en place
1) Proof of Concept : l’équipe de Loïc a ingéré et préparé les données d’un premier périmètre dans Databricks (ex : facturation), a mis en place une architecture médaillon et la brique d'orchestration.
2) Analyse des tableaux de bord existants : ils ont ensuite identifié les sources qu’utilisait chaque tableau de bord et la complexité technique vs la priorité business de chaque tableau.
3) Migration des rapports qui ont le plus d’impact : ici, ils ont priorisé ceux qui manipulent des gros volumes de données et qui impactent le plus les systèmes sources.
“Par exemple, si tu rentres un nouveau devis dans ton système alors que tu as déjà une requête Analytics en cours, il va attendre que la requête soit terminée et ça peut mettre l’ajout de ton devis en échec.”
4) Documentation de chaque tableau de bord : en parallèle de la migration de chaque tableau de bord, ils ont documenté les indicateurs utilisés, comment ils sont calculés et ceux qui sont en doublon (ex : chiffre d’affaire calculé de 2 manières différentes dans 2 tableaux de bord).
5) Rationalisation des rapports : pour tous les indicateurs en doublon, l’équipe Data a créé un rapport commun lorsque c’était possible. Ce rapport peut être ajouté dans les différents tableaux de bord (ex : un rapport Chiffre d’Affaires est créé une fois et est déployé dans le tableau de bord Supply et dans le tableau de bord marketing).
6) Rationalisation des tables dans le Data Warehouse : une fois le besoin de tableaux de bord clarifié, les Data Engineers ont rationalisé la préparation des données dans Databricks (ex : créer une table dédiée à un indicateur, réunir des indicateurs sur une même table).
“On a mis en place dbt pour simplifier la préparation de données. On avait plein de modèles, à chaque fois qu'on rajoutait une couche, il fallait suivre où on la mettait. On s'en sortait plus manuellement. La feature d’orchestration de dbt nous a permis de résoudre ce problème.”
La Modern Data (& AI) Stack
- Azure Data Factory pour orchestrer
- Databricks pour le compute
- Delta Lake pour le stockage sur Azure Data Lake Storage
- Workspace Databricks pour les requêtes SQL
- Power BI pour les rapports industrialisés
- Azure Log Analytics et App Insights pour l’analyse des logs et le monitoring
“On a choisi Databricks car on avait des cas d’usage qui mêlaient à la fois des données IoT avec des fortes volumétries pour lesquelles Databricks est adapté et les données de ventes et des autres systèmes. On ne voulait pas avoir 2 solutions différentes.”
🎙 Le podcast avec Loïc, Head of Data chez MyLight Systems
On aborde également :
Son parcours avec un passage dans le conseil
Un zoom sur l’architecture médaillon
La plus grosse difficulté : continuer de servir le Business
L’organisation de l’équipe Data
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Loïc
Scaling People de Claire Johnson
“Un bouquin top sur le management et le développement personnel.”
Futureproof: 9 Rules for Humans in the Age of Automation de Kevin Roose
“Ce livre analyse les tendances autour de l'intelligence artificielle et donne des conseils concrets pour être futur-proof et passer au travers de cette révolution sans se faire disrupter.”
🤝 Vous avez un projet data ?
DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...). Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !
En savoir plus : ici