Migrer vers la Modern Data Stack, le retour de Gorgias
Hello,
J'espère que tu vas bien !
Si tu découvres Data Gen, bienvenue ! Je m'appelle Robin Conquet et chaque semaine j'échange avec un expert de la data pour décrypter les problématiques de sa boîte. Je te propose ici une synthèse avec le podcast, des ressources, des outils et des conseils.
Cette semaine, c'est Elliot Trabac, Lead Analytics Engineer de Gorgias, qui nous a fait un retour d'expérience sur leur migration vers la Modern Data Stack.
L'agenda de cette semaine :
🎙 Le podcast de notre échange avec Elliot sur leur migration.
📚 Deux articles très intéressants sur les organisations data de Fivetran et Postman.
🛠 Un outil pour vérifier que ses nouvelles tables sont identiques aux anciennes.
🤔 Ma réflexion sur la Modern Data Stack : quand migrer ?
Bonne écoute et/ou bonne lecture !
🎙 #20 - Gorgias : Migrer vers la Modern Data Stack
Dans cet épisode, Elliot nous parle de son plus gros challenge des dernières années : la migration vers la Modern Data Stack et la réorganisation associée. Il nous explique quelles étaient les limites de l'ancienne stack, il nous détaille la phase de planification, la mise en place d'outils d'observabilité et d'accessibilité et surtout, il nous raconte comment ils ont embarqué toute l'équipe data dans cette migration.
Liens vers l’épisode : Spotify | Apple Podcasts | Deezer | Google Podcasts
📚 Deux articles très intéressants sur les organisations data de Fivetran et Postman
Dans cet article de Fivetran, l’auteur nous détaille les inconvénients des organisations data décentralisées et centralisées et il nous présente une alternative hybride qui tire le meilleur des deux mondes, qui permettrait d’atteindre une meilleure efficacité et de réduire le turnover de ses équipes data : l’organisation Hub-and-Spoke. L’équipe “Hub” est constituée d’ingénieurs qui ingèrent et préparent la donnée en vue d’un usage analytics et les équipes “Spoke” sont composées d’analysts spécialisés par verticale business. Les deux équipes reportent à un même manager/C-level data. Cet article de Postman propose un retour d’expérience concret sur l’implémentation de ce modèle.
🛠 Datafold : un outil pour vérifier que ses nouvelles tables sont identiques aux anciennes
Lorsqu’on opère une migration de sa stack data, il est nécessaire de recréer toutes les tables qui sont utilisées pour des analyses régulières ou pour des dashboards par exemple. Pour s’assurer que les migrations des anciennes tables aux nouvelles n’aient pas d’impact sur les équipes qui les utilisent, il est utile de vérifier que les tables sont identiques ou que les écarts sont voulus. Datafold permet de comparer facilement deux tables avec sa fonctionnalité Data Diff.
🤔 Ma réflexion sur la Modern Data Stack : pourquoi migrer ?
Il y a 3 causes principales qui poussent les équipes data à migrer ou à opter pour une Modern Data Stack :
(1) Des performances techniques trop basses avec notamment des temps de réponse trop longs sur les requêtes. Dans cette situation, il est compliqué de mettre en place des cas d’usage avancés et il est fréquent d’observer des hauts niveaux de turnover dans ses équipes data. Seule une modernisation de sa stack permet de résoudre ce problème.
(2) Un impact de l’équipe data trop faible qui est dû à des goulots d’étranglement sur les Data Engineers et sur les Data Analysts. La solution est généralement d’introduire du self-service pour répondre à plus de besoins en data sans augmenter proportionnellement la taille de l’équipe. La Modern Data Stack permet de mettre en place cette approche self-service. Par exemple, l’implémentation de DBT permet à des profils Data Analysts d’être autonomes sur le développement des pipelines ce qui réduit le goulot d’étranglement qu’il peut y avoir sur les Data Engineers.
(3) Un faible niveau de fiabilité des données qui se traduit par de nombreux tickets liés à des doutes sur les données ou à des écarts entre différents dashboards ou analyses. L’adoption d’une Modern Data Stack et la mise en place d’outils d’observabilité et de cataloging comme Datafold ou Castor permettent d’identifier les problèmes de fiabilité et de les corriger de manière proactive et donc de maintenir un haut niveau de confiance dans la donnée.
Voilà, j'espère que ce contenu t'a été utile, à la semaine prochaine ! 👋
Robin
PS : si tu souhaites me soutenir, tu peux me mettre 5 étoiles et un avis sympa sur Apple Podcasts, c'est ce qui m'aide le plus à faire connaître Data Gen et à attirer des invités exceptionnels !