Comprendre l'observabilité de données en 3 minutes avec Sifflet
Hello 👋
J'espère que tu vas bien ! 👋
Bienvenue dans la 9ème édition de la newsletter Data Gen.
Tu as raté le webinar avec BlaBlaCar ? Ce n'est pas grave, je te partage le replay juste en dessous. 👇
Avant tout, voici quelques liens utiles :
Voici le replay du webinar sur la stratégie data de BlaBlaCar.
On t'a partagé ce mail ? Inscris-toi à la communauté pour recevoir les prochaines éditions.
L'agenda de la semaine :
🔍 Le zoom pour comprendre l’observabilité de données en 3 minutes.
🎙 Le podcast avec Salma, CEO & Cofondatrice de Sifflet.
📚 La ressource recommandée par Salma.
C’est parti !
📢 Cette édition est rendue possible par Data Bird, le bootcamp spécialisé sur la Data 📢
Lien vers leur site internet : ici
🔍 Le zoom pour comprendre l’observabilité de données - 3 min
Ce zoom est tiré de mon échange avec Salma Bakook qui est CEO & Cofondatrice de Sifflet, la plateforme d'observabilité de données.
"Sifflet est une plateforme de full data stack observability qui permet aux équipes Data d'assurer l'intégrité de la donnée de bout en bout."
Un concept relativement nouveau
Il s'inspire de l'observabilité dans le secteur du logiciel. Des plateformes comme Datadog ou New Relic permettent depuis une dizaine d'années aux équipes de développeurs de garantir la continuité des services informatiques en examinant des métriques de performance technique (e.g. nombre de requêtes reçues par un service informatique, etc.).
L'observabilité des données adapte le concept pour les cas d'usage des équipes Data. Plusieurs startups dont Sifflet proposent une plateforme d'observabilité des données spécialement conçue pour les équipes Data modernes.
"L'outil permet d'examiner les différents composants d'une stack data (e.g. ingestion, warehouse, outil de BI, modèles de machine learning, etc.) et les flux de données entre ces composants."
Un besoin venu d’une accumulation de problèmes de qualité
4 éléments de contexte doivent être pris en compte pour comprendre l'émergence des outils d’observabilité de données :
1) Les sources de données se multiplient (e.g. website, réseaux sociaux, etc.),
2) Le coût du stockage a fortement baissé avec l’arrivée des warehouse cloud (e.g. BigQuery, Snowflake, etc.),
3) Des outils modernes permettent d'ingérer la donnée facilement (e.g. Fivetran, Airbyte, etc.),
4) Le nombre de cas d’usage data mis en place explose (e.g. objectif de devenir data-driven).
En conséquence, les entreprises construisent énormément de pipelines de données pour réconcilier les différentes sources dans le warehouse, les préparer et alimenter les différents cas d’usage.
Dans ce contexte, les problèmes de qualité se multiplient (e.g. données fausses dans les dashboards). Mais surtout, il est difficile d’identifier rapidement la source des incidents avec la multiplication des pipelines de données (e.g. le pipeline en amont qui a cassé).
Cette situation réduit la confiance que les clients internes ont envers la donnée et peut avoir des impacts négatifs sur le business.
"Il arrive que les stakeholders commencent à remettre en question tous les investissements qui ont été faits dans la stack data voire dans l'équipe Data elle-même."
L’objectif de Sifflet est de permettre aux équipes Data de maintenir un haut niveau de confiance dans les données.
Comment ça marche ?
1) Sifflet détecte une anomalie
L’outil mesure en continu des métriques liées aux données, aux métadonnées (information sur les données) ou à l’infrastructure technique. Un certain nombre de règles paramétrables permettent d’identifier des problèmes de qualité (e.g. je ne reçois pas que des emails dans la colonne email, la donnée d’une table n'a pas été rafraîchie à 7h comme prévu, etc.).
2) Une alerte est déclenchée
Les profils Data qui sont proches des équipes Business (e.g. Data Analyst, Data Scientist, Analytics Engineer) reçoivent un dashboard qui représente un détail de l'incident (e.g. dashboards et modèles de Machine Learning impactés). Celui-ci suggère également des actions pour limiter l'impact business de l'incident (e.g. stopper l'affichage des données, communiquer le problème aux clients internes concernés, etc.).
Les profils Data plus techniques (e.g. Data Engineers, Data Architects) reçoivent un dashboard avec toutes les informations nécessaires pour identifier la source du problème et le corriger (e.g. les composants de la stack ou les pipelines concernés).
3) La collaboration au sein de l’équipe Data est facilitée
L'outil notifie également les profils Data proches du Business (e.g. Data Analyst, Data Scientist, Analytics Engineer) avec des updates sur la résolution du problème par les profils techniques (e.g. problème identifié sur pipeline X, résolution prévue à 15h, etc.).
"L'outil fournit les informations nécessaires qui permettent aux équipes Data d'identifier d'où vient une anomalie ainsi que son impact sur les projets Data."
🎙 Le podcast avec Salma, CEO & Cofondatrice de Sifflet
N’hésite pas à écouter notre échange avec Salma. On parle de Sifflet et du marché de l’observabilité de données. On aborde également la genèse de Sifflet et les challenges qu’elle a rencontrés en montant sa startup.
"Aujourd’hui, le vrai problème, ce n’est pas juste de savoir quand quelque chose casse parce que les pipelines vont casser ! Le vrai sujet, c’est de savoir où est-ce que ça a cassé, comment résoudre le problème rapidement et comment alerter le business avant que ça devienne un vrai problème."
Liens vers l’épisode : Spotify | Apple Podcasts | Deezer | Google Podcasts
📚 La ressource recommandée par Salma
Le blog de Sifflet
Je vous ai sélectionné un article du blog qui permet de comprendre plus en détail ce qu’est l’observabilité de données : Getting Started with Data Observability.