Comment améliorer la fiabilité des données avec Openclassrooms
Hello,
Bienvenue, dans l’édition #40 de la newsletter DataGen ! 👋
Cette semaine, on remercie Victoire qui nous raconte comment ils ont amélioré la fiabilité des données chez Openclassrooms. 🙏
L'agenda de la semaine :
🔍 Zoom sur l’amélioration de la fiabilité des données.
🎙 Le podcast avec Victoire, Data Project Manager chez Openclassrooms.
🎙 Le podcast sur une histoire de reconversion avec Astrid.
📚 La ressource recommandée par Victoire.
C’est parti !
📢 Cette édition est rendue possible par Esther Voituron, experte en Data Storytelling.
Elle nous a d’ailleurs partagé sa méthode en 5 étapes pour mettre en place un data storytelling impactant dans l’épisode 62 de DataGen. Allez l’écouter c’est une vraie masterclass !
Si vous avez besoin d’aide sur ce sujet, contactez-la via LinkedIn ou voici son mail : esther@data-organisation.com
🔍 Zoom sur l’amélioration de la fiabilité des données
Ce zoom est tiré de mon échange avec Victoire qui est Data Project Manager chez OpenClassrooms, l’école en ligne qui a pour mission de rendre l’éducation accessible. Ils proposent des formations sur quasiment tous les sujets (data, design, tech, etc.).
“En 2022, il y a eu 44 000 changements de carrière grâce à OpenClassrooms. Des élèves qui se sont reconvertis ou qui ont évolué dans leur job. C’est cet impact qui nous motive au quotidien.”
Le problème de la fiabilité des données
L’équipe Data d’OpenClassrooms a produit beaucoup de tableaux de bord depuis sa création. Cependant, l’équipe Data étant petite, les dashboards ont souvent été développés en silo par un(e) Data Analyst. A l’échelle, des écarts dans les données ont émergé car un même KPI pouvait être calculé différemment d’un tableau de bord à l’autre.
“Différents chiffres circulaient. L’équipe Data se retrouvaient souvent à expliquer pourquoi on avait 10% d’un côté et 16% de l’autre."
Les étapes pour améliorer la fiabilité des données
1) Création d’un nouveau poste de Data Project Manager
C’est la première chose que la Directrice Data Analytics (la boss de Victoire) a fait lorsqu’elle a observé les problèmes de fiabilité des données chez OpenClassrooms.
« On va recruter un Data Project Manager pour mieux s’organiser, harmoniser nos pratiques et fiabiliser la donnée.”
2) Rédaction des guidelines de code pour harmoniser les modèles SQL et le développement des tableaux de bord
En gros, c’est une page Notion avec toutes les coding guidelines.
Par exemple, on y retrouve :
- Les jointures à faire entre les tables pour calculer certains KPIs
- Les modèles existants à utiliser pour éviter de créer des doublons
- La structure des requêtes à adopter pour faciliter leur lecture
- Quelles règles doivent intervenir dans l’outil de Business Intelligence versus en amont dans le Data Warehouse.
"Chacun peut avoir une façon différente d’écrire le code. Même si différentes manières sont bonnes, ce qui est important, c’est d’harmoniser la pratique pour que chaque code soit facilement compréhensible par son collègue.”
3) Alignement des Data Analysts pour qu’ils/elles adoptent les guidelines
Ces guidelines sont présentées et discutées avec l’ensemble des Data Analysts pour valider qu’elles seront adoptées pour développer les prochains modèles.
“On va également planifier la refonte des modèles existants pour qu’ils respectent les guidelines. Mais ça, ça va prendre un peu plus de temps.”
4) Création d’un process de priorisation plus strict
Au quotidien, il y a toujours des collègues qui viennent voir l’équipe Data et qui poussent leurs “petits sujets mega prioritaires". C’est difficile, mais il est crucial d’apprendre à dire non pour se dégager du temps afin de travailler sur des sujets de fond.
“L'équipe Data était super gentille, ce qui est positif. Elle disait oui tout le temps pour faire des petits changements sur tel ou tel dashboard. Mais du coup, elle n’avait pas le temps d’avancer sur le chantier d'amélioration de la fiabilité.”
5) Communication auprès de l’ensemble des stakeholders sur la feuille de route data et les sujets priorisés
C’est important que toutes les équipes soient bien au clair sur les sujets sur lesquelles l’équipe Data travaille. Ainsi, ils comprennent plus facilement pourquoi on ne travaille pas sur leurs sujets qui semblent toujours prioritaires à leurs yeux.
“Grâce à ça, aujourd’hui, il y a des stakeholders qui nous disent : on sait que vous êtes à 100% sur d'autres sujets en ce moment, notre sujet attendra car il n’est pas prioritaire.»
6) Refonte de la stack data en parallèle
Historiquement, l’équipe Data utilisait Dataiku qui est un super outil dans la mesure ou il est facile à prendre en main et il permet de faire plein de choses (de l’ingestion, de la transformation, etc.). Cependant, OpenClassrooms a décidé de mettre en place DBT qui permet de mieux gouverner les flux de données via des tests, de l'alerting et de la documentation.
“Tous les matins, on sait maintenant si les modèles ont bien tourné, si les tests sont passés et donc si la donnée est bonne. Sinon, on peut alerter tout de suite les stakeholders en précisant que telle ou telle donnée ne doit pas être utilisée.”
Comment mesurer le succès
La métrique la plus importante pour valider qu’un chantier de fiabilité des données a fonctionné est l’usage de la data. Si les stakeholders utilisent de plus en plus les tableaux de bord au quotidien, c’est que leur confiance pour la donnée remonte.
“Par exemple, avant, les dirigeants regardaient surtout des fichiers Excel parce que la donnée n’était pas assez fiable. Maintenant, il y a des tableaux de bord regardés quotidiennement par tous les C-levels.”
🎙 Le podcast avec Victoire, Data Project Manager chez OpenClassrooms
Découvre l'intégralité de notre échange avec Victoire.
On aborde plein d'autres sujets :
Le parcours de Victoire d'un grand groupe à une scaleup en passant par une startup
Ses plus grosses difficultés liées à la fiabilisation des données chez OpenClasrooms
Les prochaines étapes de l’équipe Data.
« Un élément qui est dur, c'est de dire à un Data Analyst : t'as écrit tout un modèle en SQL mais il ne respecte pas les bonnes pratiques. Tu peux le corriger ? Alors que ça prend du temps, ça décale la livraison et les décisions qui peuvent être prises par les stakeholders."
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
🎙 Le podcast sur une histoire de reconversion avec Astrid
Dans cet épisode, je reçois Astrid de Jullien qui s’est réorientée d'un rôle de Head of Analytics après 10 ans de carrière vers un rôle plus technique et opérationnel de Data Product Manager chez Avisia. Elle nous raconte notamment comment elle s'y est prise et nous parle de sa formation avec Databird.
“Ça devenait impossible pour moi de travailler sans avoir de connaissances en SQL et en Python.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
PS : Avisia recrute sur plusieurs postes en data.
📚 La ressource recommandée par Victoire
"C'est un media qui vulgarise les sujets autour de la crise écologique et c'est un vrai travail de data. Les articles synthétisent un grand nombre de données (des chiffres, des analyses, des graphiques). Pour les équipes Data, c'est un bon exemple de synthèse et de vulgarisation."