Développer un algorithme d'automatisation pour scaler avec Vestiaire Collective
#48 - Le zoom, le podcast et les ressources d'Adrien
Hello,
Bienvenue dans l’édition #48 de la newsletter DataGen ! 👋
📢 Cette édition est rendue possible par Rivery, l’ETL qui bouscule le marché
J'ai entendu parlé de Rivery lors d'un live que j'avais organisé avec l'équipe data de BlaBlaCar et dans l'épisode que j'ai fait récemment avec Welcome to the Jungle.
Si vous souhaitez en savoir plus sur Rivery et sur le marché de l'ETL, allez écouter l'épisode 82.
Participez au tirage au sort pour gagner des AirPods en répondant à ce questionnaire sur le marché de l'ETL en France (2 min). 🎁
On partagera les réponses du sondage aux participants. 😉
🔍 Zoom sur l'algorithme qui permet à Vestiaire Collective d’ajouter 500K produits par mois sur sa plateforme - 4 min
Ce zoom est tiré de mon échange avec Adrien qui est Head of Data Science chez Vestiaire Collective, la plateforme qui permet d’acheter et vendre des vêtements de seconde main.
Ils sont 700 aujourd’hui au sein de l’entreprise dont une 30 aine en data : 6 Data Scientists, 6 Data Engineers et des profils Analytics (Data Analysts, Analytics Engineers, Product Data Analysts, etc.).
Le plus gros challenge d’Adrien en termes de Data Science a été le développement d'un algorithme qui automatise la validation des produits qui vont être vendus sur la plateforme.
Contexte
Lorsqu’un·e vendeur·se met en vente un produit sur la plateforme, il ou elle doit uploader une photo et renseigner quelques informations.
Historiquement, la validation était manuelle pour tous les produits. Au fur et à mesure, les équipes avaient des centaines de produits à valider par jour, et devenaient débordées.
Maintenant, un algorithme permet d’automatiser la majorité des validations.
“Les équipes métiers sont venues nous voir pour trouver une manière d’automatiser une partie de la validation car on avait de plus en plus de produits sur la plateforme. 500 000 produits sont ajoutés chaque mois aujourd’hui). L’objectif était également de permettre aux équipes de se concentrer sur les produits les plus risqués (ex : marques de luxe).”
Scoping
Sur la première phase, Adrien et son équipe se sont posés un certain nombre de questions liées aux objectifs des stakeholders et à l’intégration technique cible.
Ex :
- Quel est le pourcentage d’automatisation souhaité ?
- Quels sont les risques lorsqu’on automatise ?
- Quels produits doivent absolument être validés manuellement ?
- Comment les équipes valident les produits actuellement ?
- A quels outils le modèle doit être intégré ?
- Quelles sont les données disponibles ?
“Certains produits de marques de luxe sont sujets aux contrefaçons et doivent donc souvent être validés manuellement.”
Proof of Concept
La première version de l’algorithme était très simple d’un point de vue technique afin que l’équipe Data Science puisse facilement expliquer les résultats aux stakeholders, créer de l'adhérence au projet et monter en complexité au fur et à mesure.
“C’était une sorte de requête SQL avec un peu de LOOKUP sur des informations agrégées et des moyennes sur des indicateurs. Si l’algorithme faisait une erreur, on pouvait facilement l’expliquer et débugger la situation.”
L’algorithme aujourd’hui
Lorsqu’un produit est ajouté par un vendeur, il est soumis à validation auprès de l’équipe “Curation”. Cette équipe va pouvoir obtenir le score lié au produit via un appel API réalisé depuis son outil de validation. Elle pourra valider automatiquement l’ajout du produit en fonction du score.
Le score est un calcul du risque prenant en compte de nombreux paramètres (ex : historique vendeur, marque). Ils varie entre 0 et 1, 1 étant un produit “risqué”, 0 étant un produit “safe“.
“On établit un seuil avec l’équipe Business. Si le score est au-dessus du seuil, on l'envoie pour vérification manuelle. S’il est en dessous du seuil, alors il peut passer et avancer à l'étape suivante ce qui accélère la mise en ligne sur notre plateforme.”
3 grosses difficultés rencontrées
1) Sélectionner les données à utiliser pour le modèle
“Dans le mesure du possible, on priorise les données auxquelles on peut accéder en autonomie côté data. Si on doit demander des travaux aux équipes back-end, on risque de créer une dépendance. Il faut donc s’assurer qu’ils auront la bande passante si on doit faire évoluer ces travaux par la suite.”
2) Identifier le bon niveau d’automatisation avec les stakeholders
“On a voulu leur donner la main en leur mettant à disposition des dashboards afin qu’ils puissent contrôler et décider du bon niveau d’automatisation. C’est important de bien définir des zones de responsabilité. Les équipes Business sont mieux placées pour décider du niveau de risque qu’on est prêt à prendre.”
3) Éviter que l’algorithme “drifte” et perde en performance
“Comment est-ce qu'on s'assure qu'on prend les bonnes décisions ? Que tout fonctionne bien ? Que l'algorithme n'est pas en train de drifter ? De perdre en performance ? Ça passe par du monitoring.”
🎙 Le podcast avec Adrien, Head of Data Science chez Vestiaire Collective
Découvre l'intégralité de notre échange avec Adrien.
On aborde également :
Son parcours et ses débuts en tant que premier Data Scientist
Le process itératif mis en place avec l'équipe Métier
L'équipe technique derrière l'algorithme
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Adrien
The Visual Display of Quantitative Information de Edward Tufte
“C’est un livre qui permet d’apprendre comment représenter des données statistiques sous forme de graphiques, c’est un incontournable pour tous profils data.”
The Design Of Everyday Things de Don Norman
“En tant qu'ingénieur, on fait du design. Ce livre permet de mieux réfléchir aux problématiques qu’on essaye de résoudre et d’avoir plus d’impact auprès de personnes pour qui on crée des solutions.”
Mindset: The New Psychology of Success de Carol Dweck
“C’est un livre de développement personnel. Il permet notamment d’identifier des axes de progression et de considérer ses erreurs comme des apprentissages.”
La newsletter de Jean-Charles Samuelian, le CEO d’Alan
“Une newsletter hyper intéressante qui parle de l’écosystème tech globalement mais aussi d’environnement, de santé et de produit.”
La newsletter sur l’AI de Neuron
“Elle synthétise les dernières news sur des sujets IA comme les LLM.”