ex-Amazon & BlaBlaCar, il déploie la stratégie Data Science de Defacto
#93 - Le zoom, le podcast avec Dany et ses ressources préférées
Hello,
Bienvenue dans l’édition #93 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur la stratégie Data Science de Defacto
🎙 Le podcast avec Dany, Lead Data chez Defacto
📚 Les ressources recommandées par Dany
C’est parti !
❤️ Cet épisode est rendu possible par KPC, le cabinet de conseil spécialisé sur la Data et l’IA
J’ai rencontré Mickael qui est directeur Data & IA chez eux et il est venu nous expliquer comment mettre en place un Data Office 4.0 sur le podcast.
D’ailleurs, ils ont également rédigé un manifesto qui reprend les 5 piliers clés. Pour le recevoir, il suffit de s’inscrire ici.
Et si vous souhaitez vous faire accompagner par Mickael et les experts de KPC, contactez-le de ma part : mickael.kuentz@kpconsulting.fr.
🔍 Zoom sur la stratégie Data Science de Defacto - 3 min
Ce zoom est tiré de mon échange avec Dany, Lead Data chez Defacto, une startup FinTech qui propose des prêts aux PME. Ils ont levé 25 millions d’euros depuis leur création.
La Data Science pour scorer la solvabilité des entreprises
Lorsqu’une entreprise souhaite travailler avec Defacto, il y a plusieurs étapes :
1) L’entreprise communique ses informations bancaires i.e. toutes ses transactions via ce qu’on appelle les données d’open banking.
2) Defacto détermine combien ils peuvent lui prêter : par exemple, 20 000€.
3) Defacto fait évoluer ce montant en fonction de l'historique de remboursement de l’entreprise.
“C’est vraiment le terrain de jeu parfait pour un Data Scientist. On a des données labellisées et on essaye de prédire si l’entreprise va faire défaut ou non.”
Les 4 grandes phases de déploiement de l’algorithme qui détermine le score
1) Le modèle d’expert
Il ont fait venir un expert du domaine pour lui demander son avis sur les KPIs financiers à regarder et sur une première approche pour construire un score.
“C’était ce qu’on appelle aussi un modèle rule-based.”
2) Le modèle statistique
Quand ils ont commencé à avoir plus de données, ils ont testé des approches statistiques.
“On a pris les KPIs financiers (ex : revenu moyen, dépense moyenne) et on a regardé les distributions. On a identifié les caractéristiques des entreprises qui remboursent ou pas puis on a créé un score en pondérant ces caractéristiques.”
Le modèle était basé sur le bon sens et donc facile à comprendre. Ça a permis aux équipes de lui faire confiance rapidement.
“Si l’entreprise avait un 7 sur 10, on pouvait assez vite comprendre que c’était lié à un KPI financier en particulier.”
3) Le modèle de Machine Learning
Defacto a mis en place un modèle de Machine Learning parce qu’ils avaient besoin de prendre en compte plus de paramètres.
“Quand tu commences à avoir trop de règles, que ça ne devient plus gérable, que c'est un peu du Machine Learning sans vraiment l’être, alors il est temps de rentrer dans le vif du sujet.”
Sur la mise en place du modèle, l’enjeu principal a été la création du dataset d’entrée. C’est notamment dû aux spécificités du business de Defacto.
C’est un peu technique donc pour ceux que ça intéresse, je vous laisse écouter le passage où Dany nous en parle ici à 11:45.
4) L’itération pour améliorer le modèle
Defacto s’est rendu compte qu’il était parfois compliqué d’expliquer les résultats de l’algorithme aux équipes internes et aux clients et que c’était problématique dans leur secteur.
“L'explicabilité, c’est primordial quand tu fais des prêts aux entreprises. Tu ne peux pas avoir une boîte noire. Il faut pourvoir expliquer ta décision de prêter ou non.”
Ils ont même décidé que dans leur cas, l'explicabilité était plus importante que les performances, sous couvert de performances raisonnables.
Idem, c’est un peu technique mais Dany explique les optimisations qu’ils ont mis en place pour privilégier l’explicabilité sur ce passage ici à 12:24.
🎙 Le podcast avec Dany, Lead Data chez Defacto
On aborde :
Son parcours : Ingénieur, Amazon, BlaBlaCar
Le contexte Data Science chez Defacto (cf. zoom)
Les grandes phases de déploiement de l’algorithme (cf. zoom)
Le plus gros challenge : assurer la stabilité des résultats
La stack Data Science de Defacto : Dataiku, Metabase
Leur process unique de recrutement inversé
Leur culture Full Stack : les DS sont des Software Engineers
Les prochaines étapes de l’équipe Data : Deep Learning, GenAI
“Avant de passer dans un métier full Data Science, je me suis dit que si je voulais être autonome dans ce métier-là, il fallait que je me forme en Software Engineer. Donc j'ai commencé ma carrière chez Amazon en Software Engineer.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Dany
“C'est cool de voir aussi des personnes qui ne sont pas du milieu tech. Tous les invités ont profils très inspirants.”