Alan : Déployer des algorithmes pour lutter contre la fraude
#120 - Le zoom, le podcast avec Gabrielle, sa ressource préférée, une masterclass Data Observability et un IA Summit
Hello,
Bienvenue dans l'édition #120 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur les 4 étapes pour détecter la fraude chez Alan
🎙 Le podcast avec Gabrielle, Data Scientist chez Alan
📚 La ressource recommandée par Gabrielle
🎙️ La masterclass sur la mise en place d’une approche Data Observability
📆 IA Summit à Lille le 1er juillet
C’est parti !
🔍 Zoom sur les 4 étapes pour détecter la fraude chez Alan - 4 min
Ce zoom est tiré de mon échange avec Gabrielle, Data Scientist chez Alan, la licorne française qui a révolutionné la complémentaire et mutuelle santé. Ils sont présents dans 4 pays (France, Belgique, Espagne et Canada) et comptent entre 600 et 700 collaborateurs. Ils ont récemment dépassé les 500 millions d'euros de revenus annuels.
Le contexte
La fraude à l'assurance représente plusieurs pourcents du coût total de la santé. Donc autrement dit un coût énorme pour la collectivité car ça fait monter le prix des cotisations.
“Ce que beaucoup ignorent, c'est que dans 80% des cas le professionnel de santé est impliqué dans le schéma de fraude. Par exemple, un dentiste qui facture 2000€ d'implants dentaires fictifs sans que le patient ne s'en rende compte.”
Pour Alan, c'est un enjeu majeur car ils veulent offrir une excellente expérience client avec des remboursements en quelques minutes.
"On part du principe que la majorité des personnes est honnête. Du coup, nos contrôles anti-fraudes doivent être super rapides et efficaces pour la majorité des gens."
Ils ont monté une petite équipe Data centralisée qui déploie aujourd’hui les algorithmes de lutte contre la fraude.
Les 4 étapes clés du projet
Data mining
Avant toute chose, il faut devenir expert de ses données et de sa problématique métier. On ne commence surtout pas par faire de l'IA.
“Au début, tu ne sais pas à quoi ressemble la fraude, tu as juste des idées qu’il faut tester. La fraude, ça peut ressembler à ça, je vais faire une query dans mes données pour déterrer tous les cas qui remplissent telle caractéristique. Ensuite, je vais me pencher sur les cas un par un avec mon expert métier. Je vais raffiner mon approche jusqu’à identifier un schéma de fraude de manière plus précise. Ce que je décris, c'est une approche data mining.”
Moteur de règles
Sur la 2ème étape, l’équipe ne fait toujours pas de Machine Learning. Elle met en place un “rule-based engine” qui reprend les critères et les règles clés identifiées pendant l’étape de data mining :
Le parcours de soin : "Quand j'ai tel soin, j’aurais dû avoir tel autre soin auparavant."
Les anomalies statistiques : "Ce n’est pas logique d'avoir tel montant sur tel soin."
Les patterns répétitifs : "Quand tu as quinze fois la même facture avec des implants à chaque fois sur les mêmes dents, c’est un peu bizarre."
“On a mis en place ce moteur de règles sur le chemin critique du remboursement. Quand on calcule combien on va rembourser, il y a un appel à ce moteur de détection de fraude. Et chaque alerte est ensuite étudiée par des opérateurs humains."
Machine Learning
Une fois l'expertise acquise, Gabrielle et son équipe ont commencé à développer un algorithme de Machine Learning. Grâce aux critères et règles identifiées, ils avaient une bonne intuition des features à développer.
“On a entre 200 et 300 signaux qui décrivent le soin et qui sont utiles pour l’algorithme.”
Par ailleurs, ils avaient des labels car les opérateurs depuis le début du projet avaient validé si oui ou non les alertes levées étaient bien des tentatives de fraude. Ces labels sont importants pour entraîner l’algorithme.
“La problématique, c'est d’avoir un algorithme qui soit capable d'intégrer lui-même les nouveaux schémas de fraude en faisant des combinaisons de features subtiles et complexes. En gros, qu'il fasse un peu ses propres règles que toi, tu ne serais pas capable de théoriser et de coder.”
UX et explicabilité
L'équipe a construit une interface dédiée aux opérateurs qui vérifient les alertes. Elle leur permet d’être efficaces dans la revue de chaque alerte. Ils ont notamment besoin de comprendre rapidement pourquoi telle alerte a été soulevée.
“C’est un point qui intervient beaucoup dans le choix du modèle. Il doit permettre une bonne explicabilité."
L'évolution vers les agents IA
L'équipe développe maintenant des workflows automatisés avec des LLMs. Les vérifications que les opérateurs faisaient jusqu'à aujourd'hui vont être réalisées automatiquement.
Par exemple, si une demande de remboursement est arrivée un dimanche, l’agent IA pourra faire une requête sur internet pour vérifier automatiquement si tel professionnel de santé est bien ouvert le dimanche.
"On est en train de transformer le rôle de nos opérateurs vers un rôle de superviseurs. Ils sont moins dans la réalisation de la tâche elle-même et plus dans la supervision des agents IA, le pilotage et le training."
🎙 Le podcast avec Gabrielle, Data Scientist en charge de la lutte anti fraude chez Alan
On aborde :
Le modèle d’Alan
L'organisation de l'équipe Data chez Alan (30 personnes)
Le contexte et l’enjeu de la fraude dans la santé (cf. zoom)
Les 4 étapes clés : data mining, règles, ML et UX (cf. zoom)
Les plus grosses difficultés
L'évolution vers les agents IA (cf. zoom)
La culture chez Alan (transparence radicale, peu de meetings, culture de l’écrit…)
“L’élément le plus marquant de notre culture, selon moi, c'est la transparence radicale. Concrètement comment ça se passe : toutes les décisions sont prises par écrit et publiquement ouvertes à tout le monde. Il n’y a aucune asymétrie de contexte.”
Liens vers l'épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 La ressource recommandée par Gabrielle
L’article "Why data-driven product decisions are hard" de Andrew Chen sur Substack
"Cet article invite à se méfier de l'utilisation de la data à outrance pour prendre des décisions. Il parle du biais que peuvent prendre des analyses pour faire dire à la data ce que tu as envie de lui faire dire."
🎙️ La masterclass sur la mise en place d’une approche Data Observability
Salma Bakouk est une experte en Data Gouvernance, elle a co-fondé Sifflet, la solution de Data Observability utilisée par des grands groupes comme Carrefour, BBC, Saint-Gobain mais aussi par des scaleups comme Dailymotion.
On aborde :
Qu’est-ce que la Data Observability et comment la discipline a emmergé
Dans quels contextes on met en place une approche Data Observability
Comment on la met en place : pré-POC, POC, benchmark, fonctionnalités…
La différence entre un outil de Data Observability et un Data Catalog
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
“Ce que la Data Observability apporte aux entreprises, c’est de la visibilité sur ce qui se passe dans la Data Platform. Concrètement, elle permet de monitorer les données, les métadonnées et les pipelines, tout en offrant la possibilité de faire de la root cause analysis et de gérer les incidents efficacement.”
📆 Vous avez entendu parler de l’IA Summit qui aura lieu à Lille le 1er Juillet ?
L’événement a l’air hyper intéressant.
Il y aura plus de 25 speakers dont :
Clara Chappaz, la ministre de l’IA
Samir Amelal, ex. CDO d’Auchan, maintenant chez France Travail
Christophe Blefari, alias Blef, que vous connaissez sûrement si vous êtes des fidèles du podcast ! 😁
Et aussi plein d’autres leaders data de grands groupes comme Air France, Total, Orange, Engie ou Malt.
Ça se passe sur une journée qui est organisée autour de conférences et d’ateliers thématiques sur l’IA et la Data.
Il y en a pour tous les goûts : IA & Stratégie, IA & Cyber, Agent IA, Stack Data, etc.
Lien pour en savoir plus et s’inscrire : ICI
PS : ceci n’est pas une collaboration commerciale. 🙂