Zoom sur l’algorithme de Doctrine, la scalup de l’IA rachetée en 2023 🚀
#58 - Le zoom, le podcast, les ressources de Pauline et l'épisode avec Databricks
Hello,
Bienvenue dans l’édition #58 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur l’algorithme de Doctrine, la scaleup de l’IA
🎙 Le podcast avec Pauline, Engineering Manager & Senior MLE chez Doctrine
📚 Les ressources recommandées par Pauline
🎙 Le podcast avec Databricks : Une stack unique pour l’Analytics et l’IA
C’est parti !
🔍 Zoom sur l’algorithme de Doctrine, la scaleup de l’IA - 3 min
Ce zoom est tiré de mon échange avec Pauline, Engineering Manager & Senior MLE chez Doctrine, la plateforme d'intelligence juridique qui utilise l’IA pour aider 12 000 avocats et juristes dans leur quotidien.
Le produit Doctrine apporte de la valeur à 3 niveaux
1) Toute l’information juridique est centralisée au sein d’une seule plateforme.
Celle-ci était au préalable silotée et dispatchée dans plein de sources différentes (ex : Cour de cassation, Assemblée Nationale, Legifrance…).
2) L’information juridique est contextualisée.
Par exemple, la solution permet d’identifier rapidement que tel article de loi fait référence à tel autre article de loi qui fait référence tels autres articles de loi.
“L’information juridique est très complexe à analyser et cette contextualisation fait gagner beaucoup de temps aux avocats.”
3) La recherche est facilitée via un moteur de recherche et un système d’alerting.
L’avocat peut trouver rapidement la décision de justice pertinente pour son cas parmi les 10 millions de décisions de justice.
La solution repose sur des algorithmes de NLP (Natural Language Processing ou Traitement Automatique du Langage)
Le NLP permet d’interpréter du texte afin notamment de l’utiliser dans des algorithmes. Par exemple, ça va permettre à Doctrine :
- D’anonymiser les décisions de justice : identifier les noms propres et les retirer.
- De prédire à quel domaine du droit une décision est associée : l’algorithme prend en entrée une décision de justice et peut dire si c’est du droit civil, du droit de la famille, du droit des contrats…
- De relier les décisions de justice à d’autres informations juridiques : des lois, d’autres décisions…
- …
“De part le Business de Doctrine et le fait que l’’on manipule principalement des textes (ex : des décisions de justice, des lois…), on a beaucoup travaillé sur des problématiques de NLP.”
Les briques techniques principales
1) Une brique d’acquisition de données
Les Data Engineers récupèrent les données juridiques des sources institutionnelles telles que la Cour de cassation, l'Assemblée nationale ou Legifrance afin de les centraliser dans un datalake.
2) La brique d’enrichissement (aka, le Legal Graph)
Une fois les données récupérées, les Machine Learning Engineers les enrichissent via des approches de NLP (cf. point NLP ci-dessus).
“On va construire ce qu’on appelle un Legal Graph qui représente tous les documents et comment ils sont liés les uns aux autres. Quelles lois sont citées dans une décision de justice ? Quels commentaires citent des lois ?...”
3) Le moteur de recherche
Une fois que toutes les données sont enrichies, que toutes les décisions de justice sont bien comprises avec leur domaine du droit, leurs mots-clés… Elles vont être indexées dans le moteur de recherche.
“La phase d’enrichissement est réalisée avec du Python, déployée avec Kubernetes et Docker et on utilise PyTorch pour les algorithmes de NLP en deep learning. Toute la partie scheduler est faite avec Airflow et on utilise principalement ElasticSearch pour le moteur de recherche.” (Ça c’est cadeau pour les profils techniques. 😉).
4) L'interface web
Toute cette donnée juridique enrichie est présentée sur un site web. Ce sont les développeurs fullstack qui prennent la relève et qui organisent cette information sur la plateforme. Ils suivent les designs qui ont été identifiés avec les Product Managers et les Designers.
“Les fullstack interagissent avec des API Python qu’on leur met à disposition pour récupérer les informations des algorithmes.”
🎙 Le podcast avec Pauline, Engineering Manager & Senior MLE chez Doctrine
On aborde également :
Le parcours de Pauline de Data Scientist à Engineering Manager
Une des valeurs principales de Doctrine : « Release early, release often and listen to your customer »
Leur organisation à la Spotify (ex : Squads pluridisciplinaires, Chapters fonctionnels)
Ses challenges principaux : montée en compétence sur les sujets juridiques, alignement sur tous les termes (ex : article de loi vs un texte de loi vs convention) et application du NLP aux textes juridiques très longs
Le rôle du Machine Learning Engineer chez Doctrine
“On attend des Machine Learning Engineers qu’ils travaillent à la fois sur le côté exploratoire, mais aussi sur le côté industrialisation.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Pauline
”Le principe est de faire attention à ne pas développer quelque chose dans son coin pendant 1 an sans le confronter aux utilisateurs. Sinon, le jour ou tu le montres, tu risques qu’ils te disent : en fait, ça ne me sert pas à grand chose...”
”Un Research Scientist de chez Google qui produit une newsletter hyper qualitative sur le NLP : les actualités, les papiers de recherche qui viennent de sortir qu’il faut suivre…”
👋 DataGen, c’est aussi un collectif de freelances data issus des plus belles boîtes
On a sélectionné les 50 meilleurs freelances data du marché. Si tu as un projet data, on a l'équipe qu'il te faut : Head of Data, Data Analyst, Data Engineer, Data Scientist, etc.
En savoir plus : ici
🎙 Le podcast avec Databricks : Une stack unique pour l’Analytics et l’IA
Quentin est Lead Solution Architect chez Databricks qui propose notamment une solution de lakehouse mais aussi toutes les autres briques nécessaires à la mise en place d’une stack data Analytics et IA (ETL, Transformation, ML…).
Databricks a pris très tôt la vague de l’IA et est aujourd’hui parfaitement placé pour devenir leader sur un marché en pleine accélération suite à l’arrivée des GenAI.
On aborde :
La différence entre un Data Lake, un Data Warehouse et un Lakehouse
La genèse de Databricks et les différentes briques proposées par la plateforme
La rivalité entre Databricks et Snowflake et ce qui les distingue particulièrement : l’IA
L'impact des GenAI et des LLM sur Databricks (500M$ levés, rachat de MosaicML…).
“On pense qu’il y a une nouvelle génération qui va arriver : les Data Intelligence Platforms. Dans le futur, la Modern Data Stack, ce sera une Modern Data Intelligence Platform.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
PS : DataBricks organise souvent des meetups, contactez Clémence Meyer (clemence.meyer@databricks.com) si ça vous intéresse de découvrir des retours d’expérience clients.