Déployer un projet GenAI (GPT-4) avec Marie, ML Engineer chez 360Learning et ex-Netflix
#67 - Le zoom, le podcast, les ressources préférées de Marie
Hello,
Bienvenue dans l’édition #66 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur le déploiement d’un projet GenAI
🎙 Le podcast avec Marie, ML Engineer chez 360Learning
📚 Les ressources recommandées par Marie
C’est parti !
📢 Cette édition est rendue possible par Eulidia, le cabinet de conseil spécialisé sur la data et l’IA
J’ai rencontré Benjamin, leur Chief Data Science Officer, il est également Docteur en IA et expert IA et IA Génératives.
Je lui ai demandé de nous faire une masterclass IA Génératives sur le podcast.
C’est l’épisode 117, je vous le recommande.
Si vous souhaitez vous faire accompagner par les experts d’Eulidia, contactez-les et dites-leur que vous venez de ma part, ils s’occuperont bien de vous !
-Benjamin : bcohen@eulidia.com
-Elisa : echarbonnier@eulidia.com
🔍 Zoom sur le déploiement d’un projet GenAI - 4 min
Ce zoom est tiré de mon échange avec Marie, Machine Learning Engineer chez 360Learning, la plateforme qui permet aux entreprises de créer des formations internes et de piloter leur suivi par leurs collaborateurs.
Ils ont levé 240 millions de dollars depuis leur création en 2013. Ils comptent 400 salariés et accompagnent 2000 clients en France, aux Etats-Unis, en Angleterre et en Allemagne.
Le projet GenAI
Sur la plateforme 360Learning, il y a historiquement un outil qui permet de créer des cours manuellement : l’outil auteur.
“Un cours, c’est une succession d'activités : un plan de cours, du texte, des images pour illustrer, des questions à poser aux apprenants, une synthèse avec l’essentiel…”
La nouvelle fonctionnalité GenAI de 360Learning s’intègre à cet outil auteur et permet de créer un cours complet en quelques minutes de 2 manières :
1) A partir d’un document (PDF, PowerPoint) qui contient les connaissances que l’on souhaite réutiliser pour un cours.
2) A partir d’un titre de cours, d’objectifs et d’une description de l’audience.
“On va générer le cours en moins d’une minute.”
Les 7 étapes du projet
1) 360Learning commence à réfléchir à l’utilisation des IA génératives à l’été 2022 et réalise des interviews avec leurs utilisateurs pour identifier des idées de projets.
“Initialement, c’est la création de questions pour tester les connaissances des apprenants pendant le cours qui étaient perçue comme une tâche fastidieuse : énoncer les questions, les bonnes réponses, les mauvaises réponses…”
2) Ils déploient une première fonctionnalité qui génère les questions automatiquement via des modèles Open Source trouvés via Hugging Face.
“La fonctionnalité prend le contenu texte d’un cours que tu es en train d'écrire et va te proposer des questions avec des bonnes réponses et des mauvaises réponses. Tu décides de les ajouter ou non au cours.”
3) Ils transitionnent vers ChatGPT lorsque la solution est mise sur le marché pour plus de flexibilité et de capacités.
“On a développé un microservice qui communique d’un côté avec ChatGPT et de l’autre avec notre plateforme pour afficher les résultats aux utilisateurs. La difficulté a surtout été dans l’aspect intégration produit : comment on présente les questions, comment on fait en sorte que l’auteur puisse continuer à les modifier…”
4) Le projet est étendu à la génération d’un cours complet sur la base d’un document (PDF, PowerPoint).
“Le document peut faire 50 pages et plusieurs dizaines de milliers de mots donc on ne peut pas tout rentrer en un seul prompt à ChatGPT. On va devoir découper le document et générer le cours en plusieurs étapes : plan de cours, sous-parties… In fine, on parle d’une 10aine d’appels à ChatGPT. Le challenge ici est de rester fidèle au contenu du document.”
5) Marie et son équipe mettent en place une brique d’observabilité.
“On utilise notamment Datadog. On enregistre chaque appel pour mesurer combien de temps ça a pris, pourquoi ça a échoué et les sources d'échecs. Comme il y a une 10aine de requêtes à ChatGPT, c’est difficile de comprendre pourquoi ça n'a pas marché lorsqu’il y a un problème (code, instance moins disponible…)”
6) Ils mettent ensuite en place un process pour analyser la pertinence des réponses de ChatGPT.
“On va enregistrer les résultats dans des tables sur Snowflake pour regarder ce qui a été généré et évaluer la qualité du contenu. Jusque-là, on l’a fait via un process manuel en demandant à des collègues de valider la pertinence des réponses. On itère maintenant sur des méthodes plus automatiques avec des modèles qui valident la pertinence des réponses (LLM-as-a-Judge).”
7) Le projet est à nouveau étendu à la génération d’un cours sur la base d’un titre, d’objectifs et d’une description d’audience et intégration d’une approche RAG.
“Ce qui est complexe ici, c’est de proposer un cours qui reste personnalisé à l’entreprise alors que le brief est plus ouvert et qu’il n’y a pas de document en entrée. On a mis en place une approche RAG qui récupère le contenu d’autres cours appartenant à cette entreprise déjà présents sur la plateforme afin de personnaliser la proposition de ChatGPT.”
Bilan : 10 %, des cours sont maintenant réalisés via la nouvelle fonctionnalité.
“Sachant que celle qui permet de créer un cours à partir du titre est disponible pour très peu d'entreprises, on espère encore augmenter cette métrique !”
🎙 Le podcast avec Marie, ML Engineer chez 360Learning
On aborde également :
Son parcours et son passage à San Francisco : Berkeley, Lyft, Netflix
Les challenges qu’ils ont rencontrés plus en détail
Les prochains projets GenAI de 360Learning
L'évolution du métier de Machine Learning Engineer
“Au début, je me suis posé quelques questions, j'ai eu des doutes, si ChatGPT peut tout faire, à quoi je vais servir ? Finalement, je pense que ce qui est intéressant, c’est d’utiliser ma compréhension de l'entraînement de ChatGPT pour comprendre pourquoi parfois ça ne marche pas et comment combiner des appels pour que ça marche.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Marie
Le podcast Data Driven 101
“On y trouve de très bons retours d’expérience GenAI.”
“Des intervenants de qualité qui donnent un bon aperçu de ce qui se fait dans l’écosystème Data & IA.”