Tout comprendre sur les IA Génératives
#64 - Le zoom, le podcast, les ressources de Benjamin, l'épisode avec Fivetran
Hello,
Bienvenue dans l’édition #64 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Le zoom sur la dernière masterclass IA Génératives
🎙 Le podcast avec Benjamin, Chief Data Science Officer chez Eulidia
📚 Les ressources recommandées par Benjamin
🎙 L’épisode avec Fivetran, l’ETL pilier de la Modern Data Stack
C’est parti !
📢 Cette édition est rendue possible par DataGalaxy, le Data Catalog
Ils sont utilisés par 150+ entreprises dans le monde telles que Total, SNCF ou Bank of China aux Etats-Unis.
On organise avec DataGalaxy un tirage au sort pour faire gagner une montre FitBit à la communauté DataGen.
Participez en répondant à ce questionnaire sur le marché des Data Catalogs en France (3-4 minutes).
On partagera les réponses du sondage aux participants. 😉
🔍 Le zoom sur la dernière masterclass IA Génératives
Ce zoom est tiré de mon échange avec Benjamin, Docteur en IA et Chief Data Science Officer chez Eulidia, le cabinet de conseil et d'expertise technique spécialisé sur la data et l'IA. Ça faisait un moment que je souhaitais creuser les concepts clés de cette nouvelle tendance avec un expert.
J’ai enfin des réponses à mes questions.
1) Comment choisir le bon modèle LLM ?
“La grande critique autour d’OpenAI au début, c'était qu'ils prenaient les données des prompts et s'en servaient pour entraîner le modèle. Aujourd'hui, sur la version entreprise, les données ne sont pas utilisées. Microsoft ajoute une couche supplémentaire qui garantit encore plus de sécurité sur ChatGPT.”
2) Quels sont les modèles à connaître ?
- GPT 4 d’OpenAI qui est un modèle propriétaire
- Llama 2 de Meta qui est un modèle Open Source
- Mistral (le frenchy) qui réutilise le modèle Llama 2 et propose également une version Open Source.
“Meta a choisi de prendre ce virage Open Source en se disant : de toute façon, on va se faire rattraper, la communauté Open Source est trop prolifique, il vaut mieux suivre cette voie-là. OpenAI a décidé de rester propriétaire.”
3) Est-ce qu’il y a un risque à utiliser Mistral qui est une boîte jeune ?
Pas vraiment, on pourra toujours facilement changer de modèle dans le futur si on le souhaite. On ne risque pas de se retrouver bloqué avec un modèle dans la mesure où ils sont interchangeables.
“Si on utilise la version API, on peut débrancher un modèle et en brancher un autre. Il y a un travail d'analyse de l'output pour valider que le modèle se comporte bien mais ce n’est pas compliqué. Et si on a installé le modèle chez nous, ce n’est pas beaucoup plus compliqué. On va télécharger un autre modèle, le mettre à la place et voilà.”
4) Que choisissent les entreprises ?
La majorité des entreprises se rendent compte que la meilleure approche n'est ni 100% propriétaire ni 100% Open Source, mais qu’elle est hybride. C’est une combinaison de modèles qui va fonctionner : de l’Open Source pour certains usages et du propriétaire pour d’autres.
“70% des entreprises avec lesquelles je travaille adoptent cette stratégie. Par exemple, sur les moteurs de recherche documentaire : on va faire toute la partie moteur de recherche avec de l'Open Source et la partie restitution avec GPT 4.”
5) Quelle est la plus grosse spécificité des projets GenAI versus IA traditionnelle ?
Sur les modèles traditionnels, on pilote la performance avec des métriques simples. Par exemple, si on essaye de prédire le nombre de clients qui vont partir. La métrique est simple : le modèle est performant s’il prédit les clients qui partent.
Avec l’IA Générative, la métrique à utiliser pour valider si le modèle est performant est plus complexe car elle est subjective.
- Est-ce que la réponse est bien écrite ?
- Est-ce qu’elle respecte le ton souhaité ?
- Est-ce qu’elle est suffisamment synthétique ?
- Est-ce qu’elle répond bien à la question ?
- …
C’est pour cette raison que la notion de LLM-as-a-Judge a émergé. On crée des “petits LLMs” pour des tâches de vérification bien spécifiques.
“La création de ce type de frameworks de tests est un peu unique aujourd'hui dans le sens où on n'utilise pas les mêmes pratiques en IA traditionnelle.”
🎙 Le podcast avec Benjamin, Chief Data Science Officer chez Eulidia
On aborde également :
Son parcours depuis ses débuts dans la Recherche à l’ENS et au College de France
Qu’est-ce que la technologie Transformers utilisée par les LLMs ?
A quel moment on utilise le fameux RAG ?
Quel est le plus gros challenge des projets IA Génératives : l’industrialisation (aka le LLMOps)
Ses prévisions pour le futur à l’ère de l’IA.
“Je ne pense pas qu’on va avoir des IA omnipotentes qui vont disrupter notre monde. Il y a beaucoup de freins humains, socio-économiques, politiques, techniques, environnementaux.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Benjamin
Les subreddits LocalLLaMA, machinelearningnews et datascience
“Je prends beaucoup d'informations sur Reddit, notamment sur des subreddits dédiés à l’IA et à l’IA générative.”
La chaîne YouTube 3Blue1Brown
“Super chaîne sur l'IA, le Machine Learning et la Data Science en général.”
🎙 L’épisode avec Fivetran, l’ETL pilier de la Modern Data Stack
Mabrouk Gadri est Senior Solution Engineer chez Fivetran, l’ETL moderne qui a été adopté par énormément de boites en France et dans le monde, aussi bien des startups que des grands groupes du CAC40.
On aborde :
Ce qu’est un ETL Moderne et les différentes solutions du marché
Pourquoi les entreprises choisissent Fivetran ?
L’adoption croissante des ETL modernes par les grands groupes
Comment les IA Génératives impactent ce marché.
“La valeur ajoutée d’un ETL Moderne tel que Fivetran est de fournir une interface simple qui permette à l’utilisateur de créer des pipelines d’ingestion de données moyennant quelques clics et d'éliminer le goulot d'étranglement qu’il y avait historiquement sur l’ingestion. Ça libère du temps au Data Engineer, au Data Scientist et au Business pour travailler sur la data.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer