Comprendre ChatGPT et la tendance des LLM en 3 minutes
#46 - Le zoom, le podcast et les ressources de Marc
Hello,
Bienvenue dans l’édition #46 de la newsletter DataGen ! 👋
Avant tout, voici quelques liens utiles :
Retrouve ici les anciennes éditions de la newsletter en libre service.
Abonne-toi à la chaîne YouTube. Les interviews sont maintenant disponibles en format vidéo.
Suis-moi sur LinkedIn si ce n'est pas encore fait, je partage du contenu data chaque semaine.
L'agenda de la semaine :
🔍 Zoom sur ChatGPT et la tendance des LLM.
🎙 Le podcast avec Marc, expert IA.
📚 Les ressources recommandées par Marc.
🎙 Le podcast avec Paul, VP Data & Content chez Le Wagon.
C’est parti !
🔍 Zoom sur ChatGPT et la tendance des LLM - 3 min
Ce zoom est tiré de mon échange avec Marc qui est un expert en data science, machine learning, et intelligence artificielle. Après avoir travaillé chez Tesla, il a lancé son agence dédiée à la R&D en intelligence artificielle. En parallèle, il anime le podcast Data-Driven 101 sur la Data et l’IA.
Pourquoi cette tendance est importante ?
1) Plus besoin d’autant de données
On peut utiliser ces modèles (LLM*) via des appels API sans passer par la phase d’entraînement qui est nécessaire pour développer des modèles de Machine Learning traditionnels. L’entraînement nécessite une énorme quantité de données. Ne plus avoir à gérer cette phase pour certains cas d’usage est un gain de temps et de ressources énorme.
“C’est le concept du zero shot learning. Par exemple, si on souhaite analyser un tweet et dire s’il est positif ou négatif vis-à-vis de sa marque. On peut poser la question à ChatGPT et obtenir une réponse instantanément. Avant, il aurait fallu entraîner un modèle pendant des mois avec beaucoup de données.”
*Les LLM (Large Langage Models) sont les types de modèles qu’utilisent ChatGPT et ses concurrents.
2) Plus besoin de maintenir ces modèles
Le fait qu’on ait plus besoin de les entraîner et de créer des modèles sur mesure réduit considérablement la charge en termes de maintenance. Ces modèles deviennent des briques externes dont on a pas besoin de s’occuper et qui sont maintenues par les entreprises qui les développent (ex : OpenIA dans le cas de ChatGPT).
“On peut construire des produits qui se basent sur ces modèles. On envoie les questions, on reçoit les réponses et pas besoin de s’en préoccuper.”
Illustration de 3 cas d’usage
1) Copywriting pour optimiser son référencement naturel sur Google (SEO)
“C’est le plus démocratisé actuellement. Il y a une proportion non négligeable du web aujourd'hui, à mon avis, qui a été écrite par ChatGPT ou équivalent. Ça permet d’écrire beaucoup plus vite des articles pour optimiser son référencement sur Google.”
2) ChatGPT connecté à sa “knowledge base” pour augmenter la productivité des collaborateurs
“C’est un outil de productivité qui permettra par exemple de retrouver rapidement des informations cachées dans tous les documents de l’entreprise. Par exemple, les équipes du Service Client pourront l’utiliser pour retrouver des informations et apporter les réponses les plus rapides et pertinentes possibles pour les clients.”
3) ChatGPT pour répondre aux questions des clients à la place de l’équipe Service Client
“Le chat service client est dans toutes les bouches. Cependant, il y a un gros obstacle. Les entreprises risqueraient de perdre le contrôle sur les réponses et sur les dépenses.”
Les 3 risques principaux
1) Perte de contrôle sur la fiabilité des réponses
“On observe parfois que ChatGPT va apporter des réponses qui n’ont aucun sens. C’est ce qu’on appelle le phénomène d’hallucination. Le fait de ne pas entraîner le modèle représente une baisse de contrôle sur la fiabilité des réponses. À court-terme, ça implique de fermer la porte à certains cas d’usage trop sensibles.”
2) Perte de contrôle sur les dépenses liées aux requêtes
“Chaque requête a un coût. Pour reprendre l’exemple du ChatGPT Service Client, si les clients passent leurs journées sur le chat, ça peut vite être problématique.”
3) Enjeu de confidentialité
“Il faut faire confiance à une une boîte américaine (OpenIA) qui stocke toutes les données sur des serveurs d'une autre boîte américaine (Microsoft) et il faut lui envoyer absolument tout ce qu'on a pour faire par exemple ces outils de recherche dans une knowledge base. Les boîtes d’une certaine taille ne le feront pas et c’est bien normal.”
🎙 Le podcast avec Marc, expert IA
Découvre l'intégralité de notre échange avec Marc.
On aborde également :
Son parcours avec un passage chez Tesla
Les profils qui travaillent sur ces projets en interne
La recommandation de Marc pour Les entreprises : doivent-elles investir dans des projets qui reposent sur les LLM ou bien attendre que le marché soit plus mature ?
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Marc
Suivre Yann LeCun sur LinkedIn
“Yann LeCun est VP & Chief AI Scientist chez Meta (ex-Facebook). En suivant les grands noms de l’IA, on est exposé à pas mal de choses !”
Ecouter Data Driven 101, le podcast de Marc
“ Il y a un peu moins d'un an, j’ai lancé un podcast qui a un positionnement data mais un peu plus orienté Machine Learning et Intelligence Artificielle.”
🎙 Le podcast avec Paul, VP Data & Content chez Le Wagon
On aborde :
Son parcours, du lancement du bootcamp Emil à son rachat par Le Wagon,
Les différents bootcamps du Wagon et les profils concernés,
Le lancement du nouveau bootcamp Data Engineering,
L’évolution du métier de Data Scientist avec ChatGPT et les autres LLM.
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer