Les 5 plus grandes tendances Data Science du moment
Hello 👋
J'espère que tu as passé de bonnes fêtes et je te souhaite une excellente année 2023 !
Bienvenue dans la 15ème édition de la newsletter Data Gen. Nous sommes maintenant 824 dans la communauté. 🚀😁
Avant tout, voici quelques liens utiles :
On t'a partagé ce mail ? Inscris-toi à la communauté pour recevoir les prochaines éditions.
l’édition #13 sur l’équipe Product Analytics de Dashlane.
l’édition #11 sur la gestion des KPIs dans les zones de divorce avec La Fourche.
L'agenda de la semaine :
🔍 Le zoom sur les 5 plus grosses tendances Data Science du moment.
🎙 Le podcast avec Hanan, VP Data Science chez Artefact.
📚 La ressource recommandée par Hanan.
C’est parti !
🔍 Le zoom sur les 5 plus grosses tendances Data Science du moment - 5 min
Ce zoom est tiré de mon échange avec Hanan qui est VP Data Science chez Artefact, le cabinet de conseil spécialisé sur la data qui est passé de 3 à 1000 collaborateurs en moins de 10 ans.
Hanan encadre 40 Data Scientists qui développent des solutions pour des clients grands comptes ou scaleups.
On a creusé les 5 tendances qui impactent le plus le marché de la Data Science actuellement.
"Il y a tellement de nouvelles approches, de nouveaux algorithmes et de nouvelles technologies qui sont arrivées sur le marché."
1) L'industrialisation des modèles de Machine Learning
Depuis quelques années, les entreprises ont lancé de nombreux PoCs pour valider que le Machine Learning avait du potentiel (ex : validation sur un petit périmètre).
"Il y a 8 ans quand j'ai démarré en Data Science, l'enjeu était d'apporter rapidement des métriques qui prouvaient son intérêt."
Les entreprises ont notamment lancé des initiatives en Marketing pour améliorer les performances des campagnes avec des algorithmes (ex : augmentation des taux de clics ou de conversion).
"Une fois convaincues, les entreprises ont décidé d'investir des millions sur le développement d'algorithmes. Le problème est que personne ne s'est demandé si ces investissements étaient pérennes dans le temps."
Aujourd’hui, l’objectif est d'élargir le périmètre des modèles et de s'assurer qu'ils restent pertinents suffisamment longtemps pour justifier l’investissement. C'est la seule manière de valider l'impact positif du Machine Learning sur le Business.
"Comment je m'assure que ce que je développe ne va pas finir à la poubelle ? C'est un gros challenge d'anticiper les aléas qui vont impacter un algorithme : le besoin d'intégrer des nouvelles données ou des nouveaux formats, des résultats qui ne sont plus utiles ou pertinents en période de covid, etc."
2) Une attention particulière sur le “Make or Buy”
De nombreuses entreprises ont passé des années à investir en interne sur le développement de solutions.
Souvent, ces solutions ont été proposées en mieux quelques années plus tard par des éditeurs de logiciel (ex : Hugging Face qui propose un algorithme de Natural Language Processing très performant).
Il est crucial que les entreprises mettent en place une stratégie de "Make or Buy". Elle doivent inclure systématiquement une phase d'exploration avant de développer une solution en interne (ex : benchmark outil approfondi, échange avec des experts, discussion avec les éditeurs de logiciel).
L'objectif étant de valider si un éditeur de logiciel travaille déjà sur une version très performante de la solution cible. L'entreprise peut ensuite prendre une décision avec toutes les informations à disposition.
3) La spécialisation des profils
"Il y a 8 ans, le Data Scientist était un mouton à 5 pattes."
Aujourd'hui, le marché a muri et les outils sont nombreux. Il est devenu quasiment impossible d'être full stack Data Scientist.
Les profils se spécialisent sur différents sujets :
- Type de solution (ex : reconnaissance d'image, Natural Langage Processing).
- Secteur (ex : retail, finance).
- Phase de développement (ex : Data Scientists spécialisé sur le développement, Machine Learning Engineer spécialisé sur la mise en production).
"La raison principale, c'est pas que ce métier de full stack Data Scientist n'existe pas. C'est qu'à force de vouloir être bon partout, on est bon nulle part !"
4) L'émergence de l'Analytics Engineer
Une fois le problème de l'industrialisation des modèles résolu, on se rend compte qu'il y a un second problème tout aussi important : le manque de fiabilité et de qualité des données en entrée.
En effet, l'échec de nombreux cas d'usage Data Science vient des données (ex : problèmes de complétude, de compréhension des données, de format).
L'Analytics Engineer est responsable de la modélisation des données dans le Data Warehouse. Il s'assure qu'un process rigoureux soit mis en place pour maintenir un haut niveau de fiabilité des données (ex : tests de qualité, revues de code, documentation).
"L'Analytics Engineering va apporter à la Data ce que le ML engineering apporte au Machine Learning et à la Data Science."
5) L'éthique et la durabilité
Comme pour de nombreuses innovations, au début, on ne s’est pas posé trop de questions.
L'objectif dans un premier temps était de prouver que le Machine Learning apportait de la valeur au Business. Peu d'entreprises se sont demandées s'il pouvait y avoir des externalités négatives.
Par exemple, les données historiques utilisées pour entraîner un algorithme peuvent avoir des biais (ex : une population est faiblement représentée). Les Data Scientists peuvent également introduire leur propres biais dans la manière dont ils vont concevoir l'algorithme.
"Ce que va faire l'algorithme, c'est industrialiser ta façon de penser, ta façon de voir les choses."
Aujourd’hui, les projets Data Science doivent inclure une phase de réflexion sur ces sujets :
- Est-ce que mon algorithme risque de porter préjudice à une population ?
- Est-ce que mon algorithme a une consommation raisonnable d'énergie ?
Une réglementation va entrer en vigueur durant cette décennie pour s'en assurer : l'AI Act.
Par ailleurs, on observe l'émergence de startups qui s'attaquent à ce sujet. Par exemple, Trubrics et Giskard mettent à disposition une technologie qui analyse les pipelines de Machine Learning et permettent de mesurer des métriques liées à l'éthique.
"Deux projets à surveiller car ça montre que les entreprises ont besoin de s'outiller pour répondre à ces problématiques d'éthique."
🎙 Le podcast avec Hanan, VP Data Science chez Artefact
Découvre l'intégralité de notre échange avec Hanan. Il nous parle également de son parcours et de son plus gros challenge : comment garder les équipes Data Science épanouies et motivées dans un marché qui évolue aussi vite ? Il nous détaille notamment 2 initiatives qu'il a mis en place pour y faire face.
"On a créé un certain nombre d'initiatives sur différentes expertises en interne pour que les Data Scientists puissent creuser l'état de l'art. En contrepartie, on est transparent sur le fait que lors d'une mission client, le plus important est de délivrer une solution qui fonctionne en production et non d'utiliser le dernier algorithme sorti."
Liens vers l’épisode : Spotify | Apple Podcasts | Deezer | Google Podcasts
📚 La ressource recommandée par Hanan
"Un condensé d'actualité vachement cool !"