Les 4 tendances data de 2023 avec Christophe Blefari (aka blef)
Hello,
Bienvenue dans l’édition #36 de la newsletter DataGen ! On est désormais 1288 dans cette communauté. 😁
Cette semaine, on remercie Christophe qui nous parle de 4 tendances data. 👏
Avant tout, voici quelques liens utiles :
On t'a partagé ce mail ? Inscris-toi à la communauté pour recevoir les prochaines éditions.
Ajoute-moi sur LinkedIn si ce n'est pas encore fait, je partage du contenu data chaque semaine.
Abonne-toi à la chaîne YouTube. Les interviews sont maintenant disponibles en format vidéo.
L'agenda de la semaine :
🔍 Zoom sur 4 tendances data de 2023.
🎙 Le podcast avec Christophe (aka Blef).
📚 Les ressources recommandées par Christophe.
C’est parti !
🔍 Zoom sur 4 tendances data de 2023 - 4 min
Ce zoom est tiré de mon échange avec Christophe qui est Senior Data Engineer en freelance et qui rédige également la newsletter data la plus connue au sein de l’écosystème : Blef.fr. A ce titre, il suit de près les dernières tendances data.
1) Les IA Génératives
L’élément en lien avec cette tendance qui va transformer la manière dont les gens travaillent en data, c’est le fait d'avoir une intelligence artificielle qui sera capable d'écrire et de corriger du code. Elle apparaîtra comme un copilote avec lequel on pourra interagir directement dans les interfaces de développement (ex : notebook, BigQuery).
“Ces copilots vont arriver dans tous les outils qu'on utilise au quotidien en data.”
Les IA Génératives ont également redynamisé la tendance du Self-Service avec la promesse que les profils non-techniques pourraient bientôt réaliser des requêtes en langage naturel.
“J'avoue que je suis assez pessimiste là-dessus. La requête en langage naturel va te permettre de ne pas apprendre le langage SQL. Cependant, il faudra quand même apprendre à interagir avec la base de données. Et c’est là que réside la difficulté.”
2) Le Semantic Layer
Cette notion, déjà présente dans les anciens outils de Business Intelligence, a été remise au goût du jour par DBT Labs qui en développe un actuellement.
Le Semantic Layer est une brique implémentée au niveau de l’entrepôt de données. On y définit toutes les métriques afin que l’ensemble des projets data se basent sur des définitions et requêtes communes. L’objectif est d’éviter des analyses contradictoires d’un projet à l’autre parce qu’un même KPI a été calculé différemment.
“Je recommande aux équipes Data d'attendre avant de se lancer dans la mise en place d'un Semantic Layer. Le domaine n'est pas complètement mature et il n'y a pas encore de consensus sur le marché.”
3) Les Data Contracts
Ils sont conçus principalement pour résoudre des problèmes de qualité de données. Dans un Data Contract, on va définir “des sémantiques” sur les données (ex : le schéma avec le nombre de colonne, le type de donnée pour chaque colonne, etc.). Une fois implémenté, le contrat garantira que les données de la table concernée respectent bien ces sémantiques à tout moment.
“Ce sujet a toujours existé. En revanche, la conceptualisation du terme Data Contract et les principes que la communauté commencent à bâtir autour du concept, ça c’est récent.”
Christophe recommande de commencer le plus tôt possible à mettre en place des Data Contracts. Il précise bien sûr que ça se fait de manière incrémental.
“Il y a des éléments plus ou moins importants. La partie sur l’application des schémas est obligatoire. Sinon, tu t’exposes à plein de problèmes. Par exemple, la plateforme data peut planter parce qu’une équipe productrice de données a changé un nom de colonne sans prévenir. Avec un contrat en place, elle sera obligée de t’avertir.”
4) DuckBD
DuckDB est une base de données qui va à l'encontre de la tendance historique qui consistait à stocker autant de données que possible sans vraiment savoir quoi en faire (ex : datalake).
“Cette course au volume est devenue obsolète et un peu inutile. Ce n'est pas écologique. Par ailleurs, on s’est rendu compte qu’on utilisait très peu la donnée qu’on collectait.”
DuckDB favorise l'idée d'avoir juste la bonne quantité de données nécessaire à un moment donné pour délivrer un cas d’usage spécifique.
La solution peut remplacer un entrepôt de données traditionnel comme BigQuery et Snowflake ou elle peut être utilisée en complément.
“La vraie spécificité de DuckDB, c’est que l’entrepôt de données se met en place très facilement et qu’il est possible de le faire tourner sur son navigateur web ou son ordinateur. C’est encore un peu tôt pour statuer mais ça pourrait ouvrir la porte à plein de nouveaux cas d’usage.”
🎙 Le podcast avec Christophe (aka Blef)
Découvre l'intégralité de notre échange avec Christophe. On parle plus en détail de ces 4 tendances, il m'explique pourquoi elles sont importantes en ce moment et partage ses recommandations pour des équipes Data.
"Sur le sujet du Semantic Layer, à part si c'est vraiment critique à votre business, je conseillerais d'attendre que la communauté data se mette d'accord et que les outils sortent. Aujourd'hui, ils sont encore vraiment en alpha."
Liens vers l’épisode : Spotify | YouTube | Apple Podcasts | Deezer
📚 Les ressources recommandées par Christophe
"Une des dernières conférences de Google ou ils expliquent que l'idée est d'avoir un co-worker de type intelligence artificielle qui, au quotidien, va t'aider à écrire ton code et à debugger ton code."
"C'est un américain très influent dans la data qui réfléchit à ces sujets. Il essaye de trouver quels sont les principes d'un Data Contract, ce qu'il faut faire pour en mettre en place dans une entreprise."
"C'est le fondateur de Looker qui présente un nouveau langage data sur lequel il travaille : Malloy. Il remet un peu en question la manière dont on voit la donnée. J'ai trouvé cette démonstration époustouflante."