Les 3 tendances data de 2025 avec Christophe Blefari (aka Blef.fr)
#99 - Le zoom, le podcast avec Christophe et ses ressources préférées
Hello,
Bienvenue dans l’édition #99 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Zoom sur les 3 tendances data de 2025
🎙 Le podcast avec Christophe Blefari (aka Blef)
📚 Les ressources recommandées par Christophe
🎙 La masterclass sur le lancement d’un Data Office 4.0
C’est parti !
❤️ Cette édition est rendue possible par CastorDoc
J’ai reçu Tristan, le CEO de CastorDoc, le Data Catalog utilisé par plein de belles boîtes telles que ManoMano, Veolia ou Deliveroo.
On a parlé de la solution et de comment l’IA vient impacter le marché du Data Catalog dans l’épisode 158.
Depuis 2 ans, ils ont testé plein d’outils Self-Service Analytics et ont tout centralisé dans un benchmark.
N’hésitez pas à contacter Tristan sur LinkedIn ou par mail : tristan@castordoc.com.
Un immense merci à CastorDoc de sponsoriser DataGen. ❤️
🔍 Zoom sur 3 tendances data de 2025 - 3 min
Ce zoom est tiré de mon échange avec Christophe, Staff Data Engineer, co-fondateur de nao et auteur de la newsletter data la plus connue au sein de l’écosystème français (Blef.fr). Il est selon moi l’un des plus gros experts data en France.
1) Le Semantic Layer dans le Data Warehouse
Le Semantic Layer n'est pas nouveau dans les outils de BI, mais la tendance est de le déplacer directement dans le data warehouse.
L'objectif #1 est de créer une couche de définition unique pour les indicateurs business quel que soit le mode de consommation : outil de BI #1, outil de BI #2, requêtes SQL directement dans le Data Warehouse, algorithme.
L’objectif #2 est de réduire les écarts de chiffres que l’on peut avoir entre ces différents modes de consommation.
"Aujourd’hui, quand tu as 3 outils de BI, tu vas être obligé de redéfinir comment tu calcules le conversion rate dans tous tes outils. Forcément, s’il y a un changement à un endroit, ça ne va pas se répliquer à un autre endroit et tu as des écarts."
Il y a 3 outils aujourd’hui qui se positionnent sur le créneau Semantic Layer dans le Warehouse : dbt, LookML et Cube.js.
2) Iceberg et les Data Lakes
Iceberg est un format de table qui permet d'organiser les fichiers parquet dans un Data Lake comme s'il s'agissait d'une table de Data Warehouse.
Pour simplifier, c'est une manière de recréer un Data Warehouse en open en combinant un Data Lake et Iceberg.
Il y a plusieurs avantages clés :
- L’interopérabilité entre différents Data Lakes car ils se mettent tous à supporter Iceberg
- La réduction du vendor lock-in* car ce sera plus facile de changer de Data Lake
- La possibilité de faire des jointures entre données provenant de différents Data Lakes avec une réduction du besoin de centralisation et de migration.
*le fait d’être bloqué auprès d’un fournisseur de Data Lake (Snowflake, BigQuery…)
“Pour les équipes Data, il n’y a pas vraiment d’action à prendre. Elles vont bénéficier de la technologie indirectement car tous les fournisseurs adoptent progressivement Iceberg.”
3) L'IA Générative appliquée à la Data
L’objectif derrière cette tendance est de pouvoir réaliser ses analyses via du langage naturel en parlant dans un chat.
L'écosystème a beaucoup itéré ces derniers mois et en a tiré un enseignement clé : l’approche “text-to-SQL” ne fonctionne pas très bien et évolue vers une approche qu’on peut qualifier de “text-to-Semantic Layer”.
Il est donc crucial d’avoir un Semantic Layer bien structuré : la couche dans laquelle on définit notamment les indicateurs.
Enfin, selon Christophe, il n’y a pas de solution unique aujourd’hui qui puisse répondre à tous les secteurs.
"Mon opinion là-dessus, c'est qu'il va y avoir plein de Chat-with-your-data par verticale. Si tu es un SaaS B2B, il y aura une technologie spécifique pour les boîtes SaaS B2B."
🎙 Le podcast avec Christophe Blefari (aka Blef)
On aborde :
Les 3 grandes tendances data de 2025 (cf. zoom)
Semantic Layer vs Semantic Layer dans le Warehouse
Le point de douleur initial : fiabilité et écarts dans les données
Est-ce que ça fonctionne aujourd’hui ?
Les avantages d’Iceberg dans le détail
Text-to-SQL vs Text-to-Semantic Layer dans le détail
Quelles actions prendre pour une équipe Data
“ Avec un LLM, c’est hyper dur de faire du Text-to-“requête SQL” parce que le champ des possibles est trop vaste. En revanche, on a découvert que du Text-to-“remplis-moi un texte à trous”, ça marche hyper bien !”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
📚 Les ressources recommandées par Christophe
“D’ailleurs, il a partagé son opinion sur Iceberg en expliquant notamment qu’il trouvait que ce n’était pas une bonne solution.”
La Forward Data Conference est un événement organisé par le Modern Data Network, Hymaia et Christophe qui s’est tenu le 25 novembre à Paris. C’était top !
J’étais également invité à la conférence pour parler de l’avenir du rôle du CDO et des équipes Data & IA.
Si vous l’avez raté, pas de souci, ils prévoient une seconde édition cette année ! 👌
🎙 La masterclass sur le lancement d’un Data Office 4.0
Mickaël Kuentz est expert Data et IA et également Directeur Data chez KPC, le cabinet de conseil spécialisé sur la data et l'IA qui connaît une croissance fulgurante.
On aborde :
Le rôle d’un Data Office et son évolution depuis 20 ans
Les 5 piliers d’un Data Office 4.0 : la data est l’affaire de tous, est un asset aussi important que l’argent, doit aller à la vitesse du Business…
Les plus grosses difficultés lorsqu’on implémente un Data Office
L’impact des GenAI sur un Data Office.
“Le Data Office est généralement dirigé par un CDO. Historiquement, ce rôle se concentrait sur la conformité et les enjeux réglementaires. Aujourd’hui, le CDO a une mission beaucoup plus large.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
D’ailleurs, KPC a également rédigé un manifesto qui reprend les 5 piliers clés. Pour le recevoir, il suffit de s’inscrire ici.