Les 10 annonces des sommets Snowflake et Databricks qu'il ne fallait pas rater, avec Blef
#81 - Le zoom et le podcast avec Christophe Blefari (aka Blef)
Hello les data lovers,
Après un petit break estival, je reprends du service. Bienvenue dans l’édition #81 de la newsletter DataGen ! 👋
L'agenda de la semaine :
🔍 Les 10 annonces des sommets Snowflake et Databricks
🎙 Le podcast avec Christophe Blefari (aka Blef)
C’est parti !
🔍 Les 10 annonces des sommets Snowflake et Databricks
Ce zoom est tiré de mon échange avec Christophe Blefari (aka Blef), le Staff Data Engineer auteur de la newsletter data la plus connue au sein de l’écosystème français (blef.fr). Il est également selon moi l’un des plus gros experts data en France.
Aujourd’hui, il nous parle des 10 annonces des sommets Snowflake et Databricks qu’il ne fallait pas rater.
“Databricks, qui est un Data Lake, essaie de devenir un Data Warehouse et Snowflake, qui est un Data Warehouse, essaie de devenir un Data Lake. Les 2 convergent vers un modèle hybride qui va constituer les plateformes de données de demain.”
Côté Snowflake
1) Ils vont supporter Iceberg, le format de table massivement adopté par la communauté data.
“On parle souvent des formats de fichiers (ex : CSV, Parquet). Iceberg, c'est un format de table. Aujourd'hui, il y en a 3 : Apache Hudi, Iceberg et Delta. Finalement, c’est Iceberg qui est devenu le leader. Tout le monde fait du Iceberg dans son Data Lake.”
2) Ils ont open sourcé leur catalogue Polaris qui permet de gérer les fichiers Iceberg.
“Polaris permet de cataloguer les assets Iceberg du Data Lake. Le problème aujourd’hui avec les Data Lake, c’est que ce n’est pas facile de s’y retrouver. De plus en plus d’entreprises vont mettre en place ce type d’outil pour cataloguer proprement leurs assets dans le Data Lake afin de pouvoir faire de l’IA.”
3) Ils intègrent des capacités supplémentaires de conteneurisation (ex : lancer du Pandas, des conteneurs Docker…).
“On va pouvoir lancer un peu tout et n'importe quoi dans Snowflake. Ce n'est plus vraiment un Warehouse. Pourquoi ils font ça ? Lorsque tu es un Warehouse et que tu ne fais que du SQL, il y a plein de use cases que tu ne couvres pas et qui vont être fait à l’extérieur chez AWS ou GCP. Ils veulent récupérer une partie de ce gâteau.”
4) Ils ont ajouté un Dark Mode dans l’interface : ça a été l’annonce la plus likée de l’histoire de Snowflake…
“Ça m'a fait bien rire. Si c'est ça l’annonce la plus likée, il y a peut-être un problème. Ça montre à quel point les utilisateurs Snowflake sont sensibles à l’UX.”
5) Ils ont annoncé un connecteur CDC pour charger des données Postgres ou MySQL.
“Ça voudra dire potentiellement qu'on aura plus besoin d'utiliser Fivetran ou d’autres outils d’ingestion pour copier nos bases de prod dans Snowflake.”
Côté Databricks
6) Ils ont annoncé Spark 4.0 : en gros, Py Spark devient vraiment intéressant à utiliser en terme de performance.
“Historiquement, il y a toujours eu une séparation entre Py Spark (exécuté en Python), et Spark (exécuté en Scala). Il y avait une différence de performance en défaveur de Py Spark. À priori, ça converge et on a les mêmes performances maintenant.”
7) Ils tendent vers un Spark Serverless et donc vers une plateforme plus facile à utiliser : qui rappelle un peu le positionnement “simple” de Snowflake.
“Quand on fait du Spark, un des problèmes, c'est qu'il faut gérer son cluster et personne n’a envie de ça. Du coup, Databricks va vers un Spark où il gère le cluster pour toi : tout est géré de manière cachée. Le seul truc que tu as à faire, c'est d’écrire tes jobs Spark. Et c'est là où ça converge vers Snowflake en terme de simplification.”
8) Ils ont annoncé un module Databricks AI & BI : un chatbot qui répond à des questions analytiques et propose des visualisations simples.
9) Ils ont racheté Tabular qui est également un catalogue Iceberg : 1 milliard de dollars, 30 employés dont les créateurs d’Iceberg.
“En fait, Databricks avait créé l’un des 3 formats de table : Delta. Mais comme c’est Iceberg qui est devenu le leader et que Delta n’a pas vraiment pris, ils ont décidé de se rapprocher d’Iceberg. Racheter la boîte avec les co-créateurs d’Iceberg leur permet probablement d'être l’entreprise la plus sachante actuellement sur la technologie.”
🎙 Le podcast avec Christophe Blefari (aka Blef)
On aborde également :
Le contexte autour des sommets Snowflake et Databricks
L’évolution du positionnement des 2 platformes
Le positionnement de BigQuery en comparaison
2 autres news data qui ont interpelé Blef
Le lancement de la conférence Forward Data
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify | Deezer
“L'objectif de la conférence Forward Data est de nous regrouper en tant qu'écosystème data français et européen pour discuter du futur de la data. Les gens pourront venir en équipe pour progresser ensemble, découvrir des nouvelles choses, discuter…”
👋 DataGen, c’est aussi un Collectif de freelances data issus des plus belles boîtes
Grâce au podcast, on a fédéré les meilleurs freelances data du marché.
Si tu as un projet data, on a l'équipe qu'il te faut : Head of Data, Data Analyst, Data Engineer, Data Scientist, etc.
En savoir plus : ici