Les 10 outils Data & IA à suivre en 2025 👀
#101 - Ou ils se positionnent dans la stack, pourquoi les suivre en 2025 ?
Hello,
Bienvenue dans l’édition #101 de la newsletter DataGen ! 🥳
Pour cette édition spéciale, je t’ai préparé une synthèse de 10 outils Data & IA à suivre en 2025. J'ai étudié chaque outil et reçu un expert de chacun d’entre eux sur le podcast.
J'y détaille :
Où se positionnent ces 10 outils dans la stack data ?
Pourquoi les suivre en 2025 ?
Si tu veux creuser, tu trouveras pour chaque outil le lien vers l’épisode et le LinkedIn de l’expert avec lequel j’ai échangé.
C’est parti !
Databricks
🔎 Où il se positionne dans la stack data
Databricks a inventé le concept de Lakehouse. Historiquement, il y avait d’un côté le Data Warehouse (plutôt pour l’Analytics et les données structurées) et le Data Lake (plutôt pour l’IA et les données non structurées). Le Lakehouse réunit le meilleur des 2 mondes et permet de couvrir des cas d’usage Analytics & IA avec une seule plateforme.
👀 Pourquoi le suivre en 2025
L’arrivée des IA Génératives a accéléré la tendance de l’IA. Les entreprises ont augmenté leurs investissements sur le sujet. En étant positionné sur le Lakehouse (Analytics + IA) depuis longtemps, Databricks a un avantage compétitif sur le marché. Plusieurs entreprises m’ont dit qu’elles avaient adopté la solution pour “unifier leur stack Data & IA” (ex : MyLight Systems).
🎙 Episode #102 avec Quentin Ambard
Google Cloud
🔎 Où il se positionne dans la stack data
GCP est l’un des grands fournisseurs de cloud qui propose une plateforme complète permettant quasiment de composer une stack data entière (stockage, transformation, Business Intelligence…). Historiquement, la plateforme a un avantage compétitif parce qu’elle s’intègre parfaitement dans l’écosystème marketing de Google (Google Ads, Google Analytics…) et parce que son Data Warehouse (BigQuery) est très apprécié de la communauté data.
👀 Pourquoi le suivre en 2025
GCP accélère sur l’IA. BigQuery a évolué d’un positionnement Data Warehouse vers un positionnement Lakehouse avec des évolutions tech (ex : données structurées + non structurées) et des fonctionnalités “IA” (ex : notebook dans BigQuery). Par ailleurs, GCP a sorti Data Canvas (aka Gemini dans BigQuery) qui permet d’interagir avec ses données en langage naturel. Enfin, ils ont sorti Model Garden qui permet d’accéder à plus de 130 LLM (Gemini, Llama…) pour ses cas d’usage IA.
🎙 Episode #139 avec Vincent Le Roy
DataGalaxy
🔎 Où il se positionne dans la stack data
DataGalaxy est un Data Catalog, il se positionne dans la catégorie de la stack qu’on appelle souvent “Data Gouvernance”. En général, lorsqu’on déploie un Data Catalog, on a déjà une stack data en place. On va déployer le catalogue sur les use cases (ex : tableaux de bord) de manière itérative (ex : création du dictionnaire de données, du glossaire, documentation du lineage, mise à disposition des informations).
👀 Pourquoi le suivre en 2025
DataGalaxy est utilisé par plus de 150 clients dans le monde tels que Total, SNCF, Swiss Life ou Bank of China aux US. C’est l’un des acteurs de cette catégorie dont j’ai le plus entendu parler dans mes échanges avec les leaders data en 2024. Par ailleurs, ils ont intégré récemment le premier quadrant Gartner de la catégorie Data & Analytics Governance Platforms.
🎙 Episode #111 avec Sébastien Thomas
Fivetran
🔎 Où il se positionne dans la stack data
Fivetran est un outil d’ingestion moderne. Il permet en quelques clics ou via du SQL de collecter les données de centaines de sources directement dans son Data Warehouse. La solution permet de réduire drastiquement le temps de développement des projets data car un Data Engineer peut faire en quelques jours ce qu’une équipe entière met des mois à réaliser en développant elle-même les connecteurs.
👀 Pourquoi le suivre en 2025
Fivetran est l’un des outils qui est à l’origine de l’expression “Modern Data Stack” avec entre autres dbt, Snowflake et Looker. Il a déjà connu une adoption massive sur le marché français, principalement auprès des startups, mais aussi auprès des grands groupes depuis 2024 (Saint-Gobain, LVMH…). Pour y parvenir, Fivetran a racheté une solution (HVR) qui lui permet de traiter les volumes des grosses bases de données (Oracle, SAP…).
🎙 Episode #116 avec Mabrouk Gadri
Starburst
🔎 Où il se positionne dans la stack data
Starburst permet de requêter les Data Lakes On Premise avec des grosses performances et avec des coûts très compétitifs. Leur solution vise les grosses entreprises type CAC40 qui utilisent des clouds on premise type Hadoop et qui ont des problèmes de performance pour requêter et donc exploiter leurs données. Leur solution permet également de fédérer plusieurs sources dans une même requête SQL.
👀 Pourquoi le suivre en 2025
De nombreuses entreprises utilisent des clouds on premise pour des raisons diverses et ont des données qui sont difficiles d’accès. Starburst permet à ces entreprises d’accéder à des performances comparables à celles des clouds modernes (GCP, Snowflake…) mais sur leurs clouds on premise. Starburst n’est pas connu du grand public, pourtant, la solution est utilisée par la moitié du CAC 40. C’est une licorne américaine valorisée plus de 3 milliards de $.
🎙 Episode #123 avec Jérôme Campo
Popsink
🔎 Où il se positionne dans la stack data
Popsink est un outil d’ingestion moderne (cf. Fivetran) mais spécialisé pour les cas d’usage de temps réel. La solution permet de mettre en place des cas d’usage temps réel et à faible latence (ex : personnalisation en temps réel du site internet, détection de fraude…). La solution vient se positionner en amont du Data Lake en complément d’autres outils d’ingestion plus classiques (Fivetran, Stitch, Talend…).
👀 Pourquoi le suivre en 2025
La tendance du temps réel s’est accélérée sur 2024 et 2025. Il y a une explosion des besoins pour ces cas d’usage. Les standards en termes d’expérience utilisateur et de performance opérationnelle ne cessent d’augmenter pour s’aligner sur ceux des GAFA américains qui utilisent beaucoup le temps réel. Par ailleurs, s’il y avait historiquement une barrière à l’entrée technique, elle est en train de s'effondrer : les technologies sont plus matures et plus faciles à implémenter.
🎙 Episode #128 avec Benjamin Djidi
Qlik
🔎 Où il se positionne dans la stack data
En 2024, Qlik a racheté la solution d’intégration Talend. Avec sa solution d’analytics historique, le groupe couvre désormais toute la chaîne de l’intégration jusqu’à la visualisation.
👀 Pourquoi le suivre en 2025
Avec ce rachat, Qlik est devenu un géant de la data. Pour vous donner un ordre d’idée, l’entreprise était déjà valorisée +3 Milliards en 2016 et Talend était valorisé +2.4 Milliards en 2021. Par ailleurs, la mise à disposition d’une plateforme unifiée qui couvre toute la chaîne présente plusieurs avantages : les leaders data ont un seul interlocuteur et l’équipe data bénéficie d’un écosystème unifié ce qui réduit la complexité.
🎙 Episode #135 avec Charles Clément
ClickHouse
🔎 Où il se positionne dans la stack data
ClickHouse est un Data Warehouse en temps réel. Les premiers Data Warehouses sont apparus il y a 30 ans avec des solutions “Self-Managed” comme Oracle, IBM ou Teradata. Il y 10-15 ans, les Data Warehouses BigQuery, Redshift ou Snowflake ont émergé et ont permis aux entreprises de migrer vers le cloud. Mais ces solutions n’ont pas répondu aux attentes en terme de temps réel. C’est comme ça que ClickHouse est né : la solution propose de stocker des gros volumes de données, de répondre aux requêtes en moins d’une seconde et le tout avec un pricing compétitif.
👀 Pourquoi le suivre en 2025
ClickHouse concurrence déjà les grands Data Warehouses tels que BigQuery, Snowflake ou Redshift et ont déjà convaincu beaucoup de belles boîtes comme Netflix, Disney, Uber…
🎙 Episode #153 avec Melvyn Peignon
CastorDoc
🔎 Où il se positionne dans la stack data
CastorDoc est une solution de Data Catalog utilisée aussi bien par des scaleups (IbanFirst, Vestiaire Collective) que par des grandes entreprises (Veolia, Deliveroo). Leur spécificité : ils se sont concentrés sur la découverte et la compréhension des données, lorsque les Data Catalogs existants répondaient surtout aux enjeux de conformité. Par exemple, leur fonctionnalité majeure, c’est une brique de search qui permet aux utilisateurs data de trouver et comprendre les données de leur Data Warehouse.
👀 Pourquoi le suivre en 2025
Récemment, avec l’arrivée des IA Génératives, ils ont ajouté une brique de Self-Service Analytics à leur solution. L’objectif est de permettre aux équipes de récupérer des données et des insights via du langage naturel et un chat type ChatGPT. Leur vision est la suivante : avec un Data Catalog bien documenté, les LLMs sont capables de comprendre les données et de proposer des insights pertinents. Leur solution est dotée d’un chat mais il est aussi possible de récupérer l’intelligence du Data Catalog via API.
🎙 Episode #158 avec Tristan Mayer
Snowflake
🔎 Où il se positionne dans la stack data
Snowflake propose une plateforme unique pour tous ses projets Data et IA. Leur philosophie est simple : proposer le chemin le plus court pour activer sa donnée. Ça se traduit de 2 manières : ils simplifient toutes les étapes du cycle de vie de la donnée (ingestion, transformation, Data Science/GenAI…) avec des packages qui extraient au maximum la complexité. Ils accélèrent la mise à disposition des données via des outils directement dans Snowflake (ex : notebooks, applications Streamlit…).
👀 Pourquoi le suivre en 2025
Je ne compte plus le nombre de boîtes en France qui m'ont parlé de Snowflake sur le podcast (Qonto, Spendesk, Ledger…). C’est la Plateforme Data qui a été la plus citée depuis le début. Historiquement, je pensais que le positionnement “simplicité” de Snowflake pourrait être un frein sur les use cases IA souvent très complexes. Finalement, je me rends compte que c’est un avantage énorme et que justement, le marché a besoin que l’IA soit simplifiée pour l’adopter.
🎙 Episode #171 avec Jade Le Van
🤝 DataGen, c’est aussi un collectif de freelances data issus des plus belles boîtes
Grâce à DataGen, on a réuni une team de 50 freelances data, que des top profils expérimentés et issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...) pour délivrer des projets data ! 🤩
Le collectif travaille avec plusieurs 10aines de clients (Decathlon, Ecole 42, Doctolib, OCDE…).
Travailler avec nous : ici