Photoroom : l'équipe Analytics a x15 sa vitesse de delivery grâce à des assistants IA sur toute la chaîne (ingestion, transfo, visualisation)
#134 - Le zoom, le podcast avec Juliette et sa ressource préférée
Hello,
Bienvenue dans l’édition #134 de la newsletter DataGen ! 👋
L’agenda de la semaine :
🔍 Zoom sur la stratégie GenAI pour l’analytics chez Photoroom
🎙 Le podcast avec Juliette, Head of Data chez Photoroom
📚 La ressource recommandée par Juliette
C’est parti !
📢 Vous connaissez Denodo ?
C’est la solution de virtualisation de données déjà utilisée par un tiers du CAC40, notamment la BNP, Total Energies ou le Crédit Agricole.
J’ai reçu Olivier, leur General Manager, qui est venu nous expliquer ce qu’était la virtualisation dans l’épisode 230.
C’est une technologie qui permet d’accélérer le time-to-market de ses projets data & IA. Elle permet de fédérer plusieurs sources de données dans une seule requête data et donc on n’a plus besoin de centraliser toutes ses données pour lancer des projets.
Je vous partage également un manifesto que l’équipe a rédigé et qui détaille comment cette technologie permet d’accélérer ses projets GenAI.
Un immense merci à Denodo de sponsoriser DataGen. ❤️
🔍 Zoom sur la stratégie GenAI pour l’analytics chez Photoroom - 4 min
Ce zoom est tiré de mon échange avec Juliette, Head of Data chez Photoroom, l’application IA de studio photo qui a été téléchargée 300 millions de fois et qui a pour ambition de devenir une creative AI agency.
La vision et les premiers résulats
Juliette et son équipe ont défini une vision claire pour l’analytics augmentée par la GenAI :
“N’importe qui peut poser une question en langage naturel et avoir une réponse fiable en moins d’une minute.”
Au-delà de la façon dont les équipes consomment la data, la GenAI a eu un impact significatif sur la productivité de l’équipe Data.
“Si on se concentre uniquement sur la partie production de l’équipe Data, on a fait x15 en terme de vitesse de delivery par rapport à il y a trois ans. .”
La GenAI sur toute la chaîne de l’ingestion à l’analyse
L’ingestion des données
Chez Photoroom, ils utilisent Airbyte pour ingérer les données. Avec la fonctionnalité GenAI qu’Airbyte a sorti récemment, l’équipe Data peut générer un connecteur en quelques minutes en collant simplement le lien de la documentation API.
“Un agent va lire la documentation et pré-remplir le connecteur. Ça prend moins de cinq minutes pour avoir les données dans son data warehouse au lieu d’une heure auparavant.”
La transformation des données
Pour ça, l’équipe utilise Nao, un éditeur de code qui a accès à la base de données et à toute la code base et qui fournit un agent IA.
Comme l’outil a accès aux règles et est connecté à la code base, il écrit le code directement avec les contraintes de Photoroom.
“Entre le moment où on déclare une source et le moment où on a le modèle dbt utilisable par le métier, on a divisé le temps par dix voire quinze.”
La mise à disposition des données en Self-Service
Pour rappel, la vision de l’équipe est que l’utilisateur puisse poser sa question en lanage naturel et obtenir une réponse fiable en moins d’une minute.
Pour réaliser cette vision, ils ont mis en place le Semantic Layer de Omni. On ne peut pas simplement poser une question et obtenir la réponse en SQL. C’est indispensable d’avoir un Semantic Layer au milieu, sinon, le LLM va halluciner les réponses.
“En gros, ça donne texte-to-Semantic Layer puis Semantic Layer-to-SQL. Le Semantic Layer permet d’expliquer au LLM les définitions métier et comment manipuler la donnée. Par exemple, c’est là qu’on explique que pour calculer un certain indicateur, il faut diviser ces 2 autres indicateurs. C’est là aussi qu’on précise quels filtres utiliser, etc.”
Omni a été choisi par l’équipe Data après un benchmark spécifiquement pour cette capacité à poser des questions en langage naturel et obtenir des réponses fiables.
Les analyses complexes à forte valeur ajoutée
L’équipe Data peut utiliser des assistants de code comme Claude Desktop, Cursor ou Nao. Elle peut pour expliquer l’objectif de l’analyse, les assistants proposent du code et l’équipe Data peut converser avec eux pour pour affiner.
“Ça change la vie. Ils ont accès à plein de fichiers de configuration qui expliquent comment on fonctionne. Ils ont accès à la code base donc ils connaissent les tables à disposition. Ça accélère énormément. En revanche, en l’absence de couche sémantique complète, il y a plus de risques d’hallucinations.”
On peut également réaliser des analyses assez poussées directement dans Omni.
“La semaine dernière, Maxime dans mon équipe a fait une analyse de cannibalisation. En cinq minutes, Omni a fait plein de comparaisons, plein de graphiques. Il avait des points de réponse. Ensuite, on a demandé si chaque indicateur était vraiment significatif. L’assistant a calculé des scores de significativité.”
🎙 Le podcast avec Juliette, Head of Data chez Photoroom
On aborde :
La vision et les premiers résultats (cf. zoom)
La GenAI sur toute la chaîne de l’ingestion à l’analyse (cf. zoom)
Le choix d’Omni et la mise en place d’un bon semantic layer
L’organisation de l’équipe pour déployer cette stratégie
Les difficultés rencontrées : le choix de l’outil et l’harmonisation des pratiques
L’impact sur les équipes Data : évolution des rôles et des compétences
L’évolution du rôle de Data Analyst
Les prochaines étapes : intégration dans Slack et Dust
“Le Data Analyst dont le rôle est uniquement de traduire du texte en SQL va disparaître.”
Liens vers l’épisode : Apple Podcasts | YouTube | Spotify
📚 La ressource recommandée par Juliette
Le livre “Living Documentation” de Cyrille Martraire
“Le principe, c’est que la documentation doit vivre dans le code et non à côté du code (i.e. fichiers de code et fichiers de documentation séparés). Le code doit respecter des conventions et porter sur lui des significations. Par exemple, si un champ finit par _count, on sait qu’il compte une quantité.”


