Détecter les films sexistes avec une IA
Hello 👋
Bienvenue dans cette 6ème édition, on est désormais 650 sur cette newsletter. Merci pour ta lecture et ton soutien ! ❤️
A ton avis, Mulan, c’est un film sexiste ?
Avant tout, voici quelques liens utiles :
Inscris-toi au prochain webinar sur la stratégie data de BlaBlaCar.
On t'a transféré ce mail ? Inscris-toi à la communauté pour recevoir les prochaines éditions.
L'agenda de la semaine :
🔎 Le zoom sur le projet d’intelligence artificielle BechdelAI.
🎙 Le podcast sur BechdelAI avec Chloé et Thomas.
📢 Lancement de la collaboration avec Data For Good.
C’est parti !
🔎 Le zoom sur le projet BechdelAI
Aujourd’hui, on va parler du projet BechdelAI lancé par Chloé et Thomas qui vise à faire prendre conscience du sexisme dans le secteur cinématographique. Une 20aine de bénévoles de l’association Data For Good ont participé au projet.
“Le meilleur moyen de se rendre compte des biais dans le cinéma, c’est d’essayer de les quantifier.”
Le test de Bechdel
Ce test vient à l'origine d'Alison Bechdel, une dessinatrice qui a illustré ce concept dans une bande dessinée dans laquelle une femme accepte d'aller au cinéma uniquement si une scène du film répond positivement à 3 questions :
1/ Est-ce qu'il y a deux femmes qui sont présentes dans une même scène ?
2/ Est-ce qu'il y a deux femmes qui discutent ensemble dans une même scène ?
3/ Est-ce qu'elles parlent d'autre chose que d'un homme ?
"Ça parait simple comme ça mais en réalité, il y a plein de films qui ne passent pas le test. Souvent, on représente encore les femmes dans des relations qui sont très stéréotypées."
Le projet BechdelAI
L'objectif du projet est d'utiliser des algorithmes et de créer un outil qui automatise cette analyse.
“Le test est souvent réalisé à la mano par des passionnés ou des doctorants qui annotent des films pendant des heures.”
Step 1 : Analyser la bande audio pour distinguer les genres
Le premier chantier était de déterminer s’il y a bien une scène où on entend deux femmes (cf. 1ère et 2ème question du test). Pour cela, Chloé et Thomas ont utilisé le modèle Ina Speech Segmenter qui permet de dissocier les deux genres communément admis afin de valider s’il y a au moins deux femmes présentes dans une scène.
"On a des bons résultats avec des statistiques proches de ce qui avait été calculé à la mano par une communauté investie. On a juste un léger biais lié aux jeunes hommes qui n'ont pas encore mué et qui peuvent être catégorisés comme des femmes par l'algorithme."
Step 2 : “Speech to text” pour identifier le sujet des discussions
Le second chantier était de valider que les personnages féminins parlaient bien entre eux et d’autre chose que d’un homme (cf. 2ème et 3ème question).
Pour analyser le contenu des discussions, l’équipe a utilisé une solution de “speech to text” qui permet de passer de l'audio au texte et s’est également appuyée sur les sous-titres.
"On ne s'en rend pas compte mais c'est très dur de lier le texte récupéré au personnage qui parle de manière automatisée. Notamment s’il y a plusieurs personnages qui parlent en même temps ou que le personnage qui parle n’est pas visible à l’écran.”
Step 3 : Analyser la vidéo pour définir la situation
Afin d’affiner les résultats de la Step 2, Chloé et Thomas ont utilisé l'algorithme CLIP (connecting text and images) en s’appuyant cette fois sur les images et non l’audio.
Il a fallu donner à l'algorithme le film découpé en petits échantillons d'images. Pour chaque image, l’algorithme définit la situation à l’écran. Par exemple, pour une image donnée, il va sortir “deux femmes parlent entre elles”.
"Encore une fois, quelques biais apparaissent lorsqu'une personne est de dos car l'algorithme la catégorise comme un homme. On essaye donc de prendre en compte plus de contexte et de voir si cette même personne était de face dans une scène précédente pour récupérer la bonne catégorisation."
🎙 Le podcast sur BechdelAI avec Chloé et Thomas
Pour en savoir plus, n’hésite pas à écouter notre échange ! Ils abordent également la genèse du projet et décrivent les challenges qu’ils rencontrent tels que l’accès aux données ou l’élargissement de l’analyse à d’autres questions que celles du test de Bechdel.
“Il y a ce gros challenge finalement de qu’est-ce que le sexisme et de comment on peut juger une oeuvre de fiction."
Liens vers l’épisode : Spotify | Apple Podcasts | Deezer | Google Podcasts
📢 Lancement de la collaboration avec Data For Good.
Data For Good est une association qui met en relation 3000 bénévoles issus du milieu de la data et de la tech avec des associations, des ONG ou des porteurs de projets à impact. Plus de 100 projets ont déjà pu bénéficier de ce programme dont notamment Open Food Facts, l'association qui développe la base de données utilisée par l'application Yuka.
“Data For Good est née d’un double constat : d’un côté, de plus en plus d’associations n’ont pas les ressources techniques et financières pour décupler leur impact et de l’autre, un énorme vivier de talents travaillent dans la tech mais souhaite donner plus de sens à ce qu’ils font.”
Avec Lou et Théo, les co-présidents de l’association, on a décidé de lancer une collaboration Data For Good x Data Gen et de produire environ un épisode par mois sur les projets accélérés par l’association. Si tu ne connais pas l'association, tu peux écouter l'épisode #17 pour la découvrir.
Tu peux me dire ce que tu penses de cette initiative en réponse à ce mail ?