- La Média'Tech
- Posts
- La data et l'IA au service de la compréhension des médias
La data et l'IA au service de la compréhension des médias
Mais aussi : ces présentatrices stars qui deviennent "créatrices de contenu", comment l'Humanité fait sa mue internet sur Twitch, l'IA de Contexte pour suivre les débats parlementaires et le lancement de l'Observatoire des Médias sur l'Ecologie.
YouTube est-il le nouvel El Dorado des journalistes en quête de jeunes audiences ? C’est ce que laissent penser les lancements successifs, depuis la rentrée, des chaînes YouTube d’Élise Lucet et de Claire Chazal. Figures bien connues des téléspectateurs de Cash Investigation et du 20h de TF1, elles endossent désormais la casquette de créatrices de contenus. Interview canapé, cadre intimiste, “react” et collabs avec des célébrités : les deux journalistes adoptent les codes d’Internet. Au point d’effacer leur posture journalistique pour l’incarnation ? Pas totalement : d’abord, parce que leur statut reste gage de sérieux et leur permet de se démarquer dans “l’interview game”, pour les invités comme pour le public. Ensuite parce qu’elles capitalisent sur un réseau cultivé depuis des années, ce qui leur permet d’attirer des personnalités qui n’auraient pas forcément débarqué dans un format pareil. D’autant que parier sur l’expérience et le réseau des médias “traditionnels” pour percer sur YouTube, ça a déjà fait ses preuves. Aux États-Unis, Cleo Abram, ex-journaliste pour Vox, a lancé en 2022 son émission Huge if true, consacrée à la tech, sur YouTube. Elle y totalise aujourd’hui une quarantaine de vidéos… et plus de 4 millions d’abonnés.
En tant qu’organisme public, on se doit de proposer d'accompagner la révolution de l'IA en vulgarisant [et] en acculturant le grand public
Lancé il y a un mois, data.ina.fr, le site de l’Institut National de l’Audiovisuel (INA), permet à tous de comprendre et d’explorer les médias français à travers la datavisualisation, c’est-à-dire représenter des données de manière visuelle. Ainsi, près de 700 000 heures de données ont été analysées par des intelligences artificielles. Camille Pettineo, rédactrice en chef adjointe chargée de la data à l’INA depuis mai 2023, nous raconte les coulisses de ce projet.
data.ina a été lancé début octobre, de quoi s’agit-il, et quelle a été la genèse de ce projet ?
Le but de data.ina est de donner un supplément de contexte. Informer, l’INA le fait déjà sur les réseaux sociaux en décryptant l’actualité à partir d’images d’archives. Nous, on va utiliser les données de ces archives. Ce qui va nous intéresser, c’est de connaître les pays, les expressions, les personnalités qui y sont mentionnés. Pour cela, il a fallu créer un outil d’objectivation de l’information. On va utiliser la puissance de la datavisualisation pour rendre visible l’information sur le temps long, et sur ce point, nous nous sommes fait accompagner par les équipes de WeDoData (une agence de datavisualisation, NDLR). Sur le site, on a, pour le moment, 28 graphiques interactifs qui couvrent trois périmètres : les JT du soir, les chaînes infos et les radios ; soit au total une vingtaine de médias.
Quels moyens ont été mis en place pour ce projet ?
C’est un projet qui a mobilisé en tout une centaine de personnes car pour produire les données sur le site, plusieurs corps de métiers ont été sollicités : le service de captation, le lac de données (un espace de stockage où sont gardées les données non traitées NDLR), les data scientists, le contrôle des données, les services éditoriaux. Pour ce qui est de l’analyse, elle est confiée à des intelligences artificielles. Il nous a fallu 1 an et demi pour créer des méthodologies, mettre en place la chaîne de production et de contrôle des données produites par IA ou encore créer le site. Autant de défis relevés qui nous permettent de proposer sur data.ina.fr 5 ans et demi de données à explorer.
Justement, quelle est cette intelligence artificielle, et comment fonctionne-t-elle ?
Le site utilise trois outils d'intelligence artificielle. Un pour transcrire l’audio en texte, un autre pour détecter les personnes ou les lieux, et le dernier, c’est un outil qui nous sert à mesurer la parité d’antenne, développé au sein de l’INA. Concrètement, sur le site, on va proposer une navigation à travers quatre thématiques qui correspondent à ce que sont capables de faire ces trois IA différentes : personnalités, lieux, mots et la parité femme-homme.
Pour établir notre taux de confiance dans l’IA […] on a comparé ce que fait l’IA et un humain sur la même tâche.
On a choisi un biais de départ : ce qu’a fait l’humain est la qualité optimale.
Qui dit intelligence artificielle dit aussi marge d’erreur, quelles vérifications avez-vous mises en place ?
Nous avons une chaîne de contrôle humain, qui vérifie par exemple que l’outil a bien pris en compte chaque heure de chaque journée des archives analysées. S’il manque une heure, on ne peut plus comparer un média par rapport à un autre. Pour établir notre taux de confiance dans l’IA, qui est à 83 % sur la thématique personnalité, on a comparé ce que fait l’IA et un humain sur la même tâche. On a choisi un biais de départ : ce qu’a fait l’humain est la qualité optimale. Le choix a été fait de ne pas corriger les biais et les hallucinations des IA, (c’est-à-dire des erreurs ou des hypothèses erronées, NDLR) car cela n'avait pas de sens à cause de notre volume de données. Mais ce que l’on voulait, c'est pouvoir les détecter et en faire part aux internautes. En tant qu’organisme public, on se doit de proposer d'accompagner la révolution de l'IA en vulgarisant, en étant pédagogique, en acculturant aussi le grand public à l'IA. C’est pour cela que nous avons fait le choix d’indiquer avec un petit pictogramme à côté du nom de la personnalité concernée afin de signaler qu’il faut considérer avec prudence les résultats qui la mentionnent.
Un exemple de signalement de possible hallucination de l’IA dans les données relatives à la personnalité de Donald Trump.
La première enquête avec les données du site est une étude sur le traitement médiatique de 5 années de violences sexistes et sexuelles (VSS). Vous en tirez des enseignements, quels sont-ils ?
Oui, c'était la première fois que le traitement des VSS en télé et en radio était analysé en France sur un tel volume de données. Parmi les enseignements les plus forts, on a remarqué que l’on n’a jamais autant parlé de #MeeToo qu’en 2024, et l’année n’est pas finie. La médiatisation des VSS a augmenté de 17 % entre 2019 et 2024 sur les chaînes d’info en continu. Et chez BFMTV, ce chiffre monte à 62 % quand on compare la période de mon étude (douze derniers mois, NDLR) à 2019. On s’est aussi rendu compte qu’elle n’était pas centrée autour des faits-divers et des affaires mais également autour des actions et des marches. Enfin, le dernier point de l’étude émanait d’une curiosité personnelle : je voulais étudier l’évolution de l’utilisation du terme « féminicide » par rapport à celle du terme « crime passionnel ». Le terme « féminicide » s'est imposé, même si « crime passionnel » reste utilisé dans une moindre mesure. Après avoir analysé ces chiffres, j’ai confronté mes résultats au réel, en interviewant des chercheurs et des directeurs de rédaction où les chiffres se démarquaient.
Et quelle est la suite pour data.ina ?
Tous les 6 mois, nous allons procéder à une mise à jour des données. On pourra naviguer dans 10 ans de données. C’est colossal. Mais surtout, ce que j’apprécie, c’est de voir qu'au-delà du grand public, certains confrères l’utilisent pour nourrir leurs articles !
Le premier observatoire de la couverture des enjeux écologiques se dévoile
L’Observatoire des Médias sur l’Écologie (OMÉ) est un consortium d'acteurs associatifs, institutionnels et d’entreprises qui a été créé en 2023 pour mesurer le traitement médiatique de l’écologie dans vingt médias audiovisuels français. Il a mis au point un tableau de bord accessible en ligne dont l'existence a été officiellement révélée ce jeudi 7 novembre, et qui permet de suivre l'évolution en live de la couverture depuis 2023.
Outre le temps d'antenne dédié à l'écologie ou le traitement de différents sujets à travers ce prisme, on y découvre par exemple que les sujets liés à la biodiversité et aux ressources naturelles sont deux à quatre fois moins traités que le climat. Par ailleurs, les solutions au changement climatique sont nettement moins mises en valeur que les différentes catastrophes que nous traversons.
Pensé comme un outil transparent et accessible, il devrait s'enrichir des retours de ses utilisateurs et utilisatrices au fil du temps. À noter que l’observatoire prévoit également d'élargir son périmètre à la presse écrite en 2025.
L'utilisation de mécaniques de jeu pour renforcer l'expérience utilisateur du site suisse PilatusToday
Le portail d’information PilatusToday, couvrant l’actualité de Suisse centrale, a mis en place en janvier 2023 un système de points pour ses utilisateurs et utilisatrices. Un dispositif bien connu du marketing digital, mais peu exploité par le monde médiatique : +50 points à l’inscription sur le site ou l’application, +35 points par article lu, +30 points lors de l’écoute de la radio… L’objectif est de fidéliser son audience, en leur permettant d'utiliser leurs points pour participer à des jeux concours et gagner des lots.
Times & Galaxy, le jeu dans lequel vous incarnez un robot-journaliste
Le jeu vidéo d’aventure et de science-fiction Times & Galaxy, sorti en juin 2024, est l’un des rares à avoir pour thème principal le journalisme.
Conçu par le Canadien Ben Gelinas auparavant journaliste du Edmonton Journal, ce jeu original et didactique célèbre le journalisme de terrain. En votre qualité de robot apprenti journaliste, vous devez explorer l'univers pour en couvrir l'actualité, en prenant notamment soin de l’angle et des questions à poser. Un jeu au ton léger et aux couleurs vibrantes, qui devrait plaire aux amateurs et amatrices d’esthétique rétrofuturiste.
Disponible sur PC (Itch.io;steam;gog), Nintendo Switch, PS5, Xbox One et Xbox Series. (jeu en anglais, uniquement dématérialisé)