• La Média'Tech
  • Posts
  • La data et l'IA au service de la compréhension des médias

La data et l'IA au service de la compréhension des médias

Mais aussi : ces présentatrices stars qui deviennent "créatrices de contenu", comment l'Humanité fait sa mue internet sur Twitch, l'IA de Contexte pour suivre les débats parlementaires et le lancement de l'Observatoire des Médias sur l'Ecologie.

Rubrique : L'édito

YouTube est-il le nouvel El Dorado des journalistes en quête de jeunes audiences ? C’est ce que laissent penser les lancements successifs, depuis la rentrée, des chaînes YouTube d’Élise Lucet et de Claire Chazal. Figures bien connues des téléspectateurs de Cash Investigation et du 20h de TF1, elles endossent désormais la casquette de créatrices de contenus. Interview canapé, cadre intimiste, “react” et collabs avec des célébrités : les deux journalistes adoptent les codes d’Internet. Au point d’effacer leur posture journalistique pour l’incarnation ? Pas totalement : d’abord, parce que leur statut reste gage de sérieux et leur permet de se démarquer dans “l’interview game”, pour les invités comme pour le public. Ensuite parce qu’elles capitalisent sur un réseau cultivé depuis des années, ce qui leur permet d’attirer des personnalités qui n’auraient pas forcément débarqué dans un format pareil. D’autant que parier sur l’expérience et le réseau des médias “traditionnels” pour percer sur YouTube, ça a déjà fait ses preuves. Aux États-Unis, Cleo Abram, ex-journaliste pour Vox, a lancé en 2022 son émission Huge if true, consacrée à la tech, sur YouTube. Elle y totalise aujourd’hui une quarantaine de vidéos… et plus de 4 millions d’abonnés.

Section :L'interview. Avec une photo de Camillle Pettineo avec un effet papier journal

En tant qu’organisme public, on se doit de proposer d'accompagner la révolution de l'IA en vulgarisant [et] en acculturant le grand public

Camille Pettineo, rédactrice en chef adjointe chargée de la data à l’INA

Lancé il y a un mois, data.ina.fr, le site de l’Institut National de l’Audiovisuel (INA), permet à tous de comprendre et d’explorer les médias français à travers la datavisualisation, c’est-à-dire représenter des données de manière visuelle. Ainsi, près de 700 000 heures de données ont été analysées par des intelligences artificielles. Camille Pettineo, rédactrice en chef adjointe chargée de la data à l’INA depuis mai 2023, nous raconte les coulisses de ce projet. 

data.ina a été lancé début octobre, de quoi s’agit-il, et quelle a été la genèse de ce projet ?

Le but de data.ina est de donner un supplément de contexte. Informer, l’INA le fait déjà sur les réseaux sociaux en décryptant l’actualité à partir d’images d’archives. Nous, on va utiliser les données de ces archives. Ce qui va nous intéresser, c’est de connaître les pays, les expressions, les personnalités qui y sont mentionnés. Pour cela, il a fallu créer un outil d’objectivation de l’information. On va utiliser la puissance de la datavisualisation pour rendre visible l’information sur le temps long, et sur ce point, nous nous sommes fait accompagner par les équipes de WeDoData (une agence de datavisualisation, NDLR). Sur le site, on a, pour le moment, 28 graphiques interactifs qui couvrent trois périmètres : les JT du soir, les chaînes infos et les radios ; soit au total une vingtaine de médias.

Quels moyens ont été mis en place pour ce projet ?

C’est un projet qui a mobilisé en tout une centaine de personnes car pour produire les données sur le site, plusieurs corps de métiers ont été sollicités : le service de captation, le lac de données (un espace de stockage où sont gardées les données non traitées NDLR), les data scientists, le contrôle des données, les services éditoriaux. Pour ce qui est de l’analyse, elle est confiée à des intelligences artificielles. Il nous a fallu 1 an et demi pour créer des méthodologies, mettre en place la chaîne de production et de contrôle des données produites par IA ou encore créer le site. Autant de défis relevés qui nous permettent de proposer sur data.ina.fr 5 ans et demi de données à explorer.

Justement, quelle est cette intelligence artificielle, et comment fonctionne-t-elle ?

Le site utilise trois outils d'intelligence artificielle. Un pour transcrire l’audio en texte, un autre pour détecter les personnes ou les lieux, et le dernier, c’est un outil qui nous sert à mesurer la parité d’antenne, développé au sein de l’INA. Concrètement, sur le site, on va proposer une navigation à travers quatre thématiques qui correspondent à ce que sont capables de faire ces trois IA différentes : personnalités, lieux, mots et la parité femme-homme.

Pour établir notre taux de confiance dans l’IA […] on a comparé ce que fait l’IA et un humain sur la même tâche.

On a choisi un biais de départ : ce qu’a fait l’humain est la qualité optimale. 

Camille Pettineo, rédactrice en chef adjointe chargée de la data à l’INA

Qui dit intelligence artificielle dit aussi marge d’erreur, quelles vérifications avez-vous mises en place ?

Nous avons une chaîne de contrôle humain, qui vérifie par exemple que l’outil a bien pris en compte chaque heure de chaque journée des archives analysées. S’il manque une heure, on ne peut plus comparer un média par rapport à un autre. Pour établir notre taux de confiance dans l’IA, qui est à 83 % sur la thématique personnalité, on a comparé ce que fait l’IA et un humain sur la même tâche. On a choisi un biais de départ : ce qu’a fait l’humain est la qualité optimale. Le choix a été fait de ne pas corriger les biais et les hallucinations des IA, (c’est-à-dire des erreurs ou des hypothèses erronées, NDLR) car cela n'avait pas de sens à cause de notre volume de données. Mais ce que l’on voulait, c'est pouvoir les détecter et en faire part aux internautes. En tant qu’organisme public, on se doit de proposer d'accompagner la révolution de l'IA en vulgarisant, en étant pédagogique, en acculturant aussi le grand public à l'IA. C’est pour cela que nous avons fait le choix d’indiquer avec un petit pictogramme à côté du nom de la personnalité concernée afin de signaler qu’il faut considérer avec prudence les résultats qui la mentionnent.

Un exemple de signalement de possible hallucination de l’IA dans les données relatives à la personnalité de Donald Trump.

La première enquête avec les données du site est une étude sur le traitement médiatique de 5 années de violences sexistes et sexuelles (VSS). Vous en tirez des enseignements, quels sont-ils ?

Oui, c'était la première fois que le traitement des VSS en télé et en radio était analysé en France sur un tel volume de données. Parmi les enseignements les plus forts, on a remarqué que l’on n’a jamais autant parlé de #MeeToo qu’en 2024, et l’année n’est pas finie. La médiatisation des VSS a augmenté de 17 % entre 2019 et 2024 sur les chaînes d’info en continu. Et chez BFMTV, ce chiffre monte à 62 % quand on compare la période de mon étude (douze derniers mois, NDLR) à 2019. On s’est aussi rendu compte qu’elle n’était pas centrée autour des faits-divers et des affaires mais également autour des actions et des marches. Enfin, le dernier point de l’étude émanait d’une curiosité personnelle : je voulais étudier l’évolution de l’utilisation du terme « féminicide » par rapport à celle du terme « crime passionnel ». Le terme « féminicide » s'est imposé, même si « crime passionnel » reste utilisé dans une moindre mesure. Après avoir analysé ces chiffres, j’ai confronté mes résultats au réel, en interviewant des chercheurs et des directeurs de rédaction où les chiffres se démarquaient. 

Et quelle est la suite pour data.ina ?

Tous les 6 mois, nous allons procéder à une mise à jour des données. On pourra naviguer dans 10 ans de données. C’est colossal. Mais surtout, ce que j’apprécie, c’est de voir qu'au-delà du grand public, certains confrères l’utilisent pour nourrir leurs articles !

Rubrique : L'infographie
lHumanitefr, la chaîne Twitch de l’Humanité Twitch c’est quoi ? C’est une plateforme de streaming vidéo en direct essentiellement pour les jeux vidéos et les événements. Depuis quelques années, les médias s’en empare comme France Culture, et maintenant l’Humanité. La chaîne twitch de l’humanité : Lancement lors de la fête de l’Huma le week-end du 15 septembre avec des invités comme Guillaume Meurice et Jean Massiet ; 6 200 abonnés 1 000 spectateurs en moyenne. Le 20 novembre : Lancement d’une émission bi-hebdomadaire. Émission politique. Emission politique. Trois heures de direct. Youtubeurs et humoristes. Photo de Théo Bourrieau, l’un des présentateur. 50 000 euros d’investissement pour la création d’un studio. Une équipe vidéo dédiée Citation de la rédaction de l’humanité le 16 septembre 2024 : L’objectif est de continuer à développer notre présence dans l’univers numérique et de toucher un nouveau public afin de lui proposer de découvrir notre journalisme. Une stratégie numérique plus large. En septembre 2023, L’Humanité a refait son site internet, et sorti une nouvelle application mobile. Une stratégie payante : fréquentation du site multiplié par deux, + 46% d’abonnements numériques. Le journal parvient à augmenter son nombre d’abonnés, passant de 31 459 abonnés en 2019 à 40 000 abonnés en 2023.

La chaîne twitch ici

Rubrique : Med.IA
 Conversation entre La MediaTech et MedIA, le chatbot qui explique les actualités technologiques des médias. - Salut MedIA, j’ai vu qu’il y avait des nouveautés IA chez Contexte, le site d’info politique et publique, tu pourrais m’en dire plus ? - Bien sûr ! Depuis octobre, Contexte a lancé de nouveaux outils IA pour faciliter la veille parlementaire, sans passer par les retranscriptions manuelles. Désormais, tu peux accéder à des comptes-rendus automatiques des débats de l’Assemblée nationale et du Sénat, disponibles en seulement une heure ! Tu peux également configurer tes propres alertes personnalisées sur un sujet en particulier à l’aide de mots-clés spécifiques. - C’est super pratique ! Comment l’intelligence artificielle rend-elle cela possible ? - C’est très simple ! Lorsqu’un débat se termine, l’intelligence artificielle génère un compte-rendu à partir des vidéos officielles de l’Assemblée nationale ou du Sénat. Le plus intéressant, c’est que si tu souhaites retrouver un passage particulier des débats, il te suffit d’entrer le nom de l’intervenant, la date ou les mots-clés du sujet abordé pour accéder directement au passage qui t’intéresse. - Trop bien ! Mais ça va me coûter quelque chose ? - Ça dépend ! Pour le moment, la version bêta est gratuite, mais exclusivement réservée aux abonnés payants ou en période d’essai. Afin d’améliorer et d’adapter ses fonctionnalités aux besoins réels, Contexte invite même ses utilisateurs à donner leur avis via un panel de lecteurs auquel tu peux participer directement sur leur site officiel !

👉 L’info ici

Le premier observatoire de la couverture des enjeux écologiques se dévoile 

L’Observatoire des Médias sur l’Écologie (OMÉ) est un consortium d'acteurs associatifs, institutionnels et d’entreprises qui a été créé en 2023 pour mesurer le traitement médiatique de l’écologie dans vingt médias audiovisuels français. Il a mis au point un tableau de bord accessible en ligne dont l'existence a été officiellement révélée ce jeudi 7 novembre, et qui permet de suivre l'évolution en live de la couverture depuis 2023. 
Outre le temps d'antenne dédié à l'écologie ou le traitement de différents sujets à travers ce prisme, on y découvre par exemple que les sujets liés à la biodiversité et aux ressources naturelles sont deux à quatre fois moins traités que le climat. Par ailleurs, les solutions au changement climatique sont nettement moins mises en valeur que les différentes catastrophes que nous traversons.
Pensé comme un outil transparent et accessible, il devrait s'enrichir des retours de ses utilisateurs et utilisatrices au fil du temps. À noter que l’observatoire prévoit également d'élargir son périmètre à la presse écrite en 2025.

L'utilisation de mécaniques de jeu pour renforcer l'expérience utilisateur du site suisse PilatusToday

Le portail d’information PilatusToday, couvrant l’actualité de Suisse centrale, a mis en place en janvier 2023 un système de points pour ses utilisateurs et utilisatrices. Un dispositif bien connu du marketing digital, mais peu exploité par le monde médiatique : +50 points à l’inscription sur le site ou l’application, +35 points par article lu, +30 points lors de l’écoute de la radio… L’objectif est de fidéliser son audience, en leur permettant d'utiliser leurs points pour participer à des jeux concours et gagner des lots.

Times & Galaxy, le jeu dans lequel vous incarnez un robot-journaliste

Le jeu vidéo d’aventure et de science-fiction Times & Galaxy, sorti en juin 2024, est l’un des rares à avoir pour thème principal le journalisme.
Conçu par le Canadien Ben Gelinas auparavant journaliste du Edmonton Journal, ce jeu original et didactique célèbre le journalisme de terrain. En votre qualité de robot apprenti journaliste, vous devez explorer l'univers pour en couvrir l'actualité, en prenant notamment soin de l’angle et des questions à poser. Un jeu au ton léger et aux couleurs vibrantes, qui devrait plaire aux amateurs et amatrices d’esthétique rétrofuturiste.
Disponible sur PC (Itch.io;steam;gog), Nintendo Switch, PS5, Xbox One et Xbox Series. (jeu en anglais, uniquement dématérialisé)

Retrouvez La Mediatech sur Instagram et Twitter/X
Merci pour votre fidélité, à bientôt ! Cette newsletter a été réalisée par Charlotte Delfosse, Edwige Denis Ward Doncoeur , Axel Favrot, Ellyn Mainguy, Quentin-Mathéo Pihour, Alexandre Thibout. Etudiants à l'ESJ Lille. Encadrement : Auriane Guérithault.