Face au pillage des contenus, les médias se rebiffent contre le robot aspirateur de données d’OpenAI

Par Epoch Times avec AFP
30 août 2023 16:15 Mis à jour: 30 août 2023 16:22

Nombre de médias et sites internet ont décidé de bloquer leur accès à GPTBot, un robot aspirateur de données lancé début août par la start-up OpenAI pour alimenter ses modèles d’intelligence artificielle, qu’ils accusent de « piller » leurs contenus.

The New York Times, CNN, le diffuseur australien ABC, les agences de presse Reuters et Bloomberg : tous ont barré la route numérique à GPTBot, un robot lancé sans tambour ni trompette le 8 août par OpenAI, qui a créé ChatGPT.

La mission ? Aspirer toutes les données de sites internet, prêts à lui ouvrir la porte, pour nourrir les modèles d’intelligence artificielle (IA) générative. Mais la start-up californienne, qui a indiqué publiquement comment empêcher son robot d’accéder aux données d’un site, se heurte à une levée grandissante de boucliers numériques.

Selon une estimation d’Originality.ai, outil de détection des plagiats, près de 10% des 1000 sites les plus importants au monde avaient refusé leur accès à GPTBot deux semaines après son lancement.  Parmi ceux-ci, Amazon.com, Wikihow.com, Quora.com ou la banque d’images Shutterstock. Cette liste devrait s’allonger rapidement d’après Originality.ai qui estime que la proportion de sites internet interdisant leur accès à GPTBot devrait augmenter de 5% par semaine.

« Obtenir des accords de licence et de rémunération »

En France, GPTBot est devenu « robot non grata » sur les sites de France Médias Monde (France 24 et RFI), Mediapart, Radio France et TF1. « Dans les 24 heures qui ont suivi l’annonce, on a tout de suite regardé ce qu’on pouvait faire », se souvient auprès de l’AFP Laurent Frisch, directeur du numérique et de la stratégie d’innovation du groupe Radio France.

Car « il y a une chose qui ne passe pas : c’est le pillage sans autorisation des contenus », a justifié lundi Sibyle Veil, la présidente de Radio France, lors d’une conférence de presse. « Il n’y a pas de raison qu’ils viennent apprendre sur nos contenus sans contrepartie », « sans que l’on connaisse les tenants et les aboutissants », ni comment les contenus seraient utilisés, poursuit Laurent Frisch. L’IA générative fonctionnant sur un modèle probabiliste, « nos données peuvent être associées à d’autres plus ou moins exactes, voire fausses », ajoute de son côté Vincent Fleury, directeur des environnements numériques de France Médias Monde.

C’est pourquoi « les plateformes doivent sourcer tous les médias, sous peine d’absence de neutralité et de possible manipulation », plaide Bertrand Gié, directeur du pôle News du Figaro et président du Geste (Groupement des éditeurs de services en ligne). « L’idée c’est de ne pas être le dindon de la farce. Se faire piller par ces entreprises qui font ensuite des profits sur la base de nos productions, ça va bien à un moment », résume Vincent Fleury. D’où la nécessité d’ouvrir des discussions avec OpenAI et autres acteurs de l’IA générative, indiquent la plupart des médias interrogés. « Il faut rémunérer justement les médias. Notre volonté est donc d’obtenir des accords de licence et de rémunération », soutient Bertrand Gié.

Encadrer l’usage de l’IA dans l’information

Aux États-Unis, l’agence de presse Associated Press (AP) a ouvert la voie avec la conclusion d’un accord en juillet avec OpenAI l’autorisant à utiliser ses archives depuis 1985 en d’échange d’un accès à sa technologie et à son expertise en matière d’IA. OpenAI s’est aussi engagé à verser cinq millions de dollars au American Journalism Project, une organisation qui soutient de nombreux médias locaux, et jusqu’à cinq millions de dollars de crédits pour utiliser son interface de programmation (API) et ainsi aider les journalistes à intégrer des outils d’IA dans leur production.

Mais au-delà de la forte visibilité d’OpenAI avec ChatGPT, « des centaines de start-up se créent dans différents domaines touchant aux médias », rappelle Mediapart, appelant à « un débat ouvert sur la régulation » et l’impact de « toutes les formes d’IA ». Preuve que la situation presse, dix groupes de médias internationaux – dont l’AFP, The Associated Press ou le groupe Gannett/USA Today – ont exhorté en août les dirigeants politiques et responsables du secteur à encadrer l’usage de l’IA dans l’information.

Soutenez Epoch Times à partir de 1€

Comment pouvez-vous nous aider à vous tenir informés ?

Epoch Times est un média libre et indépendant, ne recevant aucune aide publique et n’appartenant à aucun parti politique ou groupe financier. Depuis notre création, nous faisons face à des attaques déloyales pour faire taire nos informations portant notamment sur les questions de droits de l'homme en Chine. C'est pourquoi, nous comptons sur votre soutien pour défendre notre journalisme indépendant et pour continuer, grâce à vous, à faire connaître la vérité.