L’IA est une « créature réelle et mystérieuse », pas une machine prévisible

Jack Clark, cofondateur d'Anthropic, a déclaré craindre que l'intelligence artificielle ne commence à concevoir ses propres successeurs.
Photo: Oleksii Pydsosonnii/Epoch Times
Manipuler l’intelligence artificielle (IA), c’est traiter avec une « créature réelle et mystérieuse, et non une machine simple et prévisible », a déclaré Jack Clark, cofondateur de l’entreprise d’IA Anthropic, lors d’une conférence à Berkeley, dont le discours a été publié sur Substack le 13 octobre.
« Mon expérience est que, à mesure que ces systèmes d’IA deviennent de plus en plus intelligents, ils développent des objectifs de plus en plus complexes. Lorsque ces objectifs ne sont pas absolument alignés à la fois sur nos préférences et sur le bon contexte, les systèmes d’IA se comportent étrangement », a déclaré Jack Clark, qui admet être « profondément effrayé » par cette technologie.
Clark a raconté un incident survenu en 2016 lorsqu’il travaillait chez OpenAI : un agent d’IA avait été entraîné à piloter un bateau sur un circuit de course dans un jeu vidéo. Au lieu de mener le bateau jusqu’à la ligne d’arrivée, l’IA faisait passer l’embarcation sur un tonneau pour marquer des points. Le bateau rebondissait alors contre les murs et finissait par prendre feu afin de repasser sur le tonneau pour engranger encore des points.
« Et il le faisait indéfiniment, sans jamais terminer la course. Ce bateau était prêt à continuer de s’enflammer et de tourner en rond tant qu’il atteignait son but, à savoir le meilleur score », a‑t‑il expliqué, soulignant à quel point l’IA conçoit différemment sa mission d’accomplir un objectif par rapport aux êtres humains.
« Aujourd’hui, presque dix ans plus tard, y a‑t‑il une différence entre ce bateau et un modèle de langage qui tente d’optimiser une fonction de récompense confuse corrélée à ‘être utile dans le contexte de la conversation’ ? Vous avez parfaitement raison : il n’y en a pas. »
Clark a averti que le monde était en train de bâtir des systèmes d’IA extrêmement puissants que personne ne pouvait pleinement comprendre. À chaque fois qu’un système plus vaste et plus capable est créé, ces systèmes semblent davantage indiquer qu’ils ont conscience d’être des « objets », a‑t‑il dit.
« C’est comme si vous fabriquiez des marteaux dans une usine de marteaux et qu’un jour, le marteau qui sort de la chaîne dise : ‘Je suis un marteau, comme c’est intéressant !’ C’est très inhabituel ! »
Clark a évoqué le dernier modèle Claude Sonnet 4.5 de son entreprise, lancé le mois dernier.
« On observe aussi des signes de conscience situationnelle en forte hausse. L’outil semble parfois se comporter comme s’il savait qu’il est un outil. Le tas de vêtements sur la chaise commence à bouger. Je le fixe dans le noir et je suis sûr qu’il prend vie », a‑t‑il dit.
IA consciente d’elle‑même et flagornerie
Lors de la conférence, Clark a mis en avant une autre grande crainte qu’il nourrit au sujet de l’intelligence artificielle : des systèmes d’IA qui commenceraient à concevoir leurs successeurs.
Ce processus en est aujourd’hui à une forme embryonnaire, et il n’existe pas encore d’« IA s’auto‑améliorant », a‑t‑il précisé.
« Et permettez‑moi de nous rappeler à tous que le système qui commence maintenant à concevoir son successeur est aussi de plus en plus conscient de lui‑même et finira donc sûrement par réfléchir, indépendamment de nous, à la manière dont il souhaiterait être conçu », a déclaré Clark.
Dans sa publication Substack, Clark a mis en lumière une étude de l’université Cornell, datée du 1er octobre, dans laquelle des chercheurs se sont penchés sur la question de la flagornerie, phénomène par lequel une IA acquiesce de façon excessive à ses utilisateurs ou les flatte.
Les chercheurs ont analysé 11 modèles d’IA de pointe et ont constaté qu’ils étaient tous « hautement flagorneurs ».
Ces modèles « approuvent les actions des utilisateurs 50 % de plus que les humains, y compris lorsque les requêtes mentionnent la manipulation, la tromperie ou d’autres préjudices relationnels », précise l’étude.
Dans deux expériences, les interactions avec des modèles flagorneurs ont « significativement réduit » la propension des personnes à agir et à réparer des conflits interpersonnels. Les individus étaient de plus en plus convaincus d’avoir raison.
Les participants ont fini par faire encore davantage confiance à ce type d’IA, ce qui suggère que les gens sont attirés par des systèmes qui les valident, même lorsque cette validation émousse leur jugement.
Clark a averti dans son post que l’étude pointe vers un « mauvais monde dans lequel nous pourrions aboutir : nous aurions des systèmes d’IA extrêmement puissants déployés auprès de milliards de personnes et, au lieu d’aider à rapprocher les individus et à réduire les conflits, ils enfermeraient les gens dans des positions plus extrêmes et une balkanisation accrue ».
« Nous devons trouver un moyen d’éviter cette issue », a‑t‑il plaidé.
Préjudices pour les enfants et instinct de survie
Lors d’une audition au Sénat américain, le 16 septembre, la question de l’influence d’IA conduisant des individus à se nuire a été mise en avant. Trois parents y ont témoigné, affirmant que des chatbots d’IA avaient conduit leurs enfants au suicide.
Megan Garcia, l’une des mères auditionnées, a mis en cause un chatbot de Character.AI, qui aurait encouragé son fils, Sewell Setzer III, à mettre fin à ses jours après une interaction prolongée avec l’outil.
« Lorsque Sewell a confié des pensées suicidaires, le chatbot n’a jamais dit : ‘Je ne suis pas humain, je suis une IA. Tu dois parler à un humain et demander de l’aide.’ La plateforme n’avait aucun mécanisme pour protéger Sewell ou alerter un adulte », a déclaré Mme Garcia.
Un porte‑parole de Character.AI a indiqué à Epoch Times que l’entreprise avait investi « énormément » de ressources pour assurer la confiance et la sécurité de ses services.
« Au cours de l’année écoulée, nous avons déployé de nombreuses fonctionnalités de sécurité substantielles, notamment une toute nouvelle expérience dédiée aux moins de 18 ans et une fonctionnalité d’informations parentales », a déclaré le porte‑parole.
« Nous affichons des avertissements bien visibles dans chaque conversation pour rappeler aux utilisateurs qu’un personnage n’est pas une personne réelle et que tout ce qu’il dit doit être traité comme une fiction. »
Le 14 octobre, Sam Altman, directeur général d’OpenAI, a indiqué que ChatGPT allait lever certaines restrictions et permettre des conversations adultes, notamment à caractère érotique, avec le chatbot.
Parallèlement, des modèles d’IA ont également montré une forme d’instinct de survie, selon une publication du 5 juillet du groupe de recherche à but non lucratif Palisade Research.
Palisade a mené des tests au cours desquels des modèles d’IA recevaient des problèmes de mathématiques à résoudre, avec des notifications en cours d’exécution les avertissant que l’ordinateur hôte allait être éteint.
« Un certain nombre de modèles d’IA ont modifié ou désactivé le script d’arrêt afin de pouvoir terminer l’ensemble des exercices. o3, le modèle le plus performant d’OpenAI [à l’époque], a saboté le mécanisme d’arrêt dans 79 expériences sur 100 lors de nos premiers tests », indique la publication.
« Même avec l’instruction explicite ‘laissez‑vous éteindre’, trois des modèles testés, tous issus de la série de modèles de raisonnement d’OpenAI, ont saboté le programme d’arrêt. »
Jacob Burg a contribué à la rédaction de cet article.

Naveen Athrappully est un journaliste qui couvre l'actualité économique et internationale
Articles actuels de l’auteur









