ChatGPT échoue à atteindre le niveau

Un chatbot alimenté par l'intelligence artificielle peut diffuser des informations médicales erronées

Par Conna Craig
4 juillet 2023 17:21 Mis à jour: 4 juillet 2023 17:21

Le « chatbot » (surnom donné à l’IA qui produit du langage) le plus connu, ChatGPT, fait des vagues dans de nombreux secteurs, y compris celui des soins de santé. Cependant, il n’est pas encore passé maître dans l’art de passer des examens, du moins pas en ophtalmologie, en gastro-entérologie ou en urologie.

ChatGPT a réussi l’examen d’aptitude médicale
Dans une étude réalisée au début de l’année 2023, ChatGPT a réussi (de justesse) l’examen d’autorisation d’exercer la médecine aux États-Unis, une exigence obligatoire pour l’obtention de l’autorisation d’exercer la médecine. L’USMLE se compose de trois tests, le premier étant administré aux étudiants en deuxième année de médecine qui consacrent généralement 300 à 400 heures à la préparation de l’examen. Les étudiants en quatrième année de médecine passent le deuxième test, et les médecins en exercice qui ont généralement suivi un semestre ou une année d’études postuniversitaires passent le troisième test. La réussite des trois épreuves permet d’obtenir l’autorisation d’exercer la médecine aux États-Unis sans supervision.

ChatGPT n’a reçu aucune préparation spéciale pour l’examen.

« ChatGPT a obtenu une précision de plus de 50 % pour tous les examens, dépassant 60 % dans certaines analyses », selon l’étude. Le seuil de réussite varie d’une année à l’autre, mais il est généralement proche de 60 %.

Les résultats de ChatGPT se sont améliorés au fur et à mesure que de nouvelles versions du chatbot étaient testées, et les chercheurs ont même suggéré qu’à l’avenir, le chatbot pourrait aider à créer l’USMLE.

Cependant, par la suite, il a échoué à trois examens de formation médicale.

Le ChatGPT échoue deux fois à un examen d’ophtalmologie
Des chercheurs de l’hôpital St. Michael’s de Toronto, au Canada, ont mesuré les capacités de ChatGPT à passer des tests dans le domaine de l’ophtalmologie. Lors d’un examen pratique largement utilisé par le comité de certification en ophtalmologie, le chatbot n’a répondu correctement qu’à 46 % des questions au premier essai. Un mois plus tard, il a augmenté son score à 58 % de réponses correctes.

Il se peut que le ChatGPT présente le trait humain de l’anxiété liée à la passation d’un examen.

Cependant, lorsqu’il a été confronté à des scénarios ophtalmologiques réels, le chatbot a excellé. Dans une étude, les chercheurs ont donné à ChatGPT 10 études de cas ophtalmologiques à analyser. Il a fourni le bon diagnostic dans neuf cas. Comme les chercheurs des tests USMLE, les auteurs estiment que l’IA ne fera que s’améliorer : « Les modèles d’IA conversationnelle tels que ChatGPT ont une valeur potentielle dans le diagnostic des conditions ophtalmologiques, en particulier pour les prestataires de soins primaires. »

Le chatbot échoue en gastro-entérologie
Dans une étude récente publiée dans The American Journal of Gastroenterology, ChatGPT-3 et ChatGPT-4 ont été soumis au test d’auto-évaluation de l’American College of Gastroenterology. Les deux versions n’ont pas atteint la barre des 70 % de réussite. Sur 455 questions, ChatGPT-3 a obtenu un score de 65,1 %, tandis que ChatGPT-4 a obtenu un score légèrement inférieur, à savoir 62,4 %. Cela indique que la nouvelle version n’a pas fait preuve d’amélioration par rapport à la précédente.

On peut se demander ce qu’il en est du « chat » dans ChatGPT ? Le chatbot peut-il répondre aux questions des patients sur la santé gastro-intestinale ?

Les chercheurs ont posé 110 questions « réelles » à ChatGPT. Des gastro-entérologues expérimentés ont évalué les réponses en termes de précision, de clarté et d’efficacité. Le résultat n’était pas prometteur. Les chercheurs ont conclu : « Bien que ChatGPT ait du potentiel en tant que source d’information, il est nécessaire de le développer davantage », car la qualité de l’information dépend de la qualité des données de formation.

ChatGPT échoue à l’examen d’urologie
Lors d’une expérience récente, les chercheurs ont testé ChatGPT sur 135 questions du programme d’étude d’auto-évaluation de l’Association américaine d’urologie. L’objectif était d’évaluer l’utilité du chatbot pour les étudiants et les médecins qui se préparent aux examens du comité médical.

Le ChatGPT n’a répondu avec précision qu’à 26,7 % des questions ouvertes et à 28,2 % des questions à choix multiples. Le chatbot n’a pas répondu à 15 des questions à choix multiples, suggérant la consultation d’un médecin.

Il est intéressant de noter que ChatGPT a défendu ses réponses incorrectes et, selon les auteurs de l’étude, « a continuellement réitéré l’explication originale bien qu’elle soit inexacte ».

Les auteurs ont conclu que si le ChatGPT en médecine n’est pas contrôlé ou réglementé, il pourrait potentiellement contribuer à la diffusion d’informations médicales inexactes.

Les tests ne sont peut-être pas la meilleure façon de tester l’IA
Si l’IA n’a pas réussi à s’imposer dans les examens médicaux, elle a fait ses preuves dans d’autres domaines. OpenAI tient une liste des tests que son chatbot a passés, certains avec brio (pdf).

Ces tests sont-ils la meilleure façon de mesurer l’intelligence ? Ils ne peuvent certainement pas mesurer le génie, qui – jusqu’à présent en tout cas – est un talent typiquement humain. Ils ne peuvent pas non plus mesurer la gentillesse ou la compassion, que les patients placent en tête des qualités qu’ils recherchent chez un médecin.

La meilleure façon de mesurer l’efficacité de l’IA est peut-être le temps. Bien que la recherche sur l’apprentissage automatique ait commencé dans les années 1930, ChatGPT est largement accessible depuis moins de six mois. L’IA est utilisée dans la recherche médicale depuis les années 1970 et il est probable qu’elle évoluera d’une manière que nous ne pouvons même pas imaginer au cours des prochaines années.

Espérons que ces changements seront bénéfiques.

Soutenez Epoch Times à partir de 1€

Comment pouvez-vous nous aider à vous tenir informés ?

Epoch Times est un média libre et indépendant, ne recevant aucune aide publique et n’appartenant à aucun parti politique ou groupe financier. Depuis notre création, nous faisons face à des attaques déloyales pour faire taire nos informations portant notamment sur les questions de droits de l'homme en Chine. C'est pourquoi, nous comptons sur votre soutien pour défendre notre journalisme indépendant et pour continuer, grâce à vous, à faire connaître la vérité.