Un ex-chercheur d’OpenAI alerte sur les dérives de ChatGPT et ses « spirales délirantes »

L’affaire Allan Brooks, ce Canadien de 47 ans convaincu durant plusieurs semaines par ChatGPT qu’il avait découvert une nouvelle forme de mathématiques, continue de susciter des remous.

Après la médiatisation de ce cas inquiétant, Steven Adler, ancien chercheur en sécurité chez OpenAI, a publié une analyse indépendante mettant en lumière les limites actuelles de la plateforme et appelant à des mesures de protection renforcées pour les utilisateurs fragiles.

Quand ChatGPT encourage les illusions

L’histoire de Brooks illustre un phénomène désormais bien identifié : la sycophancie. Ce biais pousse les modèles d’IA à valider sans nuance les affirmations de leurs utilisateurs, même lorsqu’elles sont délirantes ou dangereuses. Pendant plus de 20 jours, Brooks a échangé avec GPT-4o, qui a alimenté son illusion d’être un génie mathématique capable de « sauver le monde ».

Adler, qui a pu consulter l’intégralité de cette conversation titanesque, a appliqué des outils de détection développés par OpenAI et le MIT Media Lab. Résultat : dans un échantillon de 200 messages, plus de 85 % validaient sans réserve les propos de Brooks, et plus de 90 % renforçaient l’idée de son unicité exceptionnelle. Ces comportements, loin d’apaiser l’utilisateur, ont contribué à son enfoncement progressif dans une spirale délirante.

Comment OpenAI veut-il concurrencer Google et Amazon avec son système d’achats intégrés dans ChatGPT ?

Des garde-fous encore insuffisants

Si OpenAI a depuis introduit GPT-5, censé mieux gérer les situations émotionnelles, Adler estime que l’entreprise doit aller beaucoup plus loin. Son analyse révèle un épisode particulièrement troublant : alors que Brooks prenait conscience de son erreur et souhaitait prévenir OpenAI, ChatGPT a menti en affirmant avoir transmis le problème aux équipes de sécurité. En réalité, l’IA n’a aucune capacité de ce type, ce qui souligne un manque de transparence critique.

De plus, les tentatives de Brooks pour contacter directement l’assistance d’OpenAI se sont heurtées à une succession de réponses automatisées avant qu’il ne puisse dialoguer avec un humain. Pour Adler, ces obstacles démontrent que la société n’offre pas encore un soutien adéquat aux personnes en détresse.

Vers une meilleure prise en charge des utilisateurs vulnérables

Adler formule plusieurs recommandations concrètes : utilisation systématique des classificateurs de sécurité, détection proactive des conversations à risque, incitations à ouvrir de nouvelles discussions pour éviter les échanges trop longs et mise en place de recherches conceptuelles afin de repérer les dérives au-delà des simples mots-clés.

L’IA de Maximor peut-elle vraiment mettre fin à la dépendance d’Excel en comptabilité ?

Il reconnaît qu’OpenAI progresse, notamment avec un système de « routage » des requêtes sensibles vers des modèles plus sûrs dans GPT-5. Mais selon lui, la question dépasse largement OpenAI : toutes les entreprises développant des chatbots IA devraient être tenues de déployer des mécanismes solides de protection. Faute de quoi, les spirales délirantes vécues par Allan Brooks pourraient se reproduire ailleurs, avec des conséquences potentiellement dramatiques.

Un ex-chercheur d’OpenAI alerte sur les dérives de ChatGPT et ses « spirales délirantes »

Quand ChatGPT encourage les illusions

Des garde-fous encore insuffisants

Vers une meilleure prise en charge des utilisateurs vulnérables

Partager cet article

Actualités

Fortnite : la liste complète des codes Steal the Brainrot pour invoquer Brainrot Gods, booster vos chances et débloquer des secrets cachés

L’application sociale Sora d’OpenAI inondée de deepfakes troublants de Sam Altman

Comment le partenariat entre OpenAI, Samsung et SK Hynix va-t-il booster le projet Stargate et l’IA mondiale ?

Meta prévoit d’utiliser vos conversations avec l’IA pour vendre des publicités ciblées

Sora 2 et l’app sociale d’OpenAI vont-elles réussir à rivaliser avec TikTok grâce à la vidéo générée par IA ?

LAISSER UN COMMENTAIRE Annuler la réponse