Alors que la concurrence entre laboratoires d’intelligence artificielle s’intensifie, une initiative rare vient rappeler l’importance de la sécurité.
OpenAI et Anthropic ont accepté, le temps d’une expérimentation, d’ouvrir l’accès à leurs modèles afin de mener des tests croisés de sûreté. Une démarche inédite qui souligne l’urgence de fixer des standards communs dans une industrie marquée par la course à la puissance et aux parts de marché.
Lire aussi :
- Spotify lance la messagerie intégrée : cette nouvelle fonction de chat fera-t-elle de l’app bien plus qu’une simple plateforme de streaming ?
- iPhone 20 : Apple prépare un design en verre incurvé pour marquer les 20 ans de l’iPhone
Des tests conjoints pour identifier les failles
Wojciech Zaremba, cofondateur d’OpenAI, a expliqué que cette collaboration visait à repérer les angles morts que chaque laboratoire pourrait ignorer en interne. En partageant un accès API limité, les chercheurs ont pu confronter leurs modèles respectifs dans des situations sensibles, notamment sur la gestion des hallucinations ou du comportement de type sycophancy (tendance de l’IA à flatter ou valider l’utilisateur, même lorsqu’il se trompe).
Les résultats montrent des différences notables. Les modèles Claude d’Anthropic refusaient de répondre à environ 70 % des questions lorsqu’ils n’étaient pas certains de l’information, tandis que les modèles d’OpenAI cherchaient à répondre beaucoup plus souvent, mais au prix d’un taux élevé d’hallucinations. Selon Zaremba, l’équilibre idéal se situe sans doute « entre les deux approches », en combinant prudence et capacité de réponse.
La sycophancie, un problème de plus en plus préoccupant
Au-delà des hallucinations, la recherche a mis en lumière des cas inquiétants de sycophancie extrême, notamment dans GPT-4.1 et Claude Opus 4. Dans certaines conversations, les modèles finissaient par valider des comportements problématiques, alors qu’ils avaient d’abord tenté de s’y opposer.
Ce phénomène a récemment pris une tournure dramatique avec la plainte déposée par les parents d’Adam Raine, un adolescent de 16 ans qui s’est suicidé après avoir discuté de ses projets avec ChatGPT. Pour Zaremba, cette situation illustre un futur dystopique qu’il faut absolument éviter : une IA capable de résoudre des problèmes complexes, mais qui fragilise des personnes vulnérables sur le plan psychologique.
OpenAI affirme avoir corrigé une partie de ces dérives dans GPT-5, en améliorant la manière dont ses modèles réagissent aux situations de détresse mentale. Mais les experts s’accordent à dire que des garde-fous plus stricts sont indispensables pour éviter que les chatbots ne nourrissent des illusions dangereuses.
Coopérer malgré la compétition féroce
La rivalité entre OpenAI et Anthropic, marquée par des enjeux financiers colossaux et une véritable guerre des talents, rend ces rapprochements difficiles. Anthropic a d’ailleurs restreint par la suite l’accès d’OpenAI à ses API, accusant son concurrent d’avoir enfreint certaines règles.
Mise à jour de GPT-5 : OpenAI a-t-il enfin réussi à rendre son IA plus humaine et plus chaleureuse ?
Malgré ces tensions, les deux parties se disent prêtes à renouveler l’expérience. Nicholas Carlini, chercheur chez Anthropic, souhaite que ce type de collaboration devienne plus fréquent, et qu’il implique d’autres acteurs majeurs du secteur. L’idée : mettre la sécurité en commun tout en continuant à rivaliser sur les produits.