Alors que les modèles d’intelligence artificielle deviennent de plus en plus complexes, un groupe de chercheurs issus des plus grandes entreprises technologiques — dont OpenAI, Google DeepMind et Anthropic — alerte sur la nécessité de surveiller les processus de réflexion internes de ces systèmes, appelés « chaînes de pensée » (ou CoT, pour chain-of-thought).
Un rapport publié récemment souligne l’importance de cette transparence pour garantir la sécurité future des agents IA.
Lire aussi :
- Meta va-t-elle abandonner l’open source pour ses futurs modèles d’intelligence artificielle ?
- Comment Meta compte-t-elle limiter la diffusion de contenu non original sur Facebook ?
Qu’est-ce qu’une chaîne de pensée dans l’IA ?
Les chaînes de pensée désignent les étapes intermédiaires qu’un modèle suit pour arriver à une réponse, un peu comme un humain qui note ses calculs sur une feuille avant de donner une solution. Ces CoT sont particulièrement visibles dans les modèles de raisonnement, comme o3 d’OpenAI ou R1 de DeepSeek. Le rapport insiste sur le fait que cette visibilité sur les pensées des IA pourrait être précieuse pour comprendre et encadrer leurs décisions à mesure qu’elles deviennent plus autonomes.
Cependant, cette transparence est fragile. Les chercheurs mettent en garde contre les changements dans l’architecture des modèles qui pourraient rendre ces chaînes de raisonnement moins lisibles ou même inaccessibles.
Une initiative soutenue par les leaders de l’IA
Le rapport a été signé par des figures majeures de l’IA, dont Geoffrey Hinton (lauréat du prix Nobel), Ilya Sutskever (ancien d’OpenAI, aujourd’hui à la tête de Safe Superintelligence), et Shane Legg (cofondateur de DeepMind). On retrouve également des chercheurs de Meta, Amazon et UC Berkeley. Cette coalition rare souligne l’urgence ressentie par l’industrie pour préserver la traçabilité des décisions des IA.
Selon Bowen Baker, chercheur chez OpenAI, l’objectif est d’attirer rapidement l’attention des communautés de recherche et d’investissement sur ce sujet avant qu’il ne devienne inexplorable.
Une technologie clé pour la sécurité des agents IA
Les agents IA — des systèmes capables d’interagir de manière autonome avec leur environnement — reposent souvent sur ces modèles de raisonnement. Le suivi des chaînes de pensée pourrait ainsi devenir un outil clé pour garantir leur alignement avec les intentions humaines, et éviter des dérives comportementales.
Des entreprises comme Anthropic investissent déjà massivement dans la compréhension des mécanismes internes de ces modèles, un champ appelé l’interprétabilité. Mais beaucoup reste à faire, notamment pour valider si les chaînes de pensée représentent fidèlement le raisonnement réel des IA.
Pourquoi Anthropic coupe brutalement les ponts avec une startup courtisée par OpenAI ?
Un appel à la collaboration internationale
Le rapport appelle à un effort global pour étudier les conditions qui rendent ces chaînes de pensée observables, et pour éviter qu’elles ne disparaissent avec l’évolution technologique. L’objectif est clair : éviter que les IA ne deviennent des boîtes noires impossibles à comprendre.