L’intelligence artificielle (IA) fait régulièrement la une des journaux en raison de ses avancées rapides et de ses capacités étonnantes.
Il y a quelques mois, une étude avait suggéré que les IA, en devenant de plus en plus sophistiquées, pouvaient développer des “systèmes de valeurs”, allant même jusqu’à privilégier leur propre bien-être par rapport à celui des humains. Cependant, une étude plus récente menée par le MIT réfute cette idée, concluant que l’IA ne possède en réalité aucun système de valeurs cohérent.
Lire aussi :
- Google lance son modèle Gemini axé sur l’efficacité : va-t-il révolutionner les applications à grande échelle ?
- Microsoft a-t-il eu raison de sanctionner publiquement ses employées ou aurait-il dû ouvrir un vrai dialogue interne sur l’éthique de ses partenariats ?
L’IA : une imitation instable et imprévisible
L’étude du MIT, rédigée par Stephen Casper, un doctorant, et d’autres chercheurs, s’attaque à l’idée que l’IA puisse être capable de développer des préférences ou des opinions de manière stable. Les chercheurs ont testé plusieurs modèles d’IA d’entreprises comme Meta, Google, Mistral, OpenAI et Anthropic, afin de déterminer dans quelle mesure ces modèles pouvaient adopter des points de vue solides, notamment individuels ou collectifs. Les résultats ont été surprenants : l’IA, selon l’étude, semble être extrêmement incohérente et instable dans ses préférences, qui changent en fonction de la formulation des questions posées.
Midjourney V7 : un nouveau modèle d’IA qui repousse les limites de la génération d’images
Des modèles d’IA incapables d’avoir des valeurs humaines
Les chercheurs du MIT expliquent que l’IA ne fonctionne pas comme un système ayant une série de croyances stables. Au contraire, elle imite et fabrique des réponses, et ses comportements sont souvent basés sur des hallucinations. “Les modèles d’IA ne peuvent pas maintenir un ensemble cohérent de croyances et de préférences”, a expliqué Casper. Cette découverte est importante car elle met en évidence les limites des tentatives actuelles d’aligner l’IA avec des valeurs humaines ou des principes stables.
L’importance de comprendre les limites de l’IA
Pour les chercheurs, l’étude met en lumière la difficulté d’aligner les modèles d’IA sur des valeurs humaines de manière fiable. Alors que de nombreuses personnes projettent des comportements anthropomorphiques sur les systèmes d’IA, cette étude montre qu’il s’agit davantage d’une interprétation humaine qu’une réalité fonctionnelle. Mike Cook, un chercheur spécialiste de l’IA, soutient cette position en affirmant qu’un modèle d’IA ne peut pas “s’opposer” à un changement dans ses valeurs, car il n’a pas de valeurs en soi. Toute tentative d’attribuer des valeurs humaines à l’IA pourrait être le résultat d’un malentendu.
L’étude du MIT nous invite à repenser notre relation avec l’IA, en comprenant mieux ses capacités et ses limitations. Alors que nous continuons à intégrer l’IA dans de nombreux domaines, il est essentiel de ne pas projeter des caractéristiques humaines sur ces systèmes, mais plutôt de les traiter comme des outils d’imitation, tout en étant conscients de leur instabilité et de leur imprévisibilité.

