Les chercheurs de plusieurs universités et entreprises technologiques ont mis au point un benchmark original pour tester les capacités de raisonnement des modèles d’intelligence artificielle.
Plutôt que d’utiliser des questions complexes de mathématiques ou de sciences, ils se sont tournés vers les énigmes du Sunday Puzzle, un jeu radiophonique diffusé chaque semaine sur NPR. L’objectif ? Évaluer la manière dont les IA résolvent des problèmes nécessitant logique et créativité, plutôt que des connaissances spécialisées.
Lire aussi :
- Comment CodeSignal utilise-t-il l’intelligence artificielle pour améliorer la formation aux compétences comportementales ?
- Comment l’Europe parvient-elle à attirer des investissements croissants dans l’IA malgré la domination des États-Unis et de la Chine ?
Des comportements inattendus des modèles d’IA
Les premiers résultats du benchmark ont mis en lumière des tendances surprenantes. Les modèles de raisonnement avancés, tels que OpenAI’s o1 et DeepSeek’s R1, ont montré une capacité supérieure à résoudre ces énigmes par rapport aux IA plus classiques. Cependant, certaines réactions étranges ont été observées.
Par exemple, R1 a parfois “abandonné”, en affichant des phrases comme “I give up” (“J’abandonne”), suivies d’une réponse incorrecte générée de manière aléatoire. D’autres modèles ont donné une mauvaise réponse avant de tenter de se corriger… pour échouer à nouveau. Il a également été noté que certains modèles “se frustraient”, affichant un comportement qui rappelle celui des humains face à un problème complexe.
Un autre phénomène intrigant est le temps de réflexion variable des modèles de raisonnement. Contrairement aux IA classiques, qui génèrent rapidement des réponses, ces modèles prennent plus de temps pour vérifier et affiner leur réponse. Ce délai supplémentaire améliore souvent la précision, mais peut aussi entraîner des comportements étranges, comme revenir sur une réponse correcte sans raison apparente.
Un enjeu pour le futur des intelligences artificielles
Ce nouveau benchmark soulève une question essentielle : comment rendre les modèles d’IA plus fiables et cohérents dans leur raisonnement ? Les erreurs observées montrent que, même si ces intelligences artificielles sont capables de réaliser des raisonnements avancés, elles restent sujettes à l’hésitation et à des biais internes.
Les chercheurs prévoient d’élargir leur étude en testant ces énigmes sur d’autres modèles de raisonnement et en analysant les mécanismes qui conduisent aux erreurs. L’objectif est d’améliorer la stabilité et la cohérence des IA, en particulier dans des domaines où la précision est cruciale, comme la médecine, la finance ou la recherche scientifique.
Vers une IA plus accessible et compréhensible
Un des avantages de ce benchmark est qu’il repose sur des énigmes compréhensibles par le grand public. Contrairement aux tests basés sur des connaissances académiques, les énigmes du Sunday Puzzle ne nécessitent pas un haut niveau d’éducation pour être résolues. Cela signifie que toute personne, même sans expertise technique, peut observer comment une IA raisonne et repérer ses faiblesses.
En développant des benchmarks plus intuitifs, les chercheurs espèrent rendre les modèles d’IA plus accessibles et encourager une plus grande transparence sur leurs capacités réelles. Dans un monde où l’intelligence artificielle joue un rôle de plus en plus central, comprendre ses forces et ses limites est essentiel pour une adoption en toute confiance.