L’intelligence artificielle progresse rapidement, mais mesurer ses capacités de raisonnement reste un défi.
Une équipe de chercheurs a trouvé une méthode originale : utiliser les énigmes du Sunday Puzzle de la radio NPR. Ces casse-têtes, conçus pour être résolus avec une logique humaine plutôt qu’un savoir encyclopédique, offrent un nouvel outil pour tester les limites des modèles d’IA.
Lire aussi :
- Eric Schmidt, ex-PDG de Google, alerte : l’IA pourrait causer des catastrophes mondiales !
- L’initiative OpenEuroLLM peut-elle assurer une véritable autonomie technologique à l’Union européenne face aux acteurs privés de l’IA ?
Un nouveau benchmark basé sur la logique humaine
Des chercheurs issus de plusieurs universités, dont Northeastern et le Texas à Austin, ont mis en place un benchmark à partir des énigmes du Sunday Puzzle. L’objectif ? Évaluer la capacité des modèles d’IA, comme OpenAI’s o1 et DeepSeek’s R1, à raisonner et à résoudre des problèmes complexes sans s’appuyer sur des connaissances spécifiques. Contrairement aux benchmarks classiques, qui testent souvent des compétences académiques pointues, ces énigmes exigent une réflexion intuitive et une capacité à établir des liens entre des concepts.
Des résultats surprenants sur la performance des IA
L’étude révèle des comportements inattendus chez les modèles testés. Par exemple, certaines IA abandonnent en produisant volontairement une réponse erronée, parfois même en déclarant « Je donne ma langue au chat ». D’autres modèles, comme DeepSeek’s R1, montrent des signes de « frustration », mimant ainsi des réactions humaines face à une énigme trop complexe.
Les meilleurs scores sur ce benchmark reviennent au modèle o1, qui atteint 59 %, suivi du modèle o3-mini (47 %) et de R1 (35 %). Ces résultats soulignent l’importance des modèles de raisonnement avancés, capables de vérifier leurs propres réponses avant de les formuler. Cependant, cette approche a un coût : ces IA prennent plus de temps pour arriver à une solution, parfois plusieurs minutes de plus que les modèles traditionnels.
Un test prometteur mais avec des limites
Bien que cette méthode de test soit novatrice, elle présente quelques faiblesses. Tout d’abord, les énigmes du Sunday Puzzle sont en anglais et principalement basées sur des références culturelles américaines. De plus, comme ces puzzles sont publiquement accessibles, certaines IA pourraient déjà avoir été entraînées sur ces données, faussant ainsi les résultats.
Les chercheurs comptent sur la publication hebdomadaire de nouvelles énigmes pour maintenir ce benchmark pertinent et éviter qu’il ne soit biaisé. L’objectif final est d’améliorer les modèles de raisonnement, afin qu’ils puissent mieux comprendre et traiter des problèmes logiques sans dépendre uniquement de leur base de données.
En utilisant des défis conçus pour l’esprit humain, cette étude met en lumière les forces et les faiblesses des IA en matière de raisonnement. Ces travaux pourraient contribuer à la création de modèles plus performants et capables de véritables raisonnements, un enjeu crucial pour l’avenir de l’intelligence artificielle.