AccueilActualitésComment le Sunday Puzzle de NPR permet-il de mesurer les capacités de...

Comment le Sunday Puzzle de NPR permet-il de mesurer les capacités de raisonnement des modèles d’intelligence artificielle ?

Publié le

par

L’intelligence artificielle progresse rapidement, mais mesurer ses capacités de raisonnement reste un défi.

Une équipe de chercheurs a trouvé une méthode originale : utiliser les énigmes du Sunday Puzzle de la radio NPR. Ces casse-têtes, conçus pour être résolus avec une logique humaine plutôt qu’un savoir encyclopédique, offrent un nouvel outil pour tester les limites des modèles d’IA.

Lire aussi :

  1. Eric Schmidt, ex-PDG de Google, alerte : l’IA pourrait causer des catastrophes mondiales !
  2. L’initiative OpenEuroLLM peut-elle assurer une véritable autonomie technologique à l’Union européenne face aux acteurs privés de l’IA ?

Un nouveau benchmark basé sur la logique humaine

Des chercheurs issus de plusieurs universités, dont Northeastern et le Texas à Austin, ont mis en place un benchmark à partir des énigmes du Sunday Puzzle. L’objectif ? Évaluer la capacité des modèles d’IA, comme OpenAI’s o1 et DeepSeek’s R1, à raisonner et à résoudre des problèmes complexes sans s’appuyer sur des connaissances spécifiques. Contrairement aux benchmarks classiques, qui testent souvent des compétences académiques pointues, ces énigmes exigent une réflexion intuitive et une capacité à établir des liens entre des concepts.

Apple peut-elle rivaliser avec DeepSeek et les autres géants de l’IA avec son approche hybride et prudente ?

Des résultats surprenants sur la performance des IA

L’étude révèle des comportements inattendus chez les modèles testés. Par exemple, certaines IA abandonnent en produisant volontairement une réponse erronée, parfois même en déclarant « Je donne ma langue au chat ». D’autres modèles, comme DeepSeek’s R1, montrent des signes de « frustration », mimant ainsi des réactions humaines face à une énigme trop complexe.

Les meilleurs scores sur ce benchmark reviennent au modèle o1, qui atteint 59 %, suivi du modèle o3-mini (47 %) et de R1 (35 %). Ces résultats soulignent l’importance des modèles de raisonnement avancés, capables de vérifier leurs propres réponses avant de les formuler. Cependant, cette approche a un coût : ces IA prennent plus de temps pour arriver à une solution, parfois plusieurs minutes de plus que les modèles traditionnels.

Un test prometteur mais avec des limites

Bien que cette méthode de test soit novatrice, elle présente quelques faiblesses. Tout d’abord, les énigmes du Sunday Puzzle sont en anglais et principalement basées sur des références culturelles américaines. De plus, comme ces puzzles sont publiquement accessibles, certaines IA pourraient déjà avoir été entraînées sur ces données, faussant ainsi les résultats.

Les chercheurs comptent sur la publication hebdomadaire de nouvelles énigmes pour maintenir ce benchmark pertinent et éviter qu’il ne soit biaisé. L’objectif final est d’améliorer les modèles de raisonnement, afin qu’ils puissent mieux comprendre et traiter des problèmes logiques sans dépendre uniquement de leur base de données.

L’initiative OpenEuroLLM peut-elle assurer une véritable autonomie technologique à l’Union européenne face aux acteurs privés de l’IA ?

En utilisant des défis conçus pour l’esprit humain, cette étude met en lumière les forces et les faiblesses des IA en matière de raisonnement. Ces travaux pourraient contribuer à la création de modèles plus performants et capables de véritables raisonnements, un enjeu crucial pour l’avenir de l’intelligence artificielle.

Caroline
Caroline
"Caroline est une rédactrice passionnée et visionnaire pour 2051.fr, où elle explore les frontières de l'innovation et de la technologie. Elle possède une expertise particulière en intelligence artificiel, ce qui enrichit ses articles d'analyses perspicaces et de perspectives avant-gardistes. Avec une curiosité insatiable pour les évolutions technologiques et leur impact sur la société, Caroline s'engage à dévoiler les tendances émergentes qui dessineront notre avenir. Ses écrits ne se contentent pas de présenter des faits ; ils invitent à la réflexion, offrant aux lecteurs une fenêtre sur le monde de demain. Sa capacité à lier les avancées scientifiques aux enjeux sociétaux fait de ses articles une lecture incontournable pour ceux qui s'intéressent à l'avenir de notre planète."

Partager cet article

Actualités

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici