Les modèles d’IA actuels sont-ils réellement capables de raisonner comme des humains, ou ne font-ils que simuler l’intelligence ?

L’Arc Prize Foundation, cofondée par le célèbre chercheur François Chollet, a dévoilé un test inédit destiné à mesurer l’intelligence générale des modèles d’intelligence artificielle.

Baptisé ARC-AGI-2, ce test promet de faire bouger les lignes dans l’évaluation des IA dites “raisonnantes”, en s’attaquant à l’un des défis les plus cruciaux du secteur : l’adaptation à des situations nouvelles sans s’appuyer sur l’entraînement préalable.

Des résultats décevants pour les géants de l’IA

Le test ARC-AGI-2 repose sur des puzzles visuels complexes composés de grilles de carrés colorés. L’objectif pour les IA : détecter le motif et générer la grille de réponse correcte. Contrairement à d’autres benchmarks, ARC-AGI-2 a été conçu pour empêcher les IA d’utiliser une puissance de calcul brute comme unique moyen de résolution.

Les résultats sont sans appel : les modèles les plus avancés, comme GPT-4.5, Claude 3.7 Sonnet ou Gemini 2.0 Flash, n’ont obtenu qu’environ 1 % de réussite. Même les modèles spécialisés dans le raisonnement, comme o1-pro d’OpenAI ou R1 de DeepSeek, peinent à dépasser les 1,3 %. À titre de comparaison, un panel de 400 personnes a atteint un taux moyen de réussite de 60 %, soulignant l’écart encore important entre intelligence humaine et artificielle.

Meta tente de censurer le livre Careless People, mais l’effet Streisand joue en sa défaveur

Un nouveau standard basé sur l’efficacité

Avec ARC-AGI-2, la nouveauté majeure réside dans l’introduction d’un critère d’efficacité. Le test ne se limite plus à la question : “L’IA peut-elle résoudre le problème ?”, mais pose également : “À quel coût en ressources y parvient-elle ?”. Cette approche vise à mesurer la capacité d’une IA à apprendre rapidement et à s’adapter avec peu d’informations – une compétence clé de l’intelligence générale.

L’ancienne version du test, ARC-AGI-1, avait été contournée par des modèles très puissants mais peu efficients. Par exemple, le modèle o3 (low) d’OpenAI avait réussi ARC-AGI-1 avec brio, mais à un coût de calcul de 200 dollars par tâche. Sur ARC-AGI-2, ce même modèle plafonne à 4 %.

Un défi ambitieux pour 2025

L’Arc Prize Foundation ne s’arrête pas là : elle lance un nouveau concours offrant une récompense à quiconque parviendra à atteindre 85 % de réussite sur ARC-AGI-2, avec un budget maximum de 0,42 $ par tâche. Ce défi ambitieux vise à encourager l’innovation dans le développement d’IA à la fois performantes et économes en ressources.

Comment la nouvelle fonctionnalité d’analyse de Claude peut-elle aider les professionnels dans leur prise de décision ?

Alors que la communauté tech appelle de plus en plus à des benchmarks fiables pour évaluer l’intelligence générale, ARC-AGI-2 s’impose déjà comme une référence exigeante, capable de faire le tri entre les promesses marketing et la véritable intelligence artificielle.

Les modèles d’IA actuels sont-ils réellement capables de raisonner comme des humains, ou ne font-ils que simuler l’intelligence ?

Des résultats décevants pour les géants de l’IA

Un nouveau standard basé sur l’efficacité

Un défi ambitieux pour 2025

Partager cet article

Actualités

GTA 6 Online pourrait arriver bien plus tôt que prévu : une fuite dévoile une fenêtre de sortie proche du lancement

GTA 6 : des détails sur une mission potentielle ont fuité et révèlent de nouvelles informations sur le jeu

Monopoly go : jalons de récompenses du tournoi « Tycoon Class », conseils et informations avant sa sortie

GTA 6 : un ancien développeur brise l’illusion et alerte sur des trailers “trop parfaits” qui pourraient tromper les joueurs

GTA 5 : une découverte inattendue révèle un personnage issu d’un jeu Rockstar oublié

LAISSER UN COMMENTAIRE Annuler la réponse