L’Arc Prize Foundation, cofondée par le célèbre chercheur François Chollet, a dévoilé un test inédit destiné à mesurer l’intelligence générale des modèles d’intelligence artificielle.
Baptisé ARC-AGI-2, ce test promet de faire bouger les lignes dans l’évaluation des IA dites “raisonnantes”, en s’attaquant à l’un des défis les plus cruciaux du secteur : l’adaptation à des situations nouvelles sans s’appuyer sur l’entraînement préalable.
Lire aussi :
- Apple révolutionne les AirPods Max USB-C avec l’audio sans perte et une latence ultra-faible : de quoi faire basculer les utilisateurs Lightning vers AirPods Max USB-C?
- Quels sont les 5 critères les plus déterminants dans le choix d’un écran PC gaming ?
Des résultats décevants pour les géants de l’IA
Le test ARC-AGI-2 repose sur des puzzles visuels complexes composés de grilles de carrés colorés. L’objectif pour les IA : détecter le motif et générer la grille de réponse correcte. Contrairement à d’autres benchmarks, ARC-AGI-2 a été conçu pour empêcher les IA d’utiliser une puissance de calcul brute comme unique moyen de résolution.
Les résultats sont sans appel : les modèles les plus avancés, comme GPT-4.5, Claude 3.7 Sonnet ou Gemini 2.0 Flash, n’ont obtenu qu’environ 1 % de réussite. Même les modèles spécialisés dans le raisonnement, comme o1-pro d’OpenAI ou R1 de DeepSeek, peinent à dépasser les 1,3 %. À titre de comparaison, un panel de 400 personnes a atteint un taux moyen de réussite de 60 %, soulignant l’écart encore important entre intelligence humaine et artificielle.
Meta tente de censurer le livre Careless People, mais l’effet Streisand joue en sa défaveur
Un nouveau standard basé sur l’efficacité
Avec ARC-AGI-2, la nouveauté majeure réside dans l’introduction d’un critère d’efficacité. Le test ne se limite plus à la question : “L’IA peut-elle résoudre le problème ?”, mais pose également : “À quel coût en ressources y parvient-elle ?”. Cette approche vise à mesurer la capacité d’une IA à apprendre rapidement et à s’adapter avec peu d’informations – une compétence clé de l’intelligence générale.
L’ancienne version du test, ARC-AGI-1, avait été contournée par des modèles très puissants mais peu efficients. Par exemple, le modèle o3 (low) d’OpenAI avait réussi ARC-AGI-1 avec brio, mais à un coût de calcul de 200 dollars par tâche. Sur ARC-AGI-2, ce même modèle plafonne à 4 %.
Un défi ambitieux pour 2025
L’Arc Prize Foundation ne s’arrête pas là : elle lance un nouveau concours offrant une récompense à quiconque parviendra à atteindre 85 % de réussite sur ARC-AGI-2, avec un budget maximum de 0,42 $ par tâche. Ce défi ambitieux vise à encourager l’innovation dans le développement d’IA à la fois performantes et économes en ressources.
Alors que la communauté tech appelle de plus en plus à des benchmarks fiables pour évaluer l’intelligence générale, ARC-AGI-2 s’impose déjà comme une référence exigeante, capable de faire le tri entre les promesses marketing et la véritable intelligence artificielle.