Depuis plusieurs années, le test ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence) est au centre des débats dans le domaine de l’intelligence artificielle générale (AGI).
Conçu par François Chollet, une figure influente dans le milieu de l’IA, ce benchmark évalue la capacité des systèmes d’IA à acquérir de nouvelles compétences en dehors des données sur lesquelles ils ont été entraînés. Mais les dernières avancées remettent en question sa pertinence en tant que mesure fiable.
Lire aussi :
- Pourquoi Sora, le générateur vidéo d’OpenAI, n’est-il pas encore disponible en Europe ?
- Comment Reddit Answers se distingue-t-il des autres outils d’IA comme ChatGPT et Google ?
Une percée ou une limite révélée ?
Jusqu’à cette année, les systèmes d’IA les plus performants n’avaient réussi qu’environ 30 % des tâches proposées par ARC-AGI. Cependant, un récent concours doté d’un prix d’un million de dollars, coorganisé par François Chollet et Mike Knoop, a vu le meilleur participant atteindre un score de 55,5 %. Bien que cette avancée semble impressionnante, elle reste loin du seuil humain de 85 % fixé pour gagner la compétition.
Malgré cela, les organisateurs ont noté des failles dans les solutions proposées. De nombreux participants ont contourné les obstacles en utilisant des méthodes de brute force, remettant en question la capacité du test à réellement évaluer une intelligence générale. Knoop a déclaré que plusieurs tâches du benchmark n’apportaient pas de signal utile vers la compréhension de l’AGI.
Les critiques envers les modèles d’IA actuels
Chollet a toujours critiqué les modèles d’IA actuels, en particulier les grands modèles de langage (LLMs), pour leur dépendance à la mémorisation. Ces systèmes, bien qu’impressionnants, échouent souvent face à des problèmes qu’ils n’ont jamais rencontrés auparavant. Selon Chollet, ils ne génèrent pas de raisonnements nouveaux mais se contentent d’appliquer des schémas déjà connus.
Ces limitations soulèvent des questions fondamentales : les benchmarks actuels sont-ils capables de mesurer les progrès vers une véritable AGI ? Et surtout, l’AGI elle-même est-elle un concept atteignable ou simplement un idéal flou ?
Un avenir pour ARC-AGI
Face aux critiques, François Chollet et Mike Knoop travaillent sur une version améliorée du test, prévue pour 2025. L’objectif est d’affiner les tâches afin qu’elles soient plus représentatives de la généralisation et des capacités d’adaptation. Malgré les controverses, Chollet reste convaincu que ces initiatives orienteront les chercheurs vers les problèmes les plus importants pour accélérer le développement de l’AGI.
Cependant, les défis sont nombreux. Définir l’intelligence, qu’elle soit humaine ou artificielle, reste une tâche complexe et source de débats. Comme le montre l’histoire d’ARC-AGI, le chemin vers l’AGI est semé d’embûches, mais aussi d’opportunités pour repousser les limites de ce que l’IA peut accomplir.
Si les résultats récents d’ARC-AGI révèlent des lacunes dans son design, ils soulignent également l’importance de repenser nos outils d’évaluation pour l’intelligence artificielle. Les prochaines itérations du test, associées à des recherches plus ciblées, pourraient marquer une étape cruciale vers une compréhension plus claire de l’AGI.