Depuis plusieurs annรฉes, le test ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence) est au centre des dรฉbats dans le domaine de l’intelligence artificielle gรฉnรฉrale (AGI).
Conรงu par Franรงois Chollet, une figure influente dans le milieu de lโIA, ce benchmark รฉvalue la capacitรฉ des systรจmes dโIA ร acquรฉrir de nouvelles compรฉtences en dehors des donnรฉes sur lesquelles ils ont รฉtรฉ entraรฎnรฉs. Mais les derniรจres avancรฉes remettent en question sa pertinence en tant que mesure fiable.
Lire aussi :
- Pourquoi Sora, le gรฉnรฉrateur vidรฉo dโOpenAI, nโest-il pas encore disponible en Europe ?
- Comment Reddit Answers se distingue-t-il des autres outils dโIA comme ChatGPT et Google ?
Une percรฉe ou une limite rรฉvรฉlรฉe ?
Jusquโร cette annรฉe, les systรจmes d’IA les plus performants nโavaient rรฉussi quโenviron 30 % des tรขches proposรฉes par ARC-AGI. Cependant, un rรฉcent concours dotรฉ dโun prix dโun million de dollars, coorganisรฉ par Franรงois Chollet et Mike Knoop, a vu le meilleur participant atteindre un score de 55,5 %. Bien que cette avancรฉe semble impressionnante, elle reste loin du seuil humain de 85 % fixรฉ pour gagner la compรฉtition.
Malgrรฉ cela, les organisateurs ont notรฉ des failles dans les solutions proposรฉes. De nombreux participants ont contournรฉ les obstacles en utilisant des mรฉthodes de brute force, remettant en question la capacitรฉ du test ร rรฉellement รฉvaluer une intelligence gรฉnรฉrale. Knoop a dรฉclarรฉ que plusieurs tรขches du benchmark nโapportaient pas de signal utile vers la comprรฉhension de lโAGI.
Les critiques envers les modรจles dโIA actuels
Chollet a toujours critiquรฉ les modรจles d’IA actuels, en particulier les grands modรจles de langage (LLMs), pour leur dรฉpendance ร la mรฉmorisation. Ces systรจmes, bien qu’impressionnants, รฉchouent souvent face ร des problรจmes quโils nโont jamais rencontrรฉs auparavant. Selon Chollet, ils ne gรฉnรจrent pas de raisonnements nouveaux mais se contentent dโappliquer des schรฉmas dรฉjร connus.
Ces limitations soulรจvent des questions fondamentales : les benchmarks actuels sont-ils capables de mesurer les progrรจs vers une vรฉritable AGI ? Et surtout, lโAGI elle-mรชme est-elle un concept atteignable ou simplement un idรฉal flou ?
Un avenir pour ARC-AGI
Face aux critiques, Franรงois Chollet et Mike Knoop travaillent sur une version amรฉliorรฉe du test, prรฉvue pour 2025. Lโobjectif est dโaffiner les tรขches afin quโelles soient plus reprรฉsentatives de la gรฉnรฉralisation et des capacitรฉs dโadaptation. Malgrรฉ les controverses, Chollet reste convaincu que ces initiatives orienteront les chercheurs vers les problรจmes les plus importants pour accรฉlรฉrer le dรฉveloppement de lโAGI.
Cependant, les dรฉfis sont nombreux. Dรฉfinir lโintelligence, quโelle soit humaine ou artificielle, reste une tรขche complexe et source de dรฉbats. Comme le montre lโhistoire dโARC-AGI, le chemin vers lโAGI est semรฉ dโembรปches, mais aussi dโopportunitรฉs pour repousser les limites de ce que lโIA peut accomplir.
Si les rรฉsultats rรฉcents dโARC-AGI rรฉvรจlent des lacunes dans son design, ils soulignent รฉgalement lโimportance de repenser nos outils dโรฉvaluation pour lโintelligence artificielle. Les prochaines itรฉrations du test, associรฉes ร des recherches plus ciblรฉes, pourraient marquer une รฉtape cruciale vers une comprรฉhension plus claire de lโAGI.