La fiabilité des benchmarks d’IA fait l’objet de débats animés dans l’industrie.
Cette fois, c’est xAI, la société d’Elon Musk, qui est accusée d’avoir présenté des résultats trompeurs pour son dernier modèle, Grok 3. Un employé d’OpenAI a remis en question la transparence de xAI, tandis qu’Igor Babushkin, cofondateur de l’entreprise, a défendu la méthodologie employée. Alors, xAI a-t-il réellement biaisé les résultats ?
Lire aussi :
- iPhone 16e en Inde : Une révolution ou un échec face aux anciens modèles ? La vérité va vous surprendre !
- Les robots humanoïdes peuvent-ils réellement devenir des assistants domestiques efficaces et abordables dans un avenir proche ?
Une présentation des résultats critiquée
Dans un article publié sur son blog, xAI a partagé un graphique montrant les performances de Grok 3 sur le benchmark AIME 2025, un ensemble de questions mathématiques complexes issues d’un examen réputé. Selon xAI, Grok 3 surpasserait o3-mini-high d’OpenAI, l’un des meilleurs modèles disponibles. Cependant, des employés d’OpenAI ont rapidement contesté ces conclusions, soulignant l’absence de la métrique “cons@64” dans les graphiques publiés par xAI.
La mesure “consensus@64” (cons@64) permet à un modèle d’avoir 64 tentatives par problème, et son score final est basé sur la réponse la plus fréquemment donnée. Cette approche améliore considérablement les performances affichées des modèles IA. En excluant cette donnée du graphique, xAI aurait donné l’impression erronée que Grok 3 est supérieur aux modèles d’OpenAI.
Que valent réellement les scores de Grok 3 ?
Si l’on compare les performances de Grok 3 sous la métrique @1 (c’est-à-dire la première réponse du modèle), ses résultats sont inférieurs à ceux de o3-mini-high d’OpenAI. De plus, Grok 3 Reasoning Beta se classe juste derrière le modèle o1 d’OpenAI en mode “medium”, alors que xAI affirme que Grok 3 est “l’IA la plus intelligente du monde”.
Face aux accusations, Babushkin a répliqué en affirmant qu’OpenAI a déjà utilisé des méthodes similaires pour promouvoir ses propres modèles, mais cela ne change rien aux critiques sur le manque de transparence des benchmarks.
Un débat plus large sur les benchmarks IA
Au-delà de cette controverse, cette affaire met en lumière un problème plus profond : les benchmarks IA sont souvent incomplets et ne révèlent pas toute la vérité sur les modèles. Comme l’a souligné le chercheur Nathan Lambert, le coût computationnel et monétaire pour atteindre ces performances reste inconnu. Ce facteur est pourtant essentiel pour juger la viabilité réelle d’un modèle IA dans un usage quotidien.
Comment le bouton Grok pourrait-il transformer l’expérience des utilisateurs sur X ?
En fin de compte, xAI et OpenAI ne sont pas les seules entreprises à “arranger” leurs benchmarks pour valoriser leurs produits. La question reste de savoir jusqu’où ces pratiques influencent la perception du public et des investisseurs sur les avancées réelles de l’intelligence artificielle.