Le K Prize, un défi d’IA lancé par Databricks et le co-fondateur de Perplexity, Andy Konwinski, a récemment révélé ses premiers résultats, et le moins que l’on puisse dire, c’est que les scores sont loin de la perfection.
Le gagnant, Eduardo Rocha de Andrade, un ingénieur de prompts brésilien, a remporté le prix de 50 000 $ avec un score surprenant de seulement 7,5% de réponses correctes. Ce faible pourcentage a suscité de vives réactions dans la communauté AI, qui s’attendait à un meilleur rendement de la part des modèles.
Le K Prize se distingue des benchmarks traditionnels en utilisant un ensemble de problèmes extraits directement de GitHub, sans formation préalable pour les IA. L’objectif est de tester la capacité des modèles à résoudre des problèmes réels et complexes rencontrés par les développeurs de logiciels. Konwinski explique que ce test est conçu pour être difficile, afin de vraiment évaluer l’efficacité des IA dans des situations concrètes.
Lire aussi :
- Pourquoi OpenAI a-t-il signé un contrat de 30 milliards de dollars par an avec Oracle pour des services de centres de données ?
- FuriosaAI signe un partenariat stratégique avec LG AI Research pour sa puce RNGD : une alternative à Nvidia ?
Un défi plus rigoureux pour les IA
Ce test est plus exigeant que d’autres benchmarks bien connus comme le SWE-Bench, qui repose sur des problèmes fixes que les modèles peuvent déjà connaître. Le K Prize garantit une évaluation plus pure en créant un environnement “sans contamination” où les IA ne peuvent pas s’entraîner sur des problèmes déjà existants. Cela met en lumière une réalité : bien que les IA aient progressé, elles restent encore très limitées lorsqu’il s’agit de résoudre des défis complexes de programmation.
Cette approche critique, selon les experts, est indispensable pour faire face à l’engouement actuel autour des modèles d’IA censés remplacer les humains dans des tâches aussi techniques que la programmation. En obtenant un score aussi bas, le K Prize souligne la difficulté de l’ingénierie logicielle pour l’IA, un domaine où l’intelligence humaine reste incontournable.
Une mise en perspective des progrès de l’IA
Les résultats du K Prize rappellent que l’IA, bien qu’impressionnante, n’est pas encore prête à remplacer les ingénieurs humains. Le score de 7,5% montre que des progrès doivent encore être réalisés, surtout lorsque l’on compare ce résultat à des benchmarks comme le SWE-Bench où les scores sont nettement plus élevés. Konwinski a d’ailleurs ajouté que ces scores basses permettent de mieux comprendre l’état actuel de l’IA et de placer des attentes réalistes sur ce que ces modèles peuvent accomplir dans des environnements de codage.
Meta va-t-elle abandonner l’open source pour ses futurs modèles d’intelligence artificielle ?
Les chercheurs insistent sur le fait que des tests comme le K Prize sont essentiels pour évaluer correctement les capacités des modèles d’IA. Ils représentent un pas en avant vers une évaluation plus précise et plus réaliste des systèmes d’IA, permettant à la communauté de mieux comprendre ce qu’ils peuvent réellement faire.