Les débats autour des benchmarks d’IA ont pris une tournure surprenante, et Pokémon, un jeu vidéo iconique, se retrouve au cœur de cette polémique.
Si l’évaluation des performances des modèles d’intelligence artificielle à travers des jeux vidéo semblait inédite, elle soulève désormais des questions cruciales sur la fiabilité des tests utilisés pour mesurer les capacités des IA.
Lire aussi :
- Comment la nouvelle fonctionnalité de génération de questions IA de Google peut-elle améliorer l’efficacité des enseignants dans la préparation des évaluations ?
- Comment la production de puces AI par Nvidia aux États-Unis pourrait-elle influencer l’avenir de l’industrie technologique et des data centers ?
Gemini vs Claude : Une course sur Pokémon
Le mois dernier, un post sur X (anciennement Twitter) a provoqué un véritable raz-de-marée en annonçant que le modèle d’IA Gemini de Google avait surpassé l’IA Claude d’Anthropic dans la trilogie originale de Pokémon. Selon la publication, Gemini aurait atteint Lavender Town, tandis que Claude était encore bloqué à Mont Lune. Toutefois, un détail important a été négligé dans ce post : l’ajout d’une minimap personnalisée par le développeur du stream. Cette carte permettait au modèle Gemini d’identifier plus facilement certains éléments du jeu, comme les arbres coupables, ce qui facilitait ses progrès. Cette modification a donc offert un avantage évident à Gemini.
Bluesky : Tout savoir sur l’alternative à X qui fait de l’ombre à Twitter
Les personnalisation des benchmarks : un biais dans l’évaluation
L’incident met en lumière la manière dont les benchmarks peuvent être biaisés en fonction des personnalisations des tests. Si Pokémon peut sembler anecdotique, il représente un exemple flagrant des difficultés rencontrées lors de l’évaluation des IA. D’autres exemples existent dans le domaine des benchmarks pour l’IA de programmation. Par exemple, le modèle d’Anthropic, Claude 3.7 Sonnet, a obtenu deux scores différents sur le benchmark SWE-bench Verified, selon qu’il avait ou non été optimisé avec un « scaffold » personnalisé. Ces pratiques montrent comment des ajustements externes peuvent fausser les comparaisons entre les différents modèles d’intelligence artificielle, ce qui soulève des interrogations sur la véritable efficacité des tests actuels.
Une remise en question des benchmarks d’IA traditionnels
Le cas de Pokémon met en évidence un problème plus large : la fiabilité des benchmarks utilisés pour mesurer les capacités des IA. Si des modifications externes influencent les résultats, il devient de plus en plus difficile d’avoir une vision claire et objective des performances réelles des modèles. Les tests de code, par exemple, peuvent également être manipulés pour obtenir des résultats optimisés, ce qui remet en question leur utilité. Les IA doivent-elles être évaluées sur des critères standardisés, ou ces tests doivent-ils évoluer pour prendre en compte des spécificités plus nuancées ?
Comment le bouton Grok pourrait-il transformer l’expérience des utilisateurs sur X ?
De nouveaux standards à définir
À mesure que les IA deviennent de plus en plus avancées, la question des benchmarks devient cruciale. Les tests doivent être adaptés pour refléter les véritables capacités des IA sans être faussés par des personnalisations qui rendent les comparaisons plus complexes. L’avenir des benchmarks d’IA pourrait nécessiter la mise en place de nouvelles normes, garantissant à la fois l’objectivité des évaluations et la reconnaissance des innovations techniques apportées par chaque modèle.