Meta a récemment dévoilé ses nouveaux modèles d’intelligence artificielle de la gamme Llama 4, dont Maverick, présenté comme un assistant conversationnel performant.
Cependant, une polémique commence à enfler autour des résultats de benchmark annoncés par l’entreprise, en particulier sur la plateforme LM Arena, où Maverick se classe en deuxième position. Le problème ? La version testée sur cette plateforme serait différente de celle réellement accessible au public.
Lire aussi :
- Meta dévoile Llama 4 : des modèles d’IA plus ouverts, plus puissants et prêts à concurrencer les géants
- Midjourney V7 : un nouveau modèle d’IA qui repousse les limites de la génération d’images
Une version optimisée pour les tests, mais pas pour les développeurs
Sur le site officiel de Llama, Meta indique que la version de Maverick soumise à LM Arena est une variante “optimisée pour la conversation”. De même, dans son annonce officielle, Meta évoque une version “expérimentale” utilisée spécifiquement pour ces tests. Plusieurs chercheurs en IA ont relevé sur X (anciennement Twitter) que cette version serait bien plus performante que celle disponible en téléchargement ou via les partenaires de Meta.
Cette différence soulève une question cruciale : peut-on se fier aux benchmarks fournis par les géants de l’IA ? En l’état, les développeurs peuvent être induits en erreur, pensant intégrer un modèle puissant alors que la version publique pourrait se comporter très différemment en conditions réelles.
Meta tente de censurer le livre Careless People, mais l’effet Streisand joue en sa défaveur
Des écarts flagrants dans les performances constatées
Les chercheurs qui ont comparé les deux variantes de Maverick notent des divergences notables dans leur comportement. La version testée sur LM Arena utilise davantage d’émojis, offre des réponses plus longues et nuancées, et semble davantage optimisée pour plaire à un public humain de testeurs.
Ces observations relancent le débat sur l’honnêteté des benchmarks dans le domaine de l’IA. Jusqu’à présent, la plupart des entreprises proposaient un seul et même modèle à la fois pour les tests et pour le public, garantissant ainsi une cohérence. La stratégie de Meta pourrait donc être perçue comme une tentative de gonfler artificiellement ses résultats.
Une confiance fragilisée dans les évaluations des modèles IA
Cette affaire met en lumière un enjeu fondamental dans le développement de l’IA : la transparence. Les benchmarks comme LM Arena, bien qu’imparfaits, servent à orienter les choix des développeurs, chercheurs et entreprises. Si les modèles testés ne sont pas identiques aux modèles déployés, ces tests perdent leur valeur comparative.
Meta n’a pas encore répondu officiellement aux demandes de clarification concernant cette différence de version. LM Arena, la plateforme qui héberge les évaluations communautaires des modèles IA, n’a pas non plus émis de commentaire à l’heure actuelle.
Claude débarque à l’université : Anthropic lance un plan d’abonnement pour l’enseignement supérieur
Alors que la concurrence entre OpenAI, Anthropic, Google et Meta s’intensifie, cette controverse rappelle qu’au-delà de la course à la performance, l’intégrité des méthodes de test reste essentielle pour la crédibilité du secteur.