Alors que les performances de ses nouveaux modèles d’IA sont au centre de l’attention, Meta doit faire face à une rumeur persistante.
Celle-ci accuse l’entreprise d’avoir artificiellement gonflé les résultats de ses benchmarks pour ses modèles Llama 4 Maverick et Scout. Le vice-président de l’IA générative de Meta, Ahmad Al-Dahle, est monté au créneau pour défendre la transparence et l’intégrité de l’équipe.
Lire aussi :
- Krea va-t-elle devenir la plateforme incontournable pour les designers à l’ère de l’intelligence artificielle générative ?
- Meta manipule-t-elle les tests de performance de ses modèles d’IA pour devancer ses concurrents ?
Des rumeurs venues de Chine enflamment les réseaux
Tout est parti d’un post anonyme sur un réseau social chinois, affirmant que Meta aurait entraîné ses modèles sur les ensembles de test utilisés pour les évaluer, ce qui constitue une pratique largement décriée dans le monde de l’IA. Selon la rumeur, l’auteur du message aurait même quitté son poste chez Meta en signe de protestation.
Très vite, les soupçons ont gagné X (anciennement Twitter) et Reddit, où des chercheurs ont noté des différences marquées entre la version de Maverick disponible au téléchargement et celle utilisée sur le benchmark LM Arena. Cette dernière, qualifiée de « version expérimentale », aurait été optimisée pour produire de meilleurs résultats.
Threads peut-il surpasser X et devenir la principale plateforme de microblogging ?
Meta se défend : « Ce n’est tout simplement pas vrai »
Face à cette polémique, Ahmad Al-Dahle a publiquement démenti les accusations. Dans un post publié le lundi sur X, il affirme que ni Maverick ni Scout n’ont été entraînés sur des ensembles de test. Il précise que l’expérience utilisateur peut varier selon les fournisseurs de cloud où les modèles sont hébergés, et que des ajustements sont en cours pour corriger les éventuelles anomalies.
Meta assume également avoir lancé ses modèles dès qu’ils étaient prêts, ce qui peut expliquer les différences de qualité observées dans les premiers jours. La société promet de poursuivre l’optimisation des performances sur toutes les plateformes.
Une polémique révélatrice des enjeux de transparence
Cette affaire souligne à quel point les benchmarks sont devenus cruciaux pour juger de la puissance des modèles d’intelligence artificielle. Les résultats peuvent avoir un impact direct sur la réputation des entreprises, leur adoption par les développeurs et même leurs valorisations financières.
La moindre suspicion de tricherie peut nuire à la crédibilité d’un acteur comme Meta, déjà sous pression face à des concurrents comme OpenAI, Google ou Anthropic. Le débat sur la fiabilité des benchmarks n’est pas nouveau, mais cette polémique relance les appels à plus de transparence dans l’évaluation et la publication des résultats.