Les plateformes d’évaluation d’IA comme Chatbot Arena se sont rapidement imposées comme des outils incontournables pour tester les capacités des modèles d’intelligence artificielle.
Toutefois, des experts pointent les limites de ces systèmes, notamment en ce qui concerne leur validité et leurs biais potentiels, notamment d’un point de vue éthique et académique.
Lire aussi :
- Zuckerberg et la cannibalisation d’Instagram : Faut-il séparer Facebook et Instagram pour préserver leur croissance ?
- ChatGPT Search en forte croissance en Europe : une alternative viable aux moteurs de recherche traditionnels ?
Une évaluation qui manque de rigueur
Les chercheurs et laboratoires d’IA, comme OpenAI, Meta et Google, ont de plus en plus recours au crowdsourcing pour évaluer leurs modèles, en demandant aux utilisateurs de comparer les réponses de deux modèles anonymes et de choisir celle qu’ils préfèrent. Emily Bender, professeure de linguistique à l’Université de Washington, critique cette méthode, estimant qu’un bon benchmark doit mesurer des éléments spécifiques et valides. Selon elle, le fait de voter pour une réponse au lieu d’une autre ne garantit pas que la préférence de l’utilisateur soit réellement fondée sur des critères objectifs ou une évaluation technique rigoureuse.
L’exploitation des bénévoles : un problème éthique ?
Un autre point soulevé par les experts, comme Asmelash Teka Hadgu et Kristine Gloria, concerne l’absence de rémunération pour les bénévoles impliqués dans ces processus de crowdsourcing. Selon eux, bien que ces plateformes puissent rappeler des initiatives de science citoyenne, elles posent un problème éthique si les participants ne sont pas rémunérés pour leur travail. Ces experts suggèrent que les modèles d’IA devraient être évalués par des professionnels qui possèdent une expertise dans des domaines spécifiques, tels que la santé ou l’éducation, pour garantir une analyse plus précise et pertinente.
Des résultats à interpréter avec prudence
Bien que les plateformes comme Chatbot Arena permettent une évaluation rapide des modèles, elles manquent souvent de transparence. Matt Fredrikson, CEO de Gray Swan AI, et d’autres experts soulignent que ces benchmarks publics, bien qu’utiles pour une première analyse, ne sont pas suffisants pour évaluer correctement un modèle d’IA. Selon eux, des tests internes sont nécessaires pour obtenir des résultats plus fiables et détaillés. La récente controverse autour du modèle Maverick de Meta en est un exemple, montrant comment une mauvaise interprétation des politiques de test peut conduire à des erreurs d’évaluation.
Repenser les benchmarks d’IA
Les experts s’accordent à dire que si le crowdsourcing offre une opportunité d’obtenir des retours rapides sur les modèles d’IA, il présente également des limites importantes. Les biais, le manque de rémunération pour les participants et l’absence de transparence des résultats posent des questions sur la validité de ces évaluations. À mesure que l’industrie de l’IA se développe, il devient essentiel de revoir les méthodes d’évaluation pour garantir des tests plus fiables, éthiques et objectifs, réalisés par des professionnels et des experts du domaine.