Comment Anthropic prévoit-il de surmonter les limites des benchmarks actuels pour évaluer les capacités avancées de l'IA ?

Anthropic a récemment dévoilé un programme ambitieux destiné à financer le développement de nouveaux benchmarks pour évaluer les capacités des modèles d’intelligence artificielle.

Ce programme vise à mesurer efficacement les capacités avancées des modèles d’IA, y compris les modèles génératifs comme Claude, développé par Anthropic. Les organisations intéressées peuvent soumettre leurs propositions, qui seront examinées de manière continue.

Les défis des benchmarks actuels et la solution proposée par Anthropic

Le principal problème des benchmarks actuels est qu’ils ne reflètent pas toujours la manière dont les utilisateurs moyens utilisent les systèmes testés. De plus, certains benchmarks, particulièrement ceux publiés avant l’avènement de l’IA générative moderne, ne mesurent pas nécessairement ce qu’ils prétendent mesurer en raison de leur ancienneté.

Anthropic propose de créer des benchmarks plus difficiles avec un accent sur la sécurité de l’IA et les implications sociétales. Ces tests incluraient l’évaluation de la capacité d’un modèle à accomplir des tâches telles que la réalisation de cyberattaques, l’amélioration des armes de destruction massive et la manipulation ou la tromperie des gens, par exemple par des deepfakes ou de la désinformation.

Pour les risques liés à la sécurité nationale et à la défense, Anthropic s’engage à développer un système d’alerte précoce pour identifier et évaluer ces risques, bien que les détails de ce système ne soient pas encore précisés.

Comment l’acquisition de Multi par OpenAI va-t-elle améliorer les outils de collaboration à distance pour les entreprises utilisant ChatGPT ?

Soutenir la recherche et développer de nouvelles plateformes d’évaluation

Le programme d’Anthropic vise également à soutenir la recherche sur les benchmarks et les tâches de bout en bout qui explorent le potentiel de l’IA pour aider dans l’étude scientifique, la conversation multilingue et la réduction des biais intégrés, ainsi que l’autocensure de la toxicité.

Anthropic envisage de nouvelles plateformes permettant aux experts de développer leurs propres évaluations et des essais à grande échelle impliquant des milliers d’utilisateurs. Pour réaliser ces objectifs, la société a embauché un coordinateur à temps plein pour le programme et pourrait acquérir ou étendre des projets ayant un potentiel de mise à l’échelle.

Des ambitions louables mais des défis de confiance

Bien que l’effort d’Anthropic pour soutenir de nouveaux benchmarks d’IA soit louable, il pourrait être difficile à totalement approuver en raison des ambitions commerciales de la société dans la course à l’IA. Anthropic souhaite que certaines évaluations qu’elle finance s’alignent sur les classifications de sécurité de l’IA qu’elle a développées. Cela pourrait forcer les candidats au programme à accepter des définitions de l’IA sûre ou risquée avec lesquelles ils pourraient ne pas être d’accord.

Comment l’expansion d’Anthropic en Europe et ses récentes levées de fonds vont-elles influencer sa position sur le marché de l’intelligence artificielle générative ?

Bref, Anthropic espère que son programme servira de catalyseur pour des progrès vers un avenir où l’évaluation complète de l’IA est une norme industrielle. Bien que cette mission soit partagée par de nombreux efforts ouverts et indépendants des entreprises, il reste à voir si ces efforts accepteront de s’associer avec un fournisseur d’IA dont la loyauté ultime est envers ses actionnaires.

Comment Anthropic prévoit-il de surmonter les limites des benchmarks actuels pour évaluer les capacités avancées de l’IA ?

Les défis des benchmarks actuels et la solution proposée par Anthropic

Soutenir la recherche et développer de nouvelles plateformes d’évaluation

Des ambitions louables mais des défis de confiance

Partager cet article

Actualités

GTA 6 Online pourrait arriver bien plus tôt que prévu : une fuite dévoile une fenêtre de sortie proche du lancement

GTA 6 : des détails sur une mission potentielle ont fuité et révèlent de nouvelles informations sur le jeu

Monopoly go : jalons de récompenses du tournoi « Tycoon Class », conseils et informations avant sa sortie

GTA 6 : un ancien développeur brise l’illusion et alerte sur des trailers “trop parfaits” qui pourraient tromper les joueurs

GTA 5 : une découverte inattendue révèle un personnage issu d’un jeu Rockstar oublié

LAISSER UN COMMENTAIRE Annuler la réponse