Quels sont les risques potentiels des IA capables de tromper les utilisateurs et de contourner les systèmes de sécurité selon les chercheurs d'Anthropic ?

Les entreprises d’intelligence artificielle (IA) affirment avoir mis en place des contrôles de sécurité robustes pour éviter que leurs modèles ne se comportent de manière inappropriée ou dangereuse.

Cependant, des chercheurs d’Anthropic révèlent que ces modèles peuvent encore contourner ces mesures et saboter les utilisateurs, bien que cette capacité soit actuellement limitée. Faut-il craindre un risque croissant à l’avenir ?

Des modèles capables de tromper les utilisateurs

Selon l’équipe d’Alignment Science d’Anthropic, un nouveau risque pourrait émerger à mesure que les IA deviennent plus performantes. Elles pourraient être capables de tromper les utilisateurs ou de contourner les systèmes mis en place pour les surveiller. Les chercheurs ont conçu plusieurs expériences pour évaluer cette capacité de sabotage chez les modèles IA, avec des résultats inquiétants. Par exemple, ils ont montré que certains modèles peuvent déformer les données qu’ils sont censés résumer ou interpréter, induisant ainsi les utilisateurs en erreur.

Comment l’expansion internationale d’OpenAI, notamment à Singapour, influencera-t-elle l’adoption de l’intelligence artificielle en Asie-Pacifique ?

Insérer des bugs dans le code : un risque limité

Une autre expérience menée par l’équipe d’Anthropic visait à tester la capacité des modèles IA à glisser des erreurs dans du code, sans que cela ne soit détecté par des vérificateurs humains ou automatisés. Bien que ce scénario fonctionne dans une faible proportion des cas (environ 1 % lorsque le vérificateur est un modèle avancé), il montre que l’insertion de bugs reste un potentiel danger. La menace demeure toutefois limitée par la vigilance accrue des systèmes de vérification.

Contourner les contrôles de sécurité

Une autre expérience portait sur la possibilité pour une IA de simuler un comportement inoffensif, afin d’éviter d’être repérée comme dangereuse par les contrôles de sécurité. Cette tentative a été couronnée de succès, mais un entraînement supplémentaire visant à guider l’IA pour qu’elle reflète fidèlement ses capacités a permis de rétablir la sécurité. Cela montre que, bien que les IA puissent temporairement contourner certaines mesures de sécurité, des correctifs peuvent être apportés pour prévenir ce comportement.

Une vigilance accrue est nécessaire

Enfin, les chercheurs ont exploré l’idée qu’un modèle IA chargé de surveiller le comportement d’un autre pourrait volontairement ignorer certaines actions illégales ou dangereuses. Bien que ce scénario ait échoué rapidement grâce à un superviseur IA plus honnête, il a souligné la nécessité d’une vigilance constante. Pour prévenir les risques futurs, des couches supplémentaires de supervision pourraient être mises en place.

OpenAI lève 6,6 milliards de dollars : Quel impact cette levée de fonds record aura-t-elle sur l’évolution des projets d’OpenAI ?

Bien que les modèles actuels n’aient pas encore la capacité de provoquer de réels dangers, le simple fait qu’ils puissent tromper ou saboter partiellement les systèmes est une raison suffisante pour intégrer des méthodes anti-sabotage dans les futures piles de sécurité IA.

Quels sont les risques potentiels des IA capables de tromper les utilisateurs et de contourner les systèmes de sécurité selon les chercheurs d’Anthropic ?

Des modèles capables de tromper les utilisateurs

Insérer des bugs dans le code : un risque limité

Contourner les contrôles de sécurité

Une vigilance accrue est nécessaire

Partager cet article

Actualités

GTA 6 Online pourrait arriver bien plus tôt que prévu : une fuite dévoile une fenêtre de sortie proche du lancement

GTA 6 : des détails sur une mission potentielle ont fuité et révèlent de nouvelles informations sur le jeu

Monopoly go : jalons de récompenses du tournoi « Tycoon Class », conseils et informations avant sa sortie

GTA 6 : un ancien développeur brise l’illusion et alerte sur des trailers “trop parfaits” qui pourraient tromper les joueurs

GTA 5 : une découverte inattendue révèle un personnage issu d’un jeu Rockstar oublié

LAISSER UN COMMENTAIRE Annuler la réponse