Les agents IA sont-ils prêts pour le lieu de travail ? Un nouveau benchmark soulève des doutes sur leur efficacité dans les tâches professionnelles

Depuis que Satya Nadella, PDG de Microsoft, a évoqué l’idée que l’IA remplacerait bientôt les emplois des travailleurs du savoir, l’attente autour des capacités des IA dans le domaine professionnel n’a cessé de croître.

Cependant, malgré les avancées majeures réalisées avec les modèles d’IA fondamentaux, les travailleurs du savoir (avocats, banquiers, comptables, etc.) semblent encore relativement épargnés par cette révolution numérique. Un nouveau benchmark, APEX-Agents, vient d’être mis en place pour évaluer la performance des IA dans des scénarios réels de travail, et les résultats montrent que, pour l’instant, les IA ne sont pas prêtes à prendre le relais.

Le défi des IA face aux tâches professionnelles complexes

Le benchmark APEX-Agents créé par Mercor a soumis des modèles d’IA de pointe à des tâches professionnelles complexes dans des domaines comme le droit, la banque d’investissement et la consultation. Ces tâches exigeaient des réponses nuancées et la capacité à naviguer à travers plusieurs domaines, comme Slack ou Google Drive, pour résoudre des problèmes. Cependant, les résultats sont loin de satisfaire les attentes. La majorité des IA testées n’ont réussi qu’à répondre correctement à environ 24% des questions, ce qui n’est guère suffisant pour envisager un remplacement immédiat des emplois dans ces secteurs.

Pourquoi les sénateurs américains exigent-ils des réponses de X, Meta et Google sur les deepfakes sexuels ?

L’incapacité des IA à gérer la recherche multi-domaines

Les difficultés majeures des IA dans ce contexte sont liées à leur capacité à effectuer des recherches à travers plusieurs domaines. Le manque de raisonnement multi-domaines rend les IA inefficaces lorsqu’il s’agit de traiter des informations provenant de sources variées. Même les meilleurs modèles, comme Gemini 3 Flash et GPT-5, n’ont pas réussi à atteindre un taux de réussite satisfaisant. Dans des scénarios complexes, les IA ont souvent produit des réponses incorrectes ou aucune réponse du tout, ce qui soulève des questions sur leur capacité à effectuer des tâches à long terme dans des secteurs clés.

Pourquoi Google a-t-il retiré ses AI Overviews pour certaines requêtes médicales sensibles ?

Une compétition acharnée et des attentes croissantes

Bien que les résultats actuels montrent que les IA sont loin de remplacer des travailleurs humains dans des tâches de haute valeur, Mercor est optimiste. Brendan Foody, PDG de Mercor, note que l’amélioration des IA est rapide, et que ce qui semblait impossible l’année dernière devient réalisable cette année. La compétition dans le domaine de l’IA est féroce, et plusieurs laboratoires d’IA s’efforcent déjà de repousser les limites du benchmark APEX-Agents. Les investissements dans l’IA se multiplient, et les prochaines années pourraient bien marquer un tournant où les IA seront capables de rivaliser, voire de surpasser les travailleurs du savoir dans certains domaines.

Les agents IA sont-ils prêts pour le lieu de travail ? Un nouveau benchmark soulève des doutes sur leur efficacité dans les tâches professionnelles

Le défi des IA face aux tâches professionnelles complexes

L’incapacité des IA à gérer la recherche multi-domaines

Une compétition acharnée et des attentes croissantes

Partager cet article

Actualités

Les licenciements attribués à l’IA sont-ils une vraie révolution technologique ou un simple prétexte économique ?

Pokémon Legends: Z-A s’impose comme l’épisode le plus inclusif de la saga

Pourquoi le jeu gratuit Epic Games Store du 5 février 2026 rappelle autant Blue Prince ?

Ashes of Creation va-t-il fermer prématurément après son lancement en accès anticipé sur Steam ?

PS5 : Sony va-t-il remplacer PlayStation Stars par des crédits PlayStation Wallet gratuits ?

LAISSER UN COMMENTAIRE Annuler la réponse