Depuis que Satya Nadella, PDG de Microsoft, a évoqué l’idée que l’IA remplacerait bientôt les emplois des travailleurs du savoir, l’attente autour des capacités des IA dans le domaine professionnel n’a cessé de croître.
Cependant, malgré les avancées majeures réalisées avec les modèles d’IA fondamentaux, les travailleurs du savoir (avocats, banquiers, comptables, etc.) semblent encore relativement épargnés par cette révolution numérique. Un nouveau benchmark, APEX-Agents, vient d’être mis en place pour évaluer la performance des IA dans des scénarios réels de travail, et les résultats montrent que, pour l’instant, les IA ne sont pas prêtes à prendre le relais.
Lire aussi :
- Comment Netflix compte-t-il concurrencer TikTok et Instagram avec sa nouvelle application mobile ?
- Comment ChatGPT protège-t-il les jeunes utilisateurs grâce à la prédiction de l’âge ?
Le défi des IA face aux tâches professionnelles complexes
Le benchmark APEX-Agents créé par Mercor a soumis des modèles d’IA de pointe à des tâches professionnelles complexes dans des domaines comme le droit, la banque d’investissement et la consultation. Ces tâches exigeaient des réponses nuancées et la capacité à naviguer à travers plusieurs domaines, comme Slack ou Google Drive, pour résoudre des problèmes. Cependant, les résultats sont loin de satisfaire les attentes. La majorité des IA testées n’ont réussi qu’à répondre correctement à environ 24% des questions, ce qui n’est guère suffisant pour envisager un remplacement immédiat des emplois dans ces secteurs.
L’incapacité des IA à gérer la recherche multi-domaines
Les difficultés majeures des IA dans ce contexte sont liées à leur capacité à effectuer des recherches à travers plusieurs domaines. Le manque de raisonnement multi-domaines rend les IA inefficaces lorsqu’il s’agit de traiter des informations provenant de sources variées. Même les meilleurs modèles, comme Gemini 3 Flash et GPT-5, n’ont pas réussi à atteindre un taux de réussite satisfaisant. Dans des scénarios complexes, les IA ont souvent produit des réponses incorrectes ou aucune réponse du tout, ce qui soulève des questions sur leur capacité à effectuer des tâches à long terme dans des secteurs clés.
Pourquoi Google a-t-il retiré ses AI Overviews pour certaines requêtes médicales sensibles ?
Une compétition acharnée et des attentes croissantes
Bien que les résultats actuels montrent que les IA sont loin de remplacer des travailleurs humains dans des tâches de haute valeur, Mercor est optimiste. Brendan Foody, PDG de Mercor, note que l’amélioration des IA est rapide, et que ce qui semblait impossible l’année dernière devient réalisable cette année. La compétition dans le domaine de l’IA est féroce, et plusieurs laboratoires d’IA s’efforcent déjà de repousser les limites du benchmark APEX-Agents. Les investissements dans l’IA se multiplient, et les prochaines années pourraient bien marquer un tournant où les IA seront capables de rivaliser, voire de surpasser les travailleurs du savoir dans certains domaines.

