OpenAI a franchi une nouvelle étape dans sa quête d’intelligence artificielle générale (IAG).
L’entreprise a dévoilé un test inédit baptisé GDPval, conçu pour comparer la qualité du travail produit par ses modèles d’IA à celle de professionnels humains dans différents secteurs. Les résultats révèlent que GPT-5, mais aussi Claude Opus 4.1 d’Anthropic, obtiennent des performances proches, voire équivalentes, à celles d’experts dans plusieurs professions.
Lire aussi :
- OpenAI et Oracle : ce contrat de 300 milliards $ peut-il redéfinir l’avenir du cloud et de l’intelligence artificielle ?
- La FTC ouvre une enquête sur les chatbots compagnons d’IA de Meta, OpenAI et d’autres acteurs
Un test centré sur l’économie réelle
GDPval se distingue des benchmarks classiques souvent centrés sur les mathématiques ou la recherche scientifique. Ce test s’intéresse directement à la valeur créée dans l’économie, en couvrant neuf secteurs qui contribuent fortement au PIB américain : santé, finance, industrie manufacturière ou encore secteur public.
Pour la première version, baptisée GDPval-v0, OpenAI a demandé à des professionnels de comparer des rapports rédigés par d’autres humains et par l’IA. Ces tâches concernaient 44 professions, allant des infirmiers aux ingénieurs logiciels, en passant par les journalistes.
Les résultats montrent que GPT-5-high, une version plus puissante de GPT-5, a été classé meilleur ou égal aux experts dans 40,6 % des cas. Claude Opus 4.1 obtient un score supérieur avec 49 %, un chiffre qu’OpenAI attribue en partie à la présentation visuelle de ses réponses, jugée plus agréable, même si le fond n’est pas toujours meilleur.
Des avancées spectaculaires mais encore incomplètes
OpenAI reconnaît que ce benchmark reste limité. Les métiers ne se résument pas à rédiger des rapports, et GDPval ne prend pas encore en compte des tâches interactives ou collaboratives. Cependant, la progression est frappante.
Il y a à peine 15 mois, GPT-4o n’avait obtenu que 13,7 % de résultats comparables à ceux d’humains. Aujourd’hui, GPT-5 triple quasiment ce score. Pour Tejal Patwardhan, responsable des évaluations, cette évolution est encourageante et montre que les modèles deviennent réellement utiles pour épauler les professionnels.
Aaron Chatterji, économiste en chef d’OpenAI, souligne que ces avancées ne doivent pas être perçues comme une menace immédiate pour l’emploi. Au contraire, elles ouvrent la voie à une collaboration entre humains et IA, où les modèles prennent en charge certaines tâches répétitives, permettant aux travailleurs de se concentrer sur des missions plus stratégiques et créatives.
Vers de nouveaux standards pour évaluer l’IA
Jusqu’à présent, la Silicon Valley utilisait surtout des tests académiques comme AIME 2025 en mathématiques ou GPQA Diamond en sciences. Mais ces benchmarks atteignent déjà des scores proches de la perfection, ce qui en limite la pertinence.
GDPval pourrait donc devenir un nouvel outil de référence. OpenAI prévoit de l’élargir à davantage de secteurs et de situations plus réalistes. Une étape indispensable si l’entreprise veut démontrer que ses modèles sont capables non seulement de rivaliser avec les humains, mais aussi de les aider concrètement dans leur quotidien professionnel.