GPT-5 face aux experts humains : le test surprenant d’OpenAI qui change la donne

OpenAI a franchi une nouvelle étape dans sa quête d’intelligence artificielle générale (IAG).

L’entreprise a dévoilé un test inédit baptisé GDPval, conçu pour comparer la qualité du travail produit par ses modèles d’IA à celle de professionnels humains dans différents secteurs. Les résultats révèlent que GPT-5, mais aussi Claude Opus 4.1 d’Anthropic, obtiennent des performances proches, voire équivalentes, à celles d’experts dans plusieurs professions.

Un test centré sur l’économie réelle

GDPval se distingue des benchmarks classiques souvent centrés sur les mathématiques ou la recherche scientifique. Ce test s’intéresse directement à la valeur créée dans l’économie, en couvrant neuf secteurs qui contribuent fortement au PIB américain : santé, finance, industrie manufacturière ou encore secteur public.

Pour la première version, baptisée GDPval-v0, OpenAI a demandé à des professionnels de comparer des rapports rédigés par d’autres humains et par l’IA. Ces tâches concernaient 44 professions, allant des infirmiers aux ingénieurs logiciels, en passant par les journalistes.

Les résultats montrent que GPT-5-high, une version plus puissante de GPT-5, a été classé meilleur ou égal aux experts dans 40,6 % des cas. Claude Opus 4.1 obtient un score supérieur avec 49 %, un chiffre qu’OpenAI attribue en partie à la présentation visuelle de ses réponses, jugée plus agréable, même si le fond n’est pas toujours meilleur.

Comment la nouvelle version de GPT-5-Codex d’OpenAI transforme-t-elle l’efficacité des outils de codage IA ?

Des avancées spectaculaires mais encore incomplètes

OpenAI reconnaît que ce benchmark reste limité. Les métiers ne se résument pas à rédiger des rapports, et GDPval ne prend pas encore en compte des tâches interactives ou collaboratives. Cependant, la progression est frappante.
Il y a à peine 15 mois, GPT-4o n’avait obtenu que 13,7 % de résultats comparables à ceux d’humains. Aujourd’hui, GPT-5 triple quasiment ce score. Pour Tejal Patwardhan, responsable des évaluations, cette évolution est encourageante et montre que les modèles deviennent réellement utiles pour épauler les professionnels.

Aaron Chatterji, économiste en chef d’OpenAI, souligne que ces avancées ne doivent pas être perçues comme une menace immédiate pour l’emploi. Au contraire, elles ouvrent la voie à une collaboration entre humains et IA, où les modèles prennent en charge certaines tâches répétitives, permettant aux travailleurs de se concentrer sur des missions plus stratégiques et créatives.

OpenAI peut-elle redéfinir l’expérience utilisateur et l’avenir de ses modèles en repensant la personnalité de ChatGPT ?

Vers de nouveaux standards pour évaluer l’IA

Jusqu’à présent, la Silicon Valley utilisait surtout des tests académiques comme AIME 2025 en mathématiques ou GPQA Diamond en sciences. Mais ces benchmarks atteignent déjà des scores proches de la perfection, ce qui en limite la pertinence.

GDPval pourrait donc devenir un nouvel outil de référence. OpenAI prévoit de l’élargir à davantage de secteurs et de situations plus réalistes. Une étape indispensable si l’entreprise veut démontrer que ses modèles sont capables non seulement de rivaliser avec les humains, mais aussi de les aider concrètement dans leur quotidien professionnel.

GPT-5 face aux experts humains : le test surprenant d’OpenAI qui change la donne

Un test centré sur l’économie réelle

Des avancées spectaculaires mais encore incomplètes

Vers de nouveaux standards pour évaluer l’IA

Partager cet article

Actualités

Une petite nouveauté sur YouTube qui pourrait bien améliorer votre expérience plus que vous ne l’imaginez

Meta dévoile une nouvelle ère pour les ados sur Facebook et Messenger : voici ce qui change à l’échelle mondiale

Databricks fait un pari colossal sur OpenAI : un accord qui pourrait redéfinir l’avenir de l’IA en entreprise

Fini les abus et les fraudes ? Spotify prend une décision inattendue qui pourrait changer l’industrie musicale

Oracle prépare un mouvement financier massif… juste après un accord historique dans l’IA

LAISSER UN COMMENTAIRE Annuler la réponse