La recherche d’OpenAI sur les modèles d’intelligence artificielle (IA) a franchi une nouvelle étape avec le lancement d’un benchmark appelé GDPval, qui évalue les performances de ses modèles par rapport à celles de professionnels humains dans une large gamme d’industries et de métiers. Ce test constitue une première tentative pour comprendre à quel point les systèmes d’OpenAI sont proches de surpasser les humains dans des travaux à forte valeur économique, un objectif clé de la mission de l’entreprise pour développer l’intelligence artificielle générale (AGI).

##

Le fonctionnement du benchmark GDPval

Le benchmark GDPval est basé sur neuf industries qui contribuent le plus au produit intérieur brut (PIB) des États-Unis, notamment les domaines de la santé, de la finance, de la fabrication et du gouvernement. Le test évalue les performances d’un modèle d’IA dans 44 professions au sein de ces industries, allant des ingénieurs logiciels aux infirmières et aux journalistes. Pour la première version du test, GDPval-v0, OpenAI a demandé à des professionnels expérimentés de comparer des rapports générés par l’IA avec ceux produits par d’autres professionnels, puis de choisir le meilleur. Par exemple, une invite a demandé à des banquiers d’investissement de créer un paysage concurrentiel pour l’industrie de la livraison de dernier kilomètre et de le comparer à des rapports générés par l’IA.

##

Les résultats du benchmark GDPval

Les résultats du benchmark GDPval sont prometteurs, avec le modèle GPT-5 d’OpenAI qui a été classé comme meilleur ou égal aux experts de l’industrie dans 40,6 % des cas. Le modèle Claude Opus 4.1 d’Anthropic a obtenu un score encore plus élevé, avec 49 % de tâches où il a été classé comme meilleur ou égal aux experts de l’industrie. Cependant, il est important de noter que le benchmark GDPval ne teste que les rapports de recherche soumis par les professionnels à leurs supérieurs, ce qui ne représente qu’une partie limitée des tâches effectuées par les professionnels dans leur travail réel. OpenAI reconnaît cette limitation et prévoit de créer des tests plus robustes à l’avenir pour prendre en compte davantage d’industries et de flux de travail interactifs.

##

Les implications des résultats du benchmark GDPval

Les résultats du benchmark GDPval suggèrent que les professionnels dans ces métiers peuvent désormais utiliser les modèles d’IA pour passer plus de temps sur des tâches plus significatives. Selon le chef économiste d’OpenAI, Dr. Aaron Chatterji, les résultats de GDPval montrent que les modèles d’IA sont de plus en plus performants dans certaines tâches, ce qui permet aux professionnels de déléguer certaines de leurs tâches et de se concentrer sur des activités à plus forte valeur ajoutée. Les évaluations d’OpenAI conduites par Tejal Patwardhan montrent que le modèle GPT-4o a obtenu un score de 13,7 % il y a environ 15 mois, alors que le modèle GPT-5 obtient désormais un score presque triple, une tendance que Patwardhan s’attend à voir se poursuivre. Les benchmarks comme GDPval pourraient devenir de plus en plus importants pour mesurer les progrès de l’IA et évaluer si un modèle donné est à la pointe de la technologie. Cependant, OpenAI devra probablement développer une version plus complète du test pour affirmer de manière définitive que ses modèles d’IA peuvent surpasser les humains.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *