GDPval-AA

GDPval-AA est une variante indépendante du benchmark GDPval d’OpenAI, exécutée par Artificial Analysis pour évaluer des modèles d’IA sur des tâches de travail intellectuel à valeur économique réelle. Le test se concentre sur des productions professionnelles ouvertes, proches de livrables…

GDPval-AA est une variante indépendante du benchmark GDPval d’OpenAI, exécutée par Artificial Analysis pour évaluer des modèles d’IA sur des tâches de travail intellectuel à valeur économique réelle. Le test se concentre sur des productions professionnelles ouvertes, proches de livrables attendus dans des métiers comme la finance, la santé ou le juridique.

Son rôle est de compléter les benchmarks académiques par une mesure plus orientée usage professionnel. Le classement repose sur des comparaisons aveugles par paires, converties en score Elo, afin d’estimer quels modèles produisent les résultats les plus utiles dans ce cadre.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI (benchmark GDPval) ; variante GDPval-AA executee independamment par Artificial Analysis
Capacités mesuréesTravail intellectuel a valeur economique reelle sur 44 metiers couvrant 9 secteurs (finance, sante, juridique, etc.)
ModalitéTexte
Type de questionstaches professionnelles ouvertes (production de documents, slides, diagrammes, tableurs)
Métrique d'évaluationclassement Elo derive de comparaisons aveugles par paires jugees par un LLM
AccèsPublic
Licencepropriétaire
Languesanglais
Taille du jeu220 taches (sous-ensemble GDPval gold ; 1 320 taches au total)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic1 8159 juin 2026n.d.
2Claude Opus 4.8Anthropic1 63828 mai 2026n.d.
3Claude Opus 4.6Anthropic1 6067 avril 2026Auto-déclaré
4Claude Opus 4.7Anthropic1 54212 mai 2026n.d.
5MiniMax M3MiniMax1 4311 juin 2026n.d.
6GPT-5.4OpenAI1 4295 mars 2026n.d.
7MiMo-V2-ProXiaomi1 42618 mars 2026Auto-déclaré
8Claude Sonnet 4.6Anthropic1 41717 février 2026n.d.
9MiMo-V2-OmniXiaomi1 41018 mars 2026Auto-déclaré
10Gemini 3.5 FlashGoogle1 37019 mai 2026n.d.
11DeepSeek-V4-Pro-MaxDeepSeek1 33223 avril 2026n.d.
12Qwen3.7 MaxQwen1 30819 mai 2026n.d.
13MiMo-V2.5-ProXiaomi1 28627 avril 2026n.d.
14GLM-5.1Zhipu AI1 2817 avril 2026n.d.
15DeepSeek-V4-Flash-MaxDeepSeek1 20323 avril 2026n.d.
16Kimi K2.6Moonshot AI1 20220 avril 2026n.d.
17GPT-5.4 miniOpenAI1 19017 mars 2026n.d.
18Nemotron 3 Ultra (550B A55B)NVIDIA1 1834 juin 2026n.d.
19MiniMax M2.7MiniMax1 17818 mars 2026n.d.
20Muse SparkMeta1 1648 avril 2026n.d.

Classement établi sur 33 modèles évalués, dont 26 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GDPval-AA indique qu’un modèle est plus souvent préféré lors de comparaisons aveugles sur des tâches professionnelles ouvertes, incluant des documents, slides, diagrammes ou tableurs. Le classement met donc en avant une capacité à produire des livrables jugés utiles dans des contextes économiques réels, plutôt qu’une simple réussite à des questions fermées. Dans la base observée, Claude Fable 5 d’Anthropic occupe la première place avec 60 %, au-dessus d’un score médian de 40 %, ce qui suggère encore une marge de progression importante pour l’ensemble des modèles évalués.

La rigueur du protocole tient à l’exécution indépendante par Artificial Analysis et aux comparaisons aveugles, mais l’interprétation reste encadrée par plusieurs limites. Les jugements sont effectués par un LLM, la variante ne couvre qu’un sous-ensemble de tâches, et le périmètre est limité à l’anglais. La fiabilité pratique des résultats dépend aussi du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le benchmark paraît peu saturé à ce stade, mais sa portée reste celle de tâches professionnelles simulées et d’un classement relatif, non d’une mesure exhaustive de performance en entreprise.


Sources des scores : llm-stats.