Agents & outils

GDPval-AA

GDPval-AA est une variante indépendante du benchmark GDPval d’OpenAI, exécutée par Artificial Analysis pour évaluer des modèles d’IA sur des tâches de travail intellectuel à valeur économique réelle. Le test se concentre sur des productions professionnelles ouvertes, proches de livrables…

Son rôle est de compléter les benchmarks académiques par une mesure plus orientée usage professionnel. Le classement repose sur des comparaisons aveugles par paires, converties en score Elo, afin d’estimer quels modèles produisent les résultats les plus utiles dans ce cadre.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI (benchmark GDPval) ; variante GDPval-AA executee independamment par Artificial Analysis
Capacités mesurées	Travail intellectuel a valeur economique reelle sur 44 metiers couvrant 9 secteurs (finance, sante, juridique, etc.)
Modalité	Texte
Type de questions	taches professionnelles ouvertes (production de documents, slides, diagrammes, tableurs)
Métrique d'évaluation	classement Elo derive de comparaisons aveugles par paires jugees par un LLM
Accès	Public
Licence	propriétaire
Langues	anglais
Taille du jeu	220 taches (sous-ensemble GDPval gold ; 1 320 taches au total)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	1 815	9 juin 2026	n.d.
2	Claude Opus 4.8	Anthropic	1 638	28 mai 2026	n.d.
3	Claude Opus 4.6	Anthropic	1 606	7 avril 2026	Auto-déclaré
4	Claude Opus 4.7	Anthropic	1 542	12 mai 2026	n.d.
5	MiniMax M3	MiniMax	1 431	1 juin 2026	n.d.
6	GPT-5.4	OpenAI	1 429	5 mars 2026	n.d.
7	MiMo-V2-Pro	Xiaomi	1 426	18 mars 2026	Auto-déclaré
8	Claude Sonnet 4.6	Anthropic	1 417	17 février 2026	n.d.
9	MiMo-V2-Omni	Xiaomi	1 410	18 mars 2026	Auto-déclaré
10	Gemini 3.5 Flash	Google	1 370	19 mai 2026	n.d.
11	DeepSeek-V4-Pro-Max	DeepSeek	1 332	23 avril 2026	n.d.
12	Qwen3.7 Max	Qwen	1 308	19 mai 2026	n.d.
13	MiMo-V2.5-Pro	Xiaomi	1 286	27 avril 2026	n.d.
14	GLM-5.1	Zhipu AI	1 281	7 avril 2026	n.d.
15	DeepSeek-V4-Flash-Max	DeepSeek	1 203	23 avril 2026	n.d.
16	Kimi K2.6	Moonshot AI	1 202	20 avril 2026	n.d.
17	GPT-5.4 mini	OpenAI	1 190	17 mars 2026	n.d.
18	Nemotron 3 Ultra (550B A55B)	NVIDIA	1 183	4 juin 2026	n.d.
19	MiniMax M2.7	MiniMax	1 178	18 mars 2026	n.d.
20	Muse Spark	Meta	1 164	8 avril 2026	n.d.

Classement établi sur 33 modèles évalués, dont 26 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GDPval-AA indique qu’un modèle est plus souvent préféré lors de comparaisons aveugles sur des tâches professionnelles ouvertes, incluant des documents, slides, diagrammes ou tableurs. Le classement met donc en avant une capacité à produire des livrables jugés utiles dans des contextes économiques réels, plutôt qu’une simple réussite à des questions fermées. Dans la base observée, Claude Fable 5 d’Anthropic occupe la première place avec 60 %, au-dessus d’un score médian de 40 %, ce qui suggère encore une marge de progression importante pour l’ensemble des modèles évalués.

La rigueur du protocole tient à l’exécution indépendante par Artificial Analysis et aux comparaisons aveugles, mais l’interprétation reste encadrée par plusieurs limites. Les jugements sont effectués par un LLM, la variante ne couvre qu’un sous-ensemble de tâches, et le périmètre est limité à l’anglais. La fiabilité pratique des résultats dépend aussi du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le benchmark paraît peu saturé à ce stade, mais sa portée reste celle de tâches professionnelles simulées et d’un classement relatif, non d’une mesure exhaustive de performance en entreprise.

Sources des scores : llm-stats.

GDPval-AA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23