GDPval-AA
GDPval-AA est une variante indépendante du benchmark GDPval d’OpenAI, exécutée par Artificial Analysis pour évaluer des modèles d’IA sur des tâches de travail intellectuel à valeur économique réelle. Le test se concentre sur des productions professionnelles ouvertes, proches de livrables…
GDPval-AA est une variante indépendante du benchmark GDPval d’OpenAI, exécutée par Artificial Analysis pour évaluer des modèles d’IA sur des tâches de travail intellectuel à valeur économique réelle. Le test se concentre sur des productions professionnelles ouvertes, proches de livrables attendus dans des métiers comme la finance, la santé ou le juridique.
Son rôle est de compléter les benchmarks académiques par une mesure plus orientée usage professionnel. Le classement repose sur des comparaisons aveugles par paires, converties en score Elo, afin d’estimer quels modèles produisent les résultats les plus utiles dans ce cadre.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI (benchmark GDPval) ; variante GDPval-AA executee independamment par Artificial Analysis |
| Capacités mesurées | Travail intellectuel a valeur economique reelle sur 44 metiers couvrant 9 secteurs (finance, sante, juridique, etc.) |
| Modalité | Texte |
| Type de questions | taches professionnelles ouvertes (production de documents, slides, diagrammes, tableurs) |
| Métrique d'évaluation | classement Elo derive de comparaisons aveugles par paires jugees par un LLM |
| Accès | Public |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | 220 taches (sous-ensemble GDPval gold ; 1 320 taches au total) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 1 815 | 9 juin 2026 | n.d. |
| 2 | Claude Opus 4.8 | Anthropic | 1 638 | 28 mai 2026 | n.d. |
| 3 | Claude Opus 4.6 | Anthropic | 1 606 | 7 avril 2026 | Auto-déclaré |
| 4 | Claude Opus 4.7 | Anthropic | 1 542 | 12 mai 2026 | n.d. |
| 5 | MiniMax M3 | MiniMax | 1 431 | 1 juin 2026 | n.d. |
| 6 | GPT-5.4 | OpenAI | 1 429 | 5 mars 2026 | n.d. |
| 7 | MiMo-V2-Pro | Xiaomi | 1 426 | 18 mars 2026 | Auto-déclaré |
| 8 | Claude Sonnet 4.6 | Anthropic | 1 417 | 17 février 2026 | n.d. |
| 9 | MiMo-V2-Omni | Xiaomi | 1 410 | 18 mars 2026 | Auto-déclaré |
| 10 | Gemini 3.5 Flash | 1 370 | 19 mai 2026 | n.d. | |
| 11 | DeepSeek-V4-Pro-Max | DeepSeek | 1 332 | 23 avril 2026 | n.d. |
| 12 | Qwen3.7 Max | Qwen | 1 308 | 19 mai 2026 | n.d. |
| 13 | MiMo-V2.5-Pro | Xiaomi | 1 286 | 27 avril 2026 | n.d. |
| 14 | GLM-5.1 | Zhipu AI | 1 281 | 7 avril 2026 | n.d. |
| 15 | DeepSeek-V4-Flash-Max | DeepSeek | 1 203 | 23 avril 2026 | n.d. |
| 16 | Kimi K2.6 | Moonshot AI | 1 202 | 20 avril 2026 | n.d. |
| 17 | GPT-5.4 mini | OpenAI | 1 190 | 17 mars 2026 | n.d. |
| 18 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 1 183 | 4 juin 2026 | n.d. |
| 19 | MiniMax M2.7 | MiniMax | 1 178 | 18 mars 2026 | n.d. |
| 20 | Muse Spark | Meta | 1 164 | 8 avril 2026 | n.d. |
Classement établi sur 33 modèles évalués, dont 26 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur GDPval-AA indique qu’un modèle est plus souvent préféré lors de comparaisons aveugles sur des tâches professionnelles ouvertes, incluant des documents, slides, diagrammes ou tableurs. Le classement met donc en avant une capacité à produire des livrables jugés utiles dans des contextes économiques réels, plutôt qu’une simple réussite à des questions fermées. Dans la base observée, Claude Fable 5 d’Anthropic occupe la première place avec 60 %, au-dessus d’un score médian de 40 %, ce qui suggère encore une marge de progression importante pour l’ensemble des modèles évalués.
La rigueur du protocole tient à l’exécution indépendante par Artificial Analysis et aux comparaisons aveugles, mais l’interprétation reste encadrée par plusieurs limites. Les jugements sont effectués par un LLM, la variante ne couvre qu’un sous-ensemble de tâches, et le périmètre est limité à l’anglais. La fiabilité pratique des résultats dépend aussi du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le benchmark paraît peu saturé à ce stade, mais sa portée reste celle de tâches professionnelles simulées et d’un classement relatif, non d’une mesure exhaustive de performance en entreprise.
Sources des scores : llm-stats.