APEX-Agents
APEX-Agents est un benchmark créé par Mercor pour évaluer des agents IA dans des tâches professionnelles de long horizon. Il cible des workflows de travail de la connaissance hautement qualifiés, où la réussite dépend d’un raisonnement soutenu, d’une planification cohérente et de…
APEX-Agents est un benchmark créé par Mercor pour évaluer des agents IA dans des tâches professionnelles de long horizon. Il cible des workflows de travail de la connaissance hautement qualifiés, où la réussite dépend d’un raisonnement soutenu, d’une planification cohérente et de l’orchestration d’outils sur plusieurs étapes.
Le benchmark sert à mesurer la capacité des modèles à agir de manière autonome dans des environnements proches de métiers spécialisés, notamment la banque d’investissement, le conseil en management et le droit des affaires. Il met l’accent sur l’exécution agentique plutôt que sur la simple réponse à une question isolée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mercor |
| Capacités mesurées | Mesure si des agents IA peuvent executer de maniere autonome des taches de travail de la connaissance hautement qualifie, exigeant raisonnement soutenu, planification et orchestration d'outils sur de longs horizons. |
| Modalité | Texte |
| Type de questions | Taches agentiques professionnelles long-horizon, multi-applications, evaluees par rubrique a criteres binaires |
| Métrique d'évaluation | Notation par rubrique (criteres binaires, moyenne ~4 criteres par tache) ; Pass@1 |
| Accès | Public |
| Licence | CC-BY 4.0 |
| Langues | Anglais |
| Taille du jeu | 480 taches reparties sur 33 mondes (160 par metier : banque d'investissement, conseil en management, droit des affaires) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 33,8 % | 24 juin 2026 | Auto-déclaré |
| 2 | Gemini 3.1 Pro Preview | 33,5 % | 19 février 2026 | Auto-déclaré | |
| 3 | Seed 2.1 Turbo | bytedance | 29,2 % | 24 juin 2026 | Auto-déclaré |
| 4 | Kimi K2.6 | Moonshot AI | 27,9 % | 20 avril 2026 | Auto-déclaré |
| 5 | MiniMax M3 | MiniMax | 27,7 % | 1 juin 2026 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 29,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur APEX-Agents indique qu’un agent parvient plus souvent à mener à bien des tâches complexes, évaluées par rubriques à critères binaires, avec une seule tentative prise en compte via Pass@1. La moyenne d’environ quatre critères par tâche donne une lecture structurée de la réussite, mais ne remplace pas une validation fine de chaque workflow. La fiabilité du classement doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Le score médian de 29% et le meilleur résultat observé, Seed 2.1 Pro à 34%, suggèrent un benchmark encore difficile et non saturé dans la base considérée. Sa portée reste toutefois limitée à l’anglais et aux mondes professionnels représentés. Comme pour tout benchmark public, le risque de contamination ne peut pas être écarté. Le classement met surtout en évidence les écarts actuels en autonomie agentique long-horizon, plutôt qu’une compétence professionnelle générale et universelle.
Sources des scores : llm-stats.