Agents & outils

APEX-Agents

APEX-Agents est un benchmark créé par Mercor pour évaluer des agents IA dans des tâches professionnelles de long horizon. Il cible des workflows de travail de la connaissance hautement qualifiés, où la réussite dépend d’un raisonnement soutenu, d’une planification cohérente et de…

Le benchmark sert à mesurer la capacité des modèles à agir de manière autonome dans des environnements proches de métiers spécialisés, notamment la banque d’investissement, le conseil en management et le droit des affaires. Il met l’accent sur l’exécution agentique plutôt que sur la simple réponse à une question isolée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mercor
Capacités mesurées	Mesure si des agents IA peuvent executer de maniere autonome des taches de travail de la connaissance hautement qualifie, exigeant raisonnement soutenu, planification et orchestration d'outils sur de longs horizons.
Modalité	Texte
Type de questions	Taches agentiques professionnelles long-horizon, multi-applications, evaluees par rubrique a criteres binaires
Métrique d'évaluation	Notation par rubrique (criteres binaires, moyenne ~4 criteres par tache) ; Pass@1
Accès	Public
Licence	CC-BY 4.0
Langues	Anglais
Taille du jeu	480 taches reparties sur 33 mondes (160 par metier : banque d'investissement, conseil en management, droit des affaires)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	33,8 %	24 juin 2026	Auto-déclaré
2	Gemini 3.1 Pro Preview	Google	33,5 %	19 février 2026	Auto-déclaré
3	Seed 2.1 Turbo	bytedance	29,2 %	24 juin 2026	Auto-déclaré
4	Kimi K2.6	Moonshot AI	27,9 %	20 avril 2026	Auto-déclaré
5	MiniMax M3	MiniMax	27,7 %	1 juin 2026	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 29,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur APEX-Agents indique qu’un agent parvient plus souvent à mener à bien des tâches complexes, évaluées par rubriques à critères binaires, avec une seule tentative prise en compte via Pass@1. La moyenne d’environ quatre critères par tâche donne une lecture structurée de la réussite, mais ne remplace pas une validation fine de chaque workflow. La fiabilité du classement doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Le score médian de 29% et le meilleur résultat observé, Seed 2.1 Pro à 34%, suggèrent un benchmark encore difficile et non saturé dans la base considérée. Sa portée reste toutefois limitée à l’anglais et aux mondes professionnels représentés. Comme pour tout benchmark public, le risque de contamination ne peut pas être écarté. Le classement met surtout en évidence les écarts actuels en autonomie agentique long-horizon, plutôt qu’une compétence professionnelle générale et universelle.

Sources des scores : llm-stats.

APEX-Agents

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench