Agents & outils

Finance Agent v2

Finance Agent v2 est un benchmark d’analyse financière agentique créé par Vals AI. Il évalue des modèles sur des flux de travail proches de cas réels, où il faut retrouver des informations dans des documents financiers, raisonner à partir de ces éléments et effectuer des calculs en…

Le benchmark sert à mesurer la capacité des modèles à produire des analyses financières exactes dans un cadre plus opérationnel qu’un simple questionnaire de connaissances. Il met l’accent sur l’usage combiné de la récupération documentaire, du raisonnement, de la modélisation et de l’exécution de tâches agentiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Vals AI
Capacités mesurées	analyse financière, agents, raisonnement, récupération de documents, calculs multi-étapes, modélisation
Modalité	Texte
Type de questions	tâches agentiques d'analyse financière (récupération et raisonnement sur documents financiers, calculs multi-étapes)
Métrique d'évaluation	exactitude (réponses vérifiées par des experts)
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	927 questions vérifiées par experts
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.5 Flash	Google	57,9 %	19 mai 2026	n.d.
2	Claude Fable 5	Anthropic	56,3 %	9 juin 2026	n.d.
3	Claude Opus 4.8	Anthropic	53,9 %	28 mai 2026	n.d.
4	GPT-5.5	OpenAI	51,8 %	23 avril 2026	n.d.
5	Claude Opus 4.7	Anthropic	51,5 %	12 mai 2026	n.d.
6	Claude Sonnet 4.6	Anthropic	51,0 %	17 février 2026	n.d.
7	Qwen3.7 Max	Qwen	48,4 %	19 mai 2026	n.d.
8	MiniMax M3	MiniMax	48,3 %	1 juin 2026	n.d.
9	GPT-5.4 mini	OpenAI	45,4 %	17 mars 2026	n.d.
10	Kimi K2.6	Moonshot AI	44,9 %	20 avril 2026	n.d.
11	GLM-5.1	Zhipu AI	44,8 %	7 avril 2026	n.d.
12	Gemini 3.1 Pro Preview	Google	43,0 %	19 février 2026	n.d.
13	Gemini 3 Flash	Google	42,5 %	17 décembre 2025	n.d.
14	MiMo-V2.5-Pro	Xiaomi	41,5 %	27 avril 2026	n.d.
15	Qwen3.6 Plus	Qwen	40,8 %	31 mars 2026	n.d.
16	GPT-5.4 nano	OpenAI	38,2 %	17 mars 2026	n.d.
17	Qwen3.7-Plus	Qwen	38,2 %	31 mai 2026	n.d.
18	Grok 4.3	xAI	37,7 %	6 mai 2026	n.d.
19	Nemotron 3 Ultra (550B A55B)	NVIDIA	37,5 %	4 juin 2026	n.d.
20	MiMo-V2.5	Xiaomi	36,7 %	22 avril 2026	n.d.

Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 42,5 %.

Notre analyse

Un score élevé sur Finance Agent v2 indique une meilleure aptitude à mener des analyses financières structurées, à exploiter correctement des documents et à enchaîner des calculs sans perdre en exactitude. L’évaluation repose sur des réponses vérifiées par des experts et sur un jeu de test privé, ce qui renforce la rigueur du benchmark et limite la simple mémorisation des réponses. La fiabilité du classement doit toutefois être lue avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

Le niveau médian de 43 % dans la base suggère que ces tâches restent difficiles pour les modèles évalués.
Le meilleur score recensé, Gemini 3.5 Flash à 58 %, montre une avance relative sans indiquer une maîtrise complète du benchmark.
La portée reste centrée sur des tâches en anglais d’analyse financière agentique, ce qui limite l’extrapolation à d’autres langues, domaines ou usages.
Le jeu privé réduit le risque de contamination, sans l’éliminer totalement ni garantir l’absence de biais liés aux soumissions auto-déclarées.

Sources des scores : llm-stats.

Finance Agent v2

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench