Finance Agent v2

Finance Agent v2 est un benchmark d’analyse financière agentique créé par Vals AI. Il évalue des modèles sur des flux de travail proches de cas réels, où il faut retrouver des informations dans des documents financiers, raisonner à partir de ces éléments et effectuer des calculs en…

Finance Agent v2 est un benchmark d’analyse financière agentique créé par Vals AI. Il évalue des modèles sur des flux de travail proches de cas réels, où il faut retrouver des informations dans des documents financiers, raisonner à partir de ces éléments et effectuer des calculs en plusieurs étapes.

Le benchmark sert à mesurer la capacité des modèles à produire des analyses financières exactes dans un cadre plus opérationnel qu’un simple questionnaire de connaissances. Il met l’accent sur l’usage combiné de la récupération documentaire, du raisonnement, de la modélisation et de l’exécution de tâches agentiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkVals AI
Capacités mesuréesanalyse financière, agents, raisonnement, récupération de documents, calculs multi-étapes, modélisation
ModalitéTexte
Type de questionstâches agentiques d'analyse financière (récupération et raisonnement sur documents financiers, calculs multi-étapes)
Métrique d'évaluationexactitude (réponses vérifiées par des experts)
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeu927 questions vérifiées par experts
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.5 FlashGoogle57,9 %19 mai 2026n.d.
2Claude Fable 5Anthropic56,3 %9 juin 2026n.d.
3Claude Opus 4.8Anthropic53,9 %28 mai 2026n.d.
4GPT-5.5OpenAI51,8 %23 avril 2026n.d.
5Claude Opus 4.7Anthropic51,5 %12 mai 2026n.d.
6Claude Sonnet 4.6Anthropic51,0 %17 février 2026n.d.
7Qwen3.7 MaxQwen48,4 %19 mai 2026n.d.
8MiniMax M3MiniMax48,3 %1 juin 2026n.d.
9GPT-5.4 miniOpenAI45,4 %17 mars 2026n.d.
10Kimi K2.6Moonshot AI44,9 %20 avril 2026n.d.
11GLM-5.1Zhipu AI44,8 %7 avril 2026n.d.
12Gemini 3.1 Pro PreviewGoogle43,0 %19 février 2026n.d.
13Gemini 3 FlashGoogle42,5 %17 décembre 2025n.d.
14MiMo-V2.5-ProXiaomi41,5 %27 avril 2026n.d.
15Qwen3.6 PlusQwen40,8 %31 mars 2026n.d.
16GPT-5.4 nanoOpenAI38,2 %17 mars 2026n.d.
17Qwen3.7-PlusQwen38,2 %31 mai 2026n.d.
18Grok 4.3xAI37,7 %6 mai 2026n.d.
19Nemotron 3 Ultra (550B A55B)NVIDIA37,5 %4 juin 2026n.d.
20MiMo-V2.5Xiaomi36,7 %22 avril 2026n.d.

Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 42,5 %.

Notre analyse

Un score élevé sur Finance Agent v2 indique une meilleure aptitude à mener des analyses financières structurées, à exploiter correctement des documents et à enchaîner des calculs sans perdre en exactitude. L’évaluation repose sur des réponses vérifiées par des experts et sur un jeu de test privé, ce qui renforce la rigueur du benchmark et limite la simple mémorisation des réponses. La fiabilité du classement doit toutefois être lue avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

  • Le niveau médian de 43 % dans la base suggère que ces tâches restent difficiles pour les modèles évalués.
  • Le meilleur score recensé, Gemini 3.5 Flash à 58 %, montre une avance relative sans indiquer une maîtrise complète du benchmark.
  • La portée reste centrée sur des tâches en anglais d’analyse financière agentique, ce qui limite l’extrapolation à d’autres langues, domaines ou usages.
  • Le jeu privé réduit le risque de contamination, sans l’éliminer totalement ni garantir l’absence de biais liés aux soumissions auto-déclarées.

Sources des scores : llm-stats.