Finance Agent v2
Finance Agent v2 est un benchmark d’analyse financière agentique créé par Vals AI. Il évalue des modèles sur des flux de travail proches de cas réels, où il faut retrouver des informations dans des documents financiers, raisonner à partir de ces éléments et effectuer des calculs en…
Finance Agent v2 est un benchmark d’analyse financière agentique créé par Vals AI. Il évalue des modèles sur des flux de travail proches de cas réels, où il faut retrouver des informations dans des documents financiers, raisonner à partir de ces éléments et effectuer des calculs en plusieurs étapes.
Le benchmark sert à mesurer la capacité des modèles à produire des analyses financières exactes dans un cadre plus opérationnel qu’un simple questionnaire de connaissances. Il met l’accent sur l’usage combiné de la récupération documentaire, du raisonnement, de la modélisation et de l’exécution de tâches agentiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Vals AI |
| Capacités mesurées | analyse financière, agents, raisonnement, récupération de documents, calculs multi-étapes, modélisation |
| Modalité | Texte |
| Type de questions | tâches agentiques d'analyse financière (récupération et raisonnement sur documents financiers, calculs multi-étapes) |
| Métrique d'évaluation | exactitude (réponses vérifiées par des experts) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | 927 questions vérifiées par experts |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.5 Flash | 57,9 % | 19 mai 2026 | n.d. | |
| 2 | Claude Fable 5 | Anthropic | 56,3 % | 9 juin 2026 | n.d. |
| 3 | Claude Opus 4.8 | Anthropic | 53,9 % | 28 mai 2026 | n.d. |
| 4 | GPT-5.5 | OpenAI | 51,8 % | 23 avril 2026 | n.d. |
| 5 | Claude Opus 4.7 | Anthropic | 51,5 % | 12 mai 2026 | n.d. |
| 6 | Claude Sonnet 4.6 | Anthropic | 51,0 % | 17 février 2026 | n.d. |
| 7 | Qwen3.7 Max | Qwen | 48,4 % | 19 mai 2026 | n.d. |
| 8 | MiniMax M3 | MiniMax | 48,3 % | 1 juin 2026 | n.d. |
| 9 | GPT-5.4 mini | OpenAI | 45,4 % | 17 mars 2026 | n.d. |
| 10 | Kimi K2.6 | Moonshot AI | 44,9 % | 20 avril 2026 | n.d. |
| 11 | GLM-5.1 | Zhipu AI | 44,8 % | 7 avril 2026 | n.d. |
| 12 | Gemini 3.1 Pro Preview | 43,0 % | 19 février 2026 | n.d. | |
| 13 | Gemini 3 Flash | 42,5 % | 17 décembre 2025 | n.d. | |
| 14 | MiMo-V2.5-Pro | Xiaomi | 41,5 % | 27 avril 2026 | n.d. |
| 15 | Qwen3.6 Plus | Qwen | 40,8 % | 31 mars 2026 | n.d. |
| 16 | GPT-5.4 nano | OpenAI | 38,2 % | 17 mars 2026 | n.d. |
| 17 | Qwen3.7-Plus | Qwen | 38,2 % | 31 mai 2026 | n.d. |
| 18 | Grok 4.3 | xAI | 37,7 % | 6 mai 2026 | n.d. |
| 19 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 37,5 % | 4 juin 2026 | n.d. |
| 20 | MiMo-V2.5 | Xiaomi | 36,7 % | 22 avril 2026 | n.d. |
Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 42,5 %.
Notre analyse
Un score élevé sur Finance Agent v2 indique une meilleure aptitude à mener des analyses financières structurées, à exploiter correctement des documents et à enchaîner des calculs sans perdre en exactitude. L’évaluation repose sur des réponses vérifiées par des experts et sur un jeu de test privé, ce qui renforce la rigueur du benchmark et limite la simple mémorisation des réponses. La fiabilité du classement doit toutefois être lue avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.
- Le niveau médian de 43 % dans la base suggère que ces tâches restent difficiles pour les modèles évalués.
- Le meilleur score recensé, Gemini 3.5 Flash à 58 %, montre une avance relative sans indiquer une maîtrise complète du benchmark.
- La portée reste centrée sur des tâches en anglais d’analyse financière agentique, ce qui limite l’extrapolation à d’autres langues, domaines ou usages.
- Le jeu privé réduit le risque de contamination, sans l’éliminer totalement ni garantir l’absence de biais liés aux soumissions auto-déclarées.
Sources des scores : llm-stats.