Finance Agent
Finance Agent est un benchmark public conçu par Vals AI pour évaluer des modèles d’IA sur des tâches agentiques d’analyse financière. Il porte sur des situations de recherche et d’analyse proches d’usages réels, avec des réponses ouvertes vérifiées plutôt qu’un simple questionnaire fermé.
Finance Agent est un benchmark public conçu par Vals AI pour évaluer des modèles d’IA sur des tâches agentiques d’analyse financière. Il porte sur des situations de recherche et d’analyse proches d’usages réels, avec des réponses ouvertes vérifiées plutôt qu’un simple questionnaire fermé.
Le test mesure la capacité à récupérer et exploiter des documents financiers, mener des calculs en plusieurs étapes, raisonner sur les données disponibles et produire une synthèse d’analyse exacte. Il sert ainsi à comparer les modèles sur une compétence spécialisée, orientée finance, en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Vals AI |
| Capacités mesurées | Analyse financiere agentique : recuperation et raisonnement sur documents financiers, calculs multi-etapes, synthese d'analyses |
| Modalité | Texte |
| Type de questions | Taches agentiques de recherche/analyse financiere reelle (reponse ouverte verifiee) |
| Métrique d'évaluation | Exactitude (reponses verifiees) |
| Accès | Public |
| Langues | Anglais |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.7 | Anthropic | 64,4 % | 12 mai 2026 | Auto-déclaré |
| 2 | Claude Sonnet 4.6 | Anthropic | 63,3 % | 17 février 2026 | Auto-déclaré |
| 3 | Claude Opus 4.6 | Anthropic | 60,7 % | 7 avril 2026 | Auto-déclaré |
| 4 | GPT-5.5 | OpenAI | 60,0 % | 23 avril 2026 | Auto-déclaré |
| 5 | Gemini 3.5 Flash | 57,9 % | 19 mai 2026 | Auto-déclaré | |
| 6 | GPT-5.4 | OpenAI | 56,0 % | 5 mars 2026 | Auto-déclaré |
| 7 | Claude Opus 4.8 | Anthropic | 53,9 % | 28 mai 2026 | Auto-déclaré |
| 8 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 53,7 % | 4 juin 2026 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 58,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Finance Agent indique une meilleure aptitude à combiner recherche documentaire, calcul financier et synthèse fiable dans des tâches ouvertes. La métrique repose sur l’exactitude de réponses vérifiées, ce qui renforce l’intérêt du benchmark pour juger la qualité finale des analyses produites. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, et ne correspondent pas toujours à une mesure indépendante strictement homogène.
Dans la base considérée, huit modèles sont évalués, avec un score médian de 59 % et un meilleur résultat de 64 % pour Claude Opus 4.7 (Anthropic). Cet écart limité avec la médiane suggère un benchmark encore discriminant, sans saturation évidente au sommet. Ses limites tiennent aussi à sa portée spécialisée, centrée sur l’analyse financière agentique en anglais, ainsi qu’au risque habituel de contamination pour un benchmark public.
Sources des scores : llm-stats.