Finance Agent

Finance Agent est un benchmark public conçu par Vals AI pour évaluer des modèles d’IA sur des tâches agentiques d’analyse financière. Il porte sur des situations de recherche et d’analyse proches d’usages réels, avec des réponses ouvertes vérifiées plutôt qu’un simple questionnaire fermé.

Finance Agent est un benchmark public conçu par Vals AI pour évaluer des modèles d’IA sur des tâches agentiques d’analyse financière. Il porte sur des situations de recherche et d’analyse proches d’usages réels, avec des réponses ouvertes vérifiées plutôt qu’un simple questionnaire fermé.

Le test mesure la capacité à récupérer et exploiter des documents financiers, mener des calculs en plusieurs étapes, raisonner sur les données disponibles et produire une synthèse d’analyse exacte. Il sert ainsi à comparer les modèles sur une compétence spécialisée, orientée finance, en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkVals AI
Capacités mesuréesAnalyse financiere agentique : recuperation et raisonnement sur documents financiers, calculs multi-etapes, synthese d'analyses
ModalitéTexte
Type de questionsTaches agentiques de recherche/analyse financiere reelle (reponse ouverte verifiee)
Métrique d'évaluationExactitude (reponses verifiees)
AccèsPublic
LanguesAnglais
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.7Anthropic64,4 %12 mai 2026Auto-déclaré
2Claude Sonnet 4.6Anthropic63,3 %17 février 2026Auto-déclaré
3Claude Opus 4.6Anthropic60,7 %7 avril 2026Auto-déclaré
4GPT-5.5OpenAI60,0 %23 avril 2026Auto-déclaré
5Gemini 3.5 FlashGoogle57,9 %19 mai 2026Auto-déclaré
6GPT-5.4OpenAI56,0 %5 mars 2026Auto-déclaré
7Claude Opus 4.8Anthropic53,9 %28 mai 2026Auto-déclaré
8Nemotron 3 Ultra (550B A55B)NVIDIA53,7 %4 juin 2026Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 58,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Finance Agent indique une meilleure aptitude à combiner recherche documentaire, calcul financier et synthèse fiable dans des tâches ouvertes. La métrique repose sur l’exactitude de réponses vérifiées, ce qui renforce l’intérêt du benchmark pour juger la qualité finale des analyses produites. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, et ne correspondent pas toujours à une mesure indépendante strictement homogène.

Dans la base considérée, huit modèles sont évalués, avec un score médian de 59 % et un meilleur résultat de 64 % pour Claude Opus 4.7 (Anthropic). Cet écart limité avec la médiane suggère un benchmark encore discriminant, sans saturation évidente au sommet. Ses limites tiennent aussi à sa portée spécialisée, centrée sur l’analyse financière agentique en anglais, ainsi qu’au risque habituel de contamination pour un benchmark public.


Sources des scores : llm-stats.