Agents & outils

Finance Agent

Finance Agent est un benchmark public conçu par Vals AI pour évaluer des modèles d’IA sur des tâches agentiques d’analyse financière. Il porte sur des situations de recherche et d’analyse proches d’usages réels, avec des réponses ouvertes vérifiées plutôt qu’un simple questionnaire fermé.

Le test mesure la capacité à récupérer et exploiter des documents financiers, mener des calculs en plusieurs étapes, raisonner sur les données disponibles et produire une synthèse d’analyse exacte. Il sert ainsi à comparer les modèles sur une compétence spécialisée, orientée finance, en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Vals AI
Capacités mesurées	Analyse financiere agentique : recuperation et raisonnement sur documents financiers, calculs multi-etapes, synthese d'analyses
Modalité	Texte
Type de questions	Taches agentiques de recherche/analyse financiere reelle (reponse ouverte verifiee)
Métrique d'évaluation	Exactitude (reponses verifiees)
Accès	Public
Langues	Anglais
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.7	Anthropic	64,4 %	12 mai 2026	Auto-déclaré
2	Claude Sonnet 4.6	Anthropic	63,3 %	17 février 2026	Auto-déclaré
3	Claude Opus 4.6	Anthropic	60,7 %	7 avril 2026	Auto-déclaré
4	GPT-5.5	OpenAI	60,0 %	23 avril 2026	Auto-déclaré
5	Gemini 3.5 Flash	Google	57,9 %	19 mai 2026	Auto-déclaré
6	GPT-5.4	OpenAI	56,0 %	5 mars 2026	Auto-déclaré
7	Claude Opus 4.8	Anthropic	53,9 %	28 mai 2026	Auto-déclaré
8	Nemotron 3 Ultra (550B A55B)	NVIDIA	53,7 %	4 juin 2026	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 58,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Finance Agent indique une meilleure aptitude à combiner recherche documentaire, calcul financier et synthèse fiable dans des tâches ouvertes. La métrique repose sur l’exactitude de réponses vérifiées, ce qui renforce l’intérêt du benchmark pour juger la qualité finale des analyses produites. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, et ne correspondent pas toujours à une mesure indépendante strictement homogène.

Dans la base considérée, huit modèles sont évalués, avec un score médian de 59 % et un meilleur résultat de 64 % pour Claude Opus 4.7 (Anthropic). Cet écart limité avec la médiane suggère un benchmark encore discriminant, sans saturation évidente au sommet. Ses limites tiennent aussi à sa portée spécialisée, centrée sur l’analyse financière agentique en anglais, ainsi qu’au risque habituel de contamination pour un benchmark public.

Sources des scores : llm-stats.

Finance Agent

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench