Agents & outils

Legal Agent Benchmark

Legal Agent Benchmark est un benchmark open source de Harvey AI consacré à l’évaluation d’agents IA sur des travaux juridiques complexes et de longue durée. Il vise des situations proches d’un dossier client, où le modèle doit analyser des informations, les synthétiser et produire des…

Son rôle est de tester non seulement la réponse finale, mais aussi la capacité à respecter des exigences juridiques détaillées. Les tâches sont jugées à partir de rubriques d’experts, ce qui en fait un cadre exigeant pour comparer des modèles sur des usages juridiques spécialisés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Harvey AI
Capacités mesurées	Agents IA sur travail juridique complexe et long-horizon : analyse de dossiers clients, synthèse d'information, production de livrables (mémos, évaluations de risques)
Modalité	Texte
Type de questions	Tâches juridiques long-horizon (instructions écrites + environnement de dossier client + livrables) évaluées contre des rubriques d'experts
Métrique d'évaluation	Standard 'all-pass' (tâche réussie uniquement si tous les critères passent) ; 75 000+ critères de rubrique rédigés par des experts
Accès	Public
Langues	Anglais
Taille du jeu	1 200+ tâches, 24 domaines de pratique juridique, 75 000+ critères de rubrique
Année de publication	2026
Ressources	Site / dépôt officiel

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	13,3 %	9 juin 2026	Auto-déclaré
2	Claude Opus 4.7	Anthropic	7,1 %	12 mai 2026	n.d.
3	Claude Sonnet 4.6	Anthropic	5,4 %	17 février 2026	n.d.
4	Claude Opus 4.6	Anthropic	4,2 %	7 avril 2026	n.d.
5	GPT-5.5	OpenAI	2,1 %	23 avril 2026	n.d.
6	Gemini 3.5 Flash	Google	0,8 %	19 mai 2026	n.d.
7	GPT-5.4	OpenAI	0,4 %	5 mars 2026	n.d.
8	GPT-5.4 mini	OpenAI	0,0 %	17 mars 2026	n.d.
9	Gemini 3 Flash	Google	0,0 %	17 décembre 2025	n.d.
10	Gemini 3.1 Flash-Lite	Google	0,0 %	3 mars 2026	n.d.
11	Gemini 3.1 Pro Preview	Google	0,0 %	19 février 2026	n.d.

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 0,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Legal Agent Benchmark indique qu’un modèle parvient à satisfaire l’ensemble des critères attendus pour une tâche juridique longue, notamment les faits, les conclusions, les citations, la structure et les étapes d’analyse. Le standard all-pass rend l’évaluation particulièrement stricte : une tâche n’est validée que si tous les critères requis sont réussis. Les scores observés dans la base suggèrent un benchmark encore très difficile, avec une médiane à 1 % et un meilleur résultat à 13 % pour Claude Fable 5. Le classement met donc surtout en évidence une marge de progression importante pour les agents IA juridiques. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et le travail juridique complexe, ainsi qu’au caractère public du jeu, qui peut accroître le risque de contamination au fil du temps.

Sources des scores : llm-stats.

Legal Agent Benchmark

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23