Legal Agent Benchmark

Legal Agent Benchmark est un benchmark open source de Harvey AI consacré à l’évaluation d’agents IA sur des travaux juridiques complexes et de longue durée. Il vise des situations proches d’un dossier client, où le modèle doit analyser des informations, les synthétiser et produire des…

Legal Agent Benchmark est un benchmark open source de Harvey AI consacré à l’évaluation d’agents IA sur des travaux juridiques complexes et de longue durée. Il vise des situations proches d’un dossier client, où le modèle doit analyser des informations, les synthétiser et produire des livrables juridiques structurés.

Son rôle est de tester non seulement la réponse finale, mais aussi la capacité à respecter des exigences juridiques détaillées. Les tâches sont jugées à partir de rubriques d’experts, ce qui en fait un cadre exigeant pour comparer des modèles sur des usages juridiques spécialisés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkHarvey AI
Capacités mesuréesAgents IA sur travail juridique complexe et long-horizon : analyse de dossiers clients, synthèse d'information, production de livrables (mémos, évaluations de risques)
ModalitéTexte
Type de questionsTâches juridiques long-horizon (instructions écrites + environnement de dossier client + livrables) évaluées contre des rubriques d'experts
Métrique d'évaluationStandard 'all-pass' (tâche réussie uniquement si tous les critères passent) ; 75 000+ critères de rubrique rédigés par des experts
AccèsPublic
LanguesAnglais
Taille du jeu1 200+ tâches, 24 domaines de pratique juridique, 75 000+ critères de rubrique
Année de publication2026
RessourcesSite / dépôt officiel

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic13,3 %9 juin 2026Auto-déclaré
2Claude Opus 4.7Anthropic7,1 %12 mai 2026n.d.
3Claude Sonnet 4.6Anthropic5,4 %17 février 2026n.d.
4Claude Opus 4.6Anthropic4,2 %7 avril 2026n.d.
5GPT-5.5OpenAI2,1 %23 avril 2026n.d.
6Gemini 3.5 FlashGoogle0,8 %19 mai 2026n.d.
7GPT-5.4OpenAI0,4 %5 mars 2026n.d.
8GPT-5.4 miniOpenAI0,0 %17 mars 2026n.d.
9Gemini 3 FlashGoogle0,0 %17 décembre 2025n.d.
10Gemini 3.1 Flash-LiteGoogle0,0 %3 mars 2026n.d.
11Gemini 3.1 Pro PreviewGoogle0,0 %19 février 2026n.d.

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 0,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Legal Agent Benchmark indique qu’un modèle parvient à satisfaire l’ensemble des critères attendus pour une tâche juridique longue, notamment les faits, les conclusions, les citations, la structure et les étapes d’analyse. Le standard all-pass rend l’évaluation particulièrement stricte : une tâche n’est validée que si tous les critères requis sont réussis. Les scores observés dans la base suggèrent un benchmark encore très difficile, avec une médiane à 1 % et un meilleur résultat à 13 % pour Claude Fable 5. Le classement met donc surtout en évidence une marge de progression importante pour les agents IA juridiques. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et le travail juridique complexe, ainsi qu’au caractère public du jeu, qui peut accroître le risque de contamination au fil du temps.


Sources des scores : llm-stats.