Legal Agent Benchmark
Legal Agent Benchmark est un benchmark open source de Harvey AI consacré à l’évaluation d’agents IA sur des travaux juridiques complexes et de longue durée. Il vise des situations proches d’un dossier client, où le modèle doit analyser des informations, les synthétiser et produire des…
Legal Agent Benchmark est un benchmark open source de Harvey AI consacré à l’évaluation d’agents IA sur des travaux juridiques complexes et de longue durée. Il vise des situations proches d’un dossier client, où le modèle doit analyser des informations, les synthétiser et produire des livrables juridiques structurés.
Son rôle est de tester non seulement la réponse finale, mais aussi la capacité à respecter des exigences juridiques détaillées. Les tâches sont jugées à partir de rubriques d’experts, ce qui en fait un cadre exigeant pour comparer des modèles sur des usages juridiques spécialisés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Harvey AI |
| Capacités mesurées | Agents IA sur travail juridique complexe et long-horizon : analyse de dossiers clients, synthèse d'information, production de livrables (mémos, évaluations de risques) |
| Modalité | Texte |
| Type de questions | Tâches juridiques long-horizon (instructions écrites + environnement de dossier client + livrables) évaluées contre des rubriques d'experts |
| Métrique d'évaluation | Standard 'all-pass' (tâche réussie uniquement si tous les critères passent) ; 75 000+ critères de rubrique rédigés par des experts |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 1 200+ tâches, 24 domaines de pratique juridique, 75 000+ critères de rubrique |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 13,3 % | 9 juin 2026 | Auto-déclaré |
| 2 | Claude Opus 4.7 | Anthropic | 7,1 % | 12 mai 2026 | n.d. |
| 3 | Claude Sonnet 4.6 | Anthropic | 5,4 % | 17 février 2026 | n.d. |
| 4 | Claude Opus 4.6 | Anthropic | 4,2 % | 7 avril 2026 | n.d. |
| 5 | GPT-5.5 | OpenAI | 2,1 % | 23 avril 2026 | n.d. |
| 6 | Gemini 3.5 Flash | 0,8 % | 19 mai 2026 | n.d. | |
| 7 | GPT-5.4 | OpenAI | 0,4 % | 5 mars 2026 | n.d. |
| 8 | GPT-5.4 mini | OpenAI | 0,0 % | 17 mars 2026 | n.d. |
| 9 | Gemini 3 Flash | 0,0 % | 17 décembre 2025 | n.d. | |
| 10 | Gemini 3.1 Flash-Lite | 0,0 % | 3 mars 2026 | n.d. | |
| 11 | Gemini 3.1 Pro Preview | 0,0 % | 19 février 2026 | n.d. |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 0,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Legal Agent Benchmark indique qu’un modèle parvient à satisfaire l’ensemble des critères attendus pour une tâche juridique longue, notamment les faits, les conclusions, les citations, la structure et les étapes d’analyse. Le standard all-pass rend l’évaluation particulièrement stricte : une tâche n’est validée que si tous les critères requis sont réussis. Les scores observés dans la base suggèrent un benchmark encore très difficile, avec une médiane à 1 % et un meilleur résultat à 13 % pour Claude Fable 5. Le classement met donc surtout en évidence une marge de progression importante pour les agents IA juridiques. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et le travail juridique complexe, ainsi qu’au caractère public du jeu, qui peut accroître le risque de contamination au fil du temps.
Sources des scores : llm-stats.