Arena-Hard v2

Arena-Hard v2 est un benchmark conçu par LMArena (ex-LMSYS), avec Tianle Li, Wei-Lin Chiang et leurs coauteurs, pour évaluer les grands modèles de langage sur des requêtes ouvertes issues d’usages réels. Il cible des tâches difficiles, notamment en ingénierie logicielle, en…

Arena-Hard v2 est un benchmark conçu par LMArena (ex-LMSYS), avec Tianle Li, Wei-Lin Chiang et leurs coauteurs, pour évaluer les grands modèles de langage sur des requêtes ouvertes issues d’usages réels. Il cible des tâches difficiles, notamment en ingénierie logicielle, en mathématiques, en écriture créative et en résolution de problèmes techniques.

Son rôle est de rapprocher l’évaluation automatisée des préférences humaines observées dans Chatbot Arena. Le benchmark s’appuie sur des juges LLM, dont GPT-4.1 et Gemini-2.5, afin de comparer les réponses selon un win-rate plutôt que par simple exactitude.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLMArena (ex-LMSYS) — Tianle Li, Wei-Lin Chiang et al.
Capacités mesuréesÉvaluation sur des requêtes utilisateur réelles et difficiles, avec forte corrélation aux préférences humaines de Chatbot Arena.
ModalitéTexte
Type de questionsRequêtes ouvertes réelles (ingénierie logicielle, maths, écriture créative, résolution technique)
Métrique d'évaluationLLM-as-judge (win-rate ; juges GPT-4.1 et Gemini-2.5)
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeu500 requêtes difficiles (+ 250 requêtes d'écriture créative)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2-FlashXiaomi86,2 %16 décembre 2025Auto-déclaré
2Qwen3-Next-80B-A3B-InstructQwen82,7 %10 septembre 2025Auto-déclaré
3Qwen3-235B-A22B-Thinking-2507Qwen79,7 %25 juillet 2025Auto-déclaré
4Qwen3-235B-A22B-Instruct-2507Qwen79,2 %22 juillet 2025Auto-déclaré
5Qwen3 VL 235B A22B InstructQwen77,4 %22 septembre 2025Auto-déclaré
6Nemotron 3 Super (120B A12B)NVIDIA73,9 %11 mars 2026Auto-déclaré
7Sarvam-105Bsarvamai71,0 %6 mars 2026Auto-déclaré
8Nemotron 3 Nano (30B A3B)NVIDIA67,7 %15 décembre 2025Auto-déclaré
9Qwen3 VL 32B InstructQwen64,7 %22 septembre 2025Auto-déclaré
10Qwen3-Next-80B-A3B-ThinkingQwen62,3 %10 septembre 2025Auto-déclaré
11Qwen3 VL 32B ThinkingQwen60,5 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B InstructQwen58,5 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B ThinkingQwen56,7 %22 septembre 2025Auto-déclaré
14Qwen3 VL 8B ThinkingQwen51,1 %22 septembre 2025Auto-déclaré
15Sarvam-30Bsarvamai49,0 %6 mars 2026Auto-déclaré
16Qwen3 VL 4B ThinkingQwen36,8 %22 septembre 2025Auto-déclaré

Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Arena-Hard v2 indique qu’un modèle tend à produire des réponses préférées sur des requêtes complexes, ouvertes et proches de cas d’usage réels. Le signal est particulièrement utile pour distinguer des modèles généralistes avancés, car le benchmark a été conçu pour renforcer la séparation entre performances et affiche une forte corrélation avec les préférences humaines. Dans cette base, le classement montre un écart notable entre le score médian et le meilleur modèle, MiMo-V2-Flash, ce qui suggère que l’épreuve reste discriminante pour les modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés de manière indépendante. Comme tout benchmark public, Arena-Hard v2 peut aussi être exposé à des risques de contamination ou de saturation progressive. Sa portée reste enfin limitée par la langue anglaise et par le recours à des juges LLM, qui ne remplacent pas entièrement une évaluation humaine contrôlée.


Sources des scores : llm-stats.