Langage & rédaction

Arena-Hard v2

Arena-Hard v2 est un benchmark conçu par LMArena (ex-LMSYS), avec Tianle Li, Wei-Lin Chiang et leurs coauteurs, pour évaluer les grands modèles de langage sur des requêtes ouvertes issues d’usages réels. Il cible des tâches difficiles, notamment en ingénierie logicielle, en…

Son rôle est de rapprocher l’évaluation automatisée des préférences humaines observées dans Chatbot Arena. Le benchmark s’appuie sur des juges LLM, dont GPT-4.1 et Gemini-2.5, afin de comparer les réponses selon un win-rate plutôt que par simple exactitude.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	LMArena (ex-LMSYS) — Tianle Li, Wei-Lin Chiang et al.
Capacités mesurées	Évaluation sur des requêtes utilisateur réelles et difficiles, avec forte corrélation aux préférences humaines de Chatbot Arena.
Modalité	Texte
Type de questions	Requêtes ouvertes réelles (ingénierie logicielle, maths, écriture créative, résolution technique)
Métrique d'évaluation	LLM-as-judge (win-rate ; juges GPT-4.1 et Gemini-2.5)
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	500 requêtes difficiles (+ 250 requêtes d'écriture créative)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2-Flash	Xiaomi	86,2 %	16 décembre 2025	Auto-déclaré
2	Qwen3-Next-80B-A3B-Instruct	Qwen	82,7 %	10 septembre 2025	Auto-déclaré
3	Qwen3-235B-A22B-Thinking-2507	Qwen	79,7 %	25 juillet 2025	Auto-déclaré
4	Qwen3-235B-A22B-Instruct-2507	Qwen	79,2 %	22 juillet 2025	Auto-déclaré
5	Qwen3 VL 235B A22B Instruct	Qwen	77,4 %	22 septembre 2025	Auto-déclaré
6	Nemotron 3 Super (120B A12B)	NVIDIA	73,9 %	11 mars 2026	Auto-déclaré
7	Sarvam-105B	sarvamai	71,0 %	6 mars 2026	Auto-déclaré
8	Nemotron 3 Nano (30B A3B)	NVIDIA	67,7 %	15 décembre 2025	Auto-déclaré
9	Qwen3 VL 32B Instruct	Qwen	64,7 %	22 septembre 2025	Auto-déclaré
10	Qwen3-Next-80B-A3B-Thinking	Qwen	62,3 %	10 septembre 2025	Auto-déclaré
11	Qwen3 VL 32B Thinking	Qwen	60,5 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Instruct	Qwen	58,5 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Thinking	Qwen	56,7 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 8B Thinking	Qwen	51,1 %	22 septembre 2025	Auto-déclaré
15	Sarvam-30B	sarvamai	49,0 %	6 mars 2026	Auto-déclaré
16	Qwen3 VL 4B Thinking	Qwen	36,8 %	22 septembre 2025	Auto-déclaré

Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Arena-Hard v2 indique qu’un modèle tend à produire des réponses préférées sur des requêtes complexes, ouvertes et proches de cas d’usage réels. Le signal est particulièrement utile pour distinguer des modèles généralistes avancés, car le benchmark a été conçu pour renforcer la séparation entre performances et affiche une forte corrélation avec les préférences humaines. Dans cette base, le classement montre un écart notable entre le score médian et le meilleur modèle, MiMo-V2-Flash, ce qui suggère que l’épreuve reste discriminante pour les modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés de manière indépendante. Comme tout benchmark public, Arena-Hard v2 peut aussi être exposé à des risques de contamination ou de saturation progressive. Sa portée reste enfin limitée par la langue anglaise et par le recours à des juges LLM, qui ne remplacent pas entièrement une évaluation humaine contrôlée.

Sources des scores : llm-stats.

Arena-Hard v2

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench