Arena-Hard v2
Arena-Hard v2 est un benchmark conçu par LMArena (ex-LMSYS), avec Tianle Li, Wei-Lin Chiang et leurs coauteurs, pour évaluer les grands modèles de langage sur des requêtes ouvertes issues d’usages réels. Il cible des tâches difficiles, notamment en ingénierie logicielle, en…
Arena-Hard v2 est un benchmark conçu par LMArena (ex-LMSYS), avec Tianle Li, Wei-Lin Chiang et leurs coauteurs, pour évaluer les grands modèles de langage sur des requêtes ouvertes issues d’usages réels. Il cible des tâches difficiles, notamment en ingénierie logicielle, en mathématiques, en écriture créative et en résolution de problèmes techniques.
Son rôle est de rapprocher l’évaluation automatisée des préférences humaines observées dans Chatbot Arena. Le benchmark s’appuie sur des juges LLM, dont GPT-4.1 et Gemini-2.5, afin de comparer les réponses selon un win-rate plutôt que par simple exactitude.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | LMArena (ex-LMSYS) — Tianle Li, Wei-Lin Chiang et al. |
| Capacités mesurées | Évaluation sur des requêtes utilisateur réelles et difficiles, avec forte corrélation aux préférences humaines de Chatbot Arena. |
| Modalité | Texte |
| Type de questions | Requêtes ouvertes réelles (ingénierie logicielle, maths, écriture créative, résolution technique) |
| Métrique d'évaluation | LLM-as-judge (win-rate ; juges GPT-4.1 et Gemini-2.5) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | 500 requêtes difficiles (+ 250 requêtes d'écriture créative) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2-Flash | Xiaomi | 86,2 % | 16 décembre 2025 | Auto-déclaré |
| 2 | Qwen3-Next-80B-A3B-Instruct | Qwen | 82,7 % | 10 septembre 2025 | Auto-déclaré |
| 3 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 79,7 % | 25 juillet 2025 | Auto-déclaré |
| 4 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 79,2 % | 22 juillet 2025 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Instruct | Qwen | 77,4 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Nemotron 3 Super (120B A12B) | NVIDIA | 73,9 % | 11 mars 2026 | Auto-déclaré |
| 7 | Sarvam-105B | sarvamai | 71,0 % | 6 mars 2026 | Auto-déclaré |
| 8 | Nemotron 3 Nano (30B A3B) | NVIDIA | 67,7 % | 15 décembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 32B Instruct | Qwen | 64,7 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3-Next-80B-A3B-Thinking | Qwen | 62,3 % | 10 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 32B Thinking | Qwen | 60,5 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Instruct | Qwen | 58,5 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Thinking | Qwen | 56,7 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 8B Thinking | Qwen | 51,1 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Sarvam-30B | sarvamai | 49,0 % | 6 mars 2026 | Auto-déclaré |
| 16 | Qwen3 VL 4B Thinking | Qwen | 36,8 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Arena-Hard v2 indique qu’un modèle tend à produire des réponses préférées sur des requêtes complexes, ouvertes et proches de cas d’usage réels. Le signal est particulièrement utile pour distinguer des modèles généralistes avancés, car le benchmark a été conçu pour renforcer la séparation entre performances et affiche une forte corrélation avec les préférences humaines. Dans cette base, le classement montre un écart notable entre le score médian et le meilleur modèle, MiMo-V2-Flash, ce qui suggère que l’épreuve reste discriminante pour les modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés de manière indépendante. Comme tout benchmark public, Arena-Hard v2 peut aussi être exposé à des risques de contamination ou de saturation progressive. Sa portée reste enfin limitée par la langue anglaise et par le recours à des juges LLM, qui ne remplacent pas entièrement une évaluation humaine contrôlée.
Sources des scores : llm-stats.