Arena Hard
Arena Hard est un benchmark public conçu par LMSYS / Chatbot Arena pour évaluer des modèles conversationnels instruction-tuned sur des requêtes ouvertes difficiles. Il cible des tâches proches d’usages réels, incluant raisonnement, programmation, mathématiques, écriture et créativité.
Arena Hard est un benchmark public conçu par LMSYS / Chatbot Arena pour évaluer des modèles conversationnels instruction-tuned sur des requêtes ouvertes difficiles. Il cible des tâches proches d’usages réels, incluant raisonnement, programmation, mathématiques, écriture et créativité.
Le benchmark repose sur des comparaisons pairwise de réponses, avec une évaluation automatisée par LLM-as-a-judge. Son rôle est de différencier des modèles déjà performants sur des tâches de génération, en mesurant leur capacité à produire des réponses préférées face à un modèle de référence.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | LMSYS / Chatbot Arena |
| Capacités mesurées | créativité, généraliste, raisonnement, rédaction |
| Modalité | Texte |
| Type de questions | questions ouvertes de génération de réponses, évaluées par comparaison pairwise via LLM-as-a-judge |
| Métrique d'évaluation | taux de victoire / score Arena-Hard contre un modèle de référence |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 500 prompts |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 235B A22B | Qwen | 95,6 % | 25 juillet 2025 | Auto-déclaré |
| 2 | Qwen3 32B | Qwen | 93,8 % | 29 avril 2025 | Auto-déclaré |
| 3 | Qwen3 30B A3B | Qwen | 91,0 % | 29 avril 2025 | Auto-déclaré |
| 4 | Llama-3.3 Nemotron Super 49B v1 | NVIDIA | 88,3 % | 18 mars 2025 | Auto-déclaré |
| 5 | Mistral Small 3 24B Instruct | Mistral AI | 87,6 % | 30 janvier 2025 | Auto-déclaré |
| 6 | Qwen2.5 72B Instruct | Qwen | 81,2 % | 19 septembre 2024 | Auto-déclaré |
| 7 | Phi 4 Reasoning Plus | Microsoft | 79,0 % | 30 avril 2025 | Auto-déclaré |
| 8 | DeepSeek-V2.5 | DeepSeek | 76,2 % | 8 mai 2024 | Auto-déclaré |
| 9 | Phi 4 | Microsoft | 75,4 % | 12 décembre 2024 | Auto-déclaré |
| 10 | Phi 4 Reasoning | Microsoft | 73,3 % | 30 avril 2025 | Auto-déclaré |
| 11 | Ministral 8B Instruct | Mistral AI | 70,9 % | 16 octobre 2024 | Auto-déclaré |
| 12 | Jamba 1.5 Large | AI21 | 65,4 % | 22 août 2024 | Auto-déclaré |
| 13 | Mistral Small 4 | Mistral AI | 58,3 % | 16 mars 2026 | Auto-déclaré |
| 14 | Granite 3.3 8B Base | IBM | 57,6 % | 16 avril 2025 | Auto-déclaré |
| 15 | Granite 3.3 8B Instruct | IBM | 57,6 % | 16 avril 2025 | Auto-déclaré |
| 16 | MiniStral 3 (14B Instruct 2512) | Mistral AI | 55,1 % | 4 décembre 2025 | Auto-déclaré |
| 17 | Mistral Large 3 | Mistral AI | 55,1 % | 1 septembre 2025 | Auto-déclaré |
| 18 | Qwen2.5 7B Instruct | Qwen | 52,0 % | 19 septembre 2024 | Auto-déclaré |
| 19 | Ministral 3 (8B Instruct 2512) | Mistral AI | 50,9 % | 4 décembre 2025 | Auto-déclaré |
| 20 | Jamba 1.5 Mini | AI21 | 46,1 % | 22 août 2024 | Auto-déclaré |
Classement établi sur 26 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Arena Hard indique qu’un modèle remporte fréquemment ses comparaisons face au modèle de référence, ce qui suggère une forte qualité perçue sur des requêtes ouvertes et exigeantes. La méthode d’évaluation est structurée, avec des juges automatiques GPT-4.1 et Gemini-2.5, et le benchmark revendique une forte corrélation avec les préférences humaines ainsi qu’une meilleure séparation des performances que MT-Bench. Cette rigueur doit toutefois être nuancée, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais, à la taille fixe des prompts et aux risques classiques de contamination ou de saturation lorsque les modèles progressent. Le classement met en évidence un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Qwen3 235B A22B, ce qui confirme l’intérêt du benchmark pour distinguer les modèles de haut niveau.
Sources des scores : llm-stats.