Arena Hard

Arena Hard est un benchmark public conçu par LMSYS / Chatbot Arena pour évaluer des modèles conversationnels instruction-tuned sur des requêtes ouvertes difficiles. Il cible des tâches proches d’usages réels, incluant raisonnement, programmation, mathématiques, écriture et créativité.

Arena Hard est un benchmark public conçu par LMSYS / Chatbot Arena pour évaluer des modèles conversationnels instruction-tuned sur des requêtes ouvertes difficiles. Il cible des tâches proches d’usages réels, incluant raisonnement, programmation, mathématiques, écriture et créativité.

Le benchmark repose sur des comparaisons pairwise de réponses, avec une évaluation automatisée par LLM-as-a-judge. Son rôle est de différencier des modèles déjà performants sur des tâches de génération, en mesurant leur capacité à produire des réponses préférées face à un modèle de référence.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLMSYS / Chatbot Arena
Capacités mesuréescréativité, généraliste, raisonnement, rédaction
ModalitéTexte
Type de questionsquestions ouvertes de génération de réponses, évaluées par comparaison pairwise via LLM-as-a-judge
Métrique d'évaluationtaux de victoire / score Arena-Hard contre un modèle de référence
AccèsPublic
Languesanglais
Taille du jeu500 prompts
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 235B A22BQwen95,6 %25 juillet 2025Auto-déclaré
2Qwen3 32BQwen93,8 %29 avril 2025Auto-déclaré
3Qwen3 30B A3BQwen91,0 %29 avril 2025Auto-déclaré
4Llama-3.3 Nemotron Super 49B v1NVIDIA88,3 %18 mars 2025Auto-déclaré
5Mistral Small 3 24B InstructMistral AI87,6 %30 janvier 2025Auto-déclaré
6Qwen2.5 72B InstructQwen81,2 %19 septembre 2024Auto-déclaré
7Phi 4 Reasoning PlusMicrosoft79,0 %30 avril 2025Auto-déclaré
8DeepSeek-V2.5DeepSeek76,2 %8 mai 2024Auto-déclaré
9Phi 4Microsoft75,4 %12 décembre 2024Auto-déclaré
10Phi 4 ReasoningMicrosoft73,3 %30 avril 2025Auto-déclaré
11Ministral 8B InstructMistral AI70,9 %16 octobre 2024Auto-déclaré
12Jamba 1.5 LargeAI2165,4 %22 août 2024Auto-déclaré
13Mistral Small 4Mistral AI58,3 %16 mars 2026Auto-déclaré
14Granite 3.3 8B BaseIBM57,6 %16 avril 2025Auto-déclaré
15Granite 3.3 8B InstructIBM57,6 %16 avril 2025Auto-déclaré
16MiniStral 3 (14B Instruct 2512)Mistral AI55,1 %4 décembre 2025Auto-déclaré
17Mistral Large 3Mistral AI55,1 %1 septembre 2025Auto-déclaré
18Qwen2.5 7B InstructQwen52,0 %19 septembre 2024Auto-déclaré
19Ministral 3 (8B Instruct 2512)Mistral AI50,9 %4 décembre 2025Auto-déclaré
20Jamba 1.5 MiniAI2146,1 %22 août 2024Auto-déclaré

Classement établi sur 26 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Arena Hard indique qu’un modèle remporte fréquemment ses comparaisons face au modèle de référence, ce qui suggère une forte qualité perçue sur des requêtes ouvertes et exigeantes. La méthode d’évaluation est structurée, avec des juges automatiques GPT-4.1 et Gemini-2.5, et le benchmark revendique une forte corrélation avec les préférences humaines ainsi qu’une meilleure séparation des performances que MT-Bench. Cette rigueur doit toutefois être nuancée, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais, à la taille fixe des prompts et aux risques classiques de contamination ou de saturation lorsque les modèles progressent. Le classement met en évidence un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Qwen3 235B A22B, ce qui confirme l’intérêt du benchmark pour distinguer les modèles de haut niveau.


Sources des scores : llm-stats.