Langage & rédaction

Arena Hard

Arena Hard est un benchmark public conçu par LMSYS / Chatbot Arena pour évaluer des modèles conversationnels instruction-tuned sur des requêtes ouvertes difficiles. Il cible des tâches proches d’usages réels, incluant raisonnement, programmation, mathématiques, écriture et créativité.

Le benchmark repose sur des comparaisons pairwise de réponses, avec une évaluation automatisée par LLM-as-a-judge. Son rôle est de différencier des modèles déjà performants sur des tâches de génération, en mesurant leur capacité à produire des réponses préférées face à un modèle de référence.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	LMSYS / Chatbot Arena
Capacités mesurées	créativité, généraliste, raisonnement, rédaction
Modalité	Texte
Type de questions	questions ouvertes de génération de réponses, évaluées par comparaison pairwise via LLM-as-a-judge
Métrique d'évaluation	taux de victoire / score Arena-Hard contre un modèle de référence
Accès	Public
Langues	anglais
Taille du jeu	500 prompts
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 235B A22B	Qwen	95,6 %	25 juillet 2025	Auto-déclaré
2	Qwen3 32B	Qwen	93,8 %	29 avril 2025	Auto-déclaré
3	Qwen3 30B A3B	Qwen	91,0 %	29 avril 2025	Auto-déclaré
4	Llama-3.3 Nemotron Super 49B v1	NVIDIA	88,3 %	18 mars 2025	Auto-déclaré
5	Mistral Small 3 24B Instruct	Mistral AI	87,6 %	30 janvier 2025	Auto-déclaré
6	Qwen2.5 72B Instruct	Qwen	81,2 %	19 septembre 2024	Auto-déclaré
7	Phi 4 Reasoning Plus	Microsoft	79,0 %	30 avril 2025	Auto-déclaré
8	DeepSeek-V2.5	DeepSeek	76,2 %	8 mai 2024	Auto-déclaré
9	Phi 4	Microsoft	75,4 %	12 décembre 2024	Auto-déclaré
10	Phi 4 Reasoning	Microsoft	73,3 %	30 avril 2025	Auto-déclaré
11	Ministral 8B Instruct	Mistral AI	70,9 %	16 octobre 2024	Auto-déclaré
12	Jamba 1.5 Large	AI21	65,4 %	22 août 2024	Auto-déclaré
13	Mistral Small 4	Mistral AI	58,3 %	16 mars 2026	Auto-déclaré
14	Granite 3.3 8B Base	IBM	57,6 %	16 avril 2025	Auto-déclaré
15	Granite 3.3 8B Instruct	IBM	57,6 %	16 avril 2025	Auto-déclaré
16	MiniStral 3 (14B Instruct 2512)	Mistral AI	55,1 %	4 décembre 2025	Auto-déclaré
17	Mistral Large 3	Mistral AI	55,1 %	1 septembre 2025	Auto-déclaré
18	Qwen2.5 7B Instruct	Qwen	52,0 %	19 septembre 2024	Auto-déclaré
19	Ministral 3 (8B Instruct 2512)	Mistral AI	50,9 %	4 décembre 2025	Auto-déclaré
20	Jamba 1.5 Mini	AI21	46,1 %	22 août 2024	Auto-déclaré

Classement établi sur 26 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Arena Hard indique qu’un modèle remporte fréquemment ses comparaisons face au modèle de référence, ce qui suggère une forte qualité perçue sur des requêtes ouvertes et exigeantes. La méthode d’évaluation est structurée, avec des juges automatiques GPT-4.1 et Gemini-2.5, et le benchmark revendique une forte corrélation avec les préférences humaines ainsi qu’une meilleure séparation des performances que MT-Bench. Cette rigueur doit toutefois être nuancée, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais, à la taille fixe des prompts et aux risques classiques de contamination ou de saturation lorsque les modèles progressent. Le classement met en évidence un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Qwen3 235B A22B, ce qui confirme l’intérêt du benchmark pour distinguer les modèles de haut niveau.

Sources des scores : llm-stats.

Arena Hard

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench