Langage & rédaction

Wild Bench

Wild Bench est un cadre d’évaluation public conçu par Allen Institute for AI (AI2) pour mesurer des modèles de langage sur des tâches ouvertes, réalistes et difficiles. Il s’appuie sur des conversations réelles entre utilisateurs et chatbots afin de tester des réponses génératives dans…

Le benchmark couvre notamment le raisonnement, la communication, le suivi d’instructions et des usages généraux. Son intérêt est de compléter les tests plus scolaires ou fermés par une évaluation automatisée de comportements utiles dans des interactions naturelles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for AI (AI2)
Capacités mesurées	communication, généraliste, raisonnement
Modalité	Texte
Type de questions	tâches ouvertes issues de conversations réelles utilisateur-chatbot, avec réponses génératives évaluées automatiquement
Métrique d'évaluation	WB-Score et WB-Reward
Accès	Public
Langues	principalement anglais
Taille du jeu	1 024 tâches
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiniStral 3 (14B Instruct 2512)	Mistral AI	68,5 %	4 décembre 2025	Auto-déclaré
2	Mistral Large 3	Mistral AI	68,5 %	1 septembre 2025	Auto-déclaré
3	Ministral 3 (8B Instruct 2512)	Mistral AI	66,8 %	4 décembre 2025	Auto-déclaré
4	Mistral Small 3.2 24B Instruct	Mistral AI	65,3 %	20 juin 2025	Auto-déclaré
5	Ministral 3 (3B Instruct 2512)	Mistral AI	56,8 %	4 décembre 2025	Auto-déclaré
6	Mistral Small 3 24B Instruct	Mistral AI	52,2 %	30 janvier 2025	Auto-déclaré
7	Jamba 1.5 Large	AI21	48,5 %	22 août 2024	Auto-déclaré
8	Jamba 1.5 Mini	AI21	42,4 %	22 août 2024	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 61,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Wild Bench indique qu’un modèle produit plus souvent des réponses jugées utiles et conformes aux attentes sur des tâches ouvertes, avec une évaluation structurée par WB-Score et WB-Reward. Ces métriques utilisent des checklists propres aux tâches et ont été conçues pour mieux suivre les préférences humaines, ce qui renforce l’intérêt du benchmark pour comparer des modèles conversationnels. La prudence reste toutefois nécessaire, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement reproduits dans un cadre tiers homogène.

Portée : le jeu reste principalement anglophone, ce qui limite l’interprétation pour des usages multilingues.
Contamination : les tâches provenant de conversations réelles, une exposition indirecte dans les données d’entraînement ne peut pas être exclue sans audit spécifique.
Saturation : l’écart entre le score médian de l’ensemble et le meilleur résultat observé dans la base suggère un classement encore discriminant, mais à surveiller si les modèles convergent.

Dans cette sélection, MiniStral 3 (14B Instruct 2512) arrive en tête, ce qui signale une forte performance relative sur des consignes réalistes, sans suffire à résumer toutes les capacités d’un modèle.

Sources des scores : llm-stats.

Wild Bench

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench