Wild Bench

Wild Bench est un cadre d’évaluation public conçu par Allen Institute for AI (AI2) pour mesurer des modèles de langage sur des tâches ouvertes, réalistes et difficiles. Il s’appuie sur des conversations réelles entre utilisateurs et chatbots afin de tester des réponses génératives dans…

Wild Bench est un cadre d’évaluation public conçu par Allen Institute for AI (AI2) pour mesurer des modèles de langage sur des tâches ouvertes, réalistes et difficiles. Il s’appuie sur des conversations réelles entre utilisateurs et chatbots afin de tester des réponses génératives dans des situations proches d’usages concrets.

Le benchmark couvre notamment le raisonnement, la communication, le suivi d’instructions et des usages généraux. Son intérêt est de compléter les tests plus scolaires ou fermés par une évaluation automatisée de comportements utiles dans des interactions naturelles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for AI (AI2)
Capacités mesuréescommunication, généraliste, raisonnement
ModalitéTexte
Type de questionstâches ouvertes issues de conversations réelles utilisateur-chatbot, avec réponses génératives évaluées automatiquement
Métrique d'évaluationWB-Score et WB-Reward
AccèsPublic
Languesprincipalement anglais
Taille du jeu1 024 tâches
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1MiniStral 3 (14B Instruct 2512)Mistral AI68,5 %4 décembre 2025Auto-déclaré
2Mistral Large 3Mistral AI68,5 %1 septembre 2025Auto-déclaré
3Ministral 3 (8B Instruct 2512)Mistral AI66,8 %4 décembre 2025Auto-déclaré
4Mistral Small 3.2 24B InstructMistral AI65,3 %20 juin 2025Auto-déclaré
5Ministral 3 (3B Instruct 2512)Mistral AI56,8 %4 décembre 2025Auto-déclaré
6Mistral Small 3 24B InstructMistral AI52,2 %30 janvier 2025Auto-déclaré
7Jamba 1.5 LargeAI2148,5 %22 août 2024Auto-déclaré
8Jamba 1.5 MiniAI2142,4 %22 août 2024Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 61,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Wild Bench indique qu’un modèle produit plus souvent des réponses jugées utiles et conformes aux attentes sur des tâches ouvertes, avec une évaluation structurée par WB-Score et WB-Reward. Ces métriques utilisent des checklists propres aux tâches et ont été conçues pour mieux suivre les préférences humaines, ce qui renforce l’intérêt du benchmark pour comparer des modèles conversationnels. La prudence reste toutefois nécessaire, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement reproduits dans un cadre tiers homogène.

  • Portée : le jeu reste principalement anglophone, ce qui limite l’interprétation pour des usages multilingues.
  • Contamination : les tâches provenant de conversations réelles, une exposition indirecte dans les données d’entraînement ne peut pas être exclue sans audit spécifique.
  • Saturation : l’écart entre le score médian de l’ensemble et le meilleur résultat observé dans la base suggère un classement encore discriminant, mais à surveiller si les modèles convergent.

Dans cette sélection, MiniStral 3 (14B Instruct 2512) arrive en tête, ce qui signale une forte performance relative sur des consignes réalistes, sans suffire à résumer toutes les capacités d’un modèle.


Sources des scores : llm-stats.