Wild Bench
Wild Bench est un cadre d’évaluation public conçu par Allen Institute for AI (AI2) pour mesurer des modèles de langage sur des tâches ouvertes, réalistes et difficiles. Il s’appuie sur des conversations réelles entre utilisateurs et chatbots afin de tester des réponses génératives dans…
Wild Bench est un cadre d’évaluation public conçu par Allen Institute for AI (AI2) pour mesurer des modèles de langage sur des tâches ouvertes, réalistes et difficiles. Il s’appuie sur des conversations réelles entre utilisateurs et chatbots afin de tester des réponses génératives dans des situations proches d’usages concrets.
Le benchmark couvre notamment le raisonnement, la communication, le suivi d’instructions et des usages généraux. Son intérêt est de compléter les tests plus scolaires ou fermés par une évaluation automatisée de comportements utiles dans des interactions naturelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for AI (AI2) |
| Capacités mesurées | communication, généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | tâches ouvertes issues de conversations réelles utilisateur-chatbot, avec réponses génératives évaluées automatiquement |
| Métrique d'évaluation | WB-Score et WB-Reward |
| Accès | Public |
| Langues | principalement anglais |
| Taille du jeu | 1 024 tâches |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiniStral 3 (14B Instruct 2512) | Mistral AI | 68,5 % | 4 décembre 2025 | Auto-déclaré |
| 2 | Mistral Large 3 | Mistral AI | 68,5 % | 1 septembre 2025 | Auto-déclaré |
| 3 | Ministral 3 (8B Instruct 2512) | Mistral AI | 66,8 % | 4 décembre 2025 | Auto-déclaré |
| 4 | Mistral Small 3.2 24B Instruct | Mistral AI | 65,3 % | 20 juin 2025 | Auto-déclaré |
| 5 | Ministral 3 (3B Instruct 2512) | Mistral AI | 56,8 % | 4 décembre 2025 | Auto-déclaré |
| 6 | Mistral Small 3 24B Instruct | Mistral AI | 52,2 % | 30 janvier 2025 | Auto-déclaré |
| 7 | Jamba 1.5 Large | AI21 | 48,5 % | 22 août 2024 | Auto-déclaré |
| 8 | Jamba 1.5 Mini | AI21 | 42,4 % | 22 août 2024 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 61,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Wild Bench indique qu’un modèle produit plus souvent des réponses jugées utiles et conformes aux attentes sur des tâches ouvertes, avec une évaluation structurée par WB-Score et WB-Reward. Ces métriques utilisent des checklists propres aux tâches et ont été conçues pour mieux suivre les préférences humaines, ce qui renforce l’intérêt du benchmark pour comparer des modèles conversationnels. La prudence reste toutefois nécessaire, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement reproduits dans un cadre tiers homogène.
- Portée : le jeu reste principalement anglophone, ce qui limite l’interprétation pour des usages multilingues.
- Contamination : les tâches provenant de conversations réelles, une exposition indirecte dans les données d’entraînement ne peut pas être exclue sans audit spécifique.
- Saturation : l’écart entre le score médian de l’ensemble et le meilleur résultat observé dans la base suggère un classement encore discriminant, mais à surveiller si les modèles convergent.
Dans cette sélection, MiniStral 3 (14B Instruct 2512) arrive en tête, ce qui signale une forte performance relative sur des consignes réalistes, sans suffire à résumer toutes les capacités d’un modèle.
Sources des scores : llm-stats.