BBH
BBH, pour Big-Bench Hard, est un benchmark d’évaluation du raisonnement créé par Mirac Suzgun et al. Il regroupe des tâches difficiles issues de BIG-Bench, choisies parce que les évaluations antérieures de modèles de langage n’y dépassaient pas la performance moyenne d’annotateurs humains.
BBH, pour Big-Bench Hard, est un benchmark d’évaluation du raisonnement créé par Mirac Suzgun et al. Il regroupe des tâches difficiles issues de BIG-Bench, choisies parce que les évaluations antérieures de modèles de langage n’y dépassaient pas la performance moyenne d’annotateurs humains.
Le benchmark sert à tester des capacités de raisonnement multi-étapes dans des domaines variés, comme l’arithmétique, la logique, la compréhension temporelle et spatiale, le raisonnement causal et la compréhension du langage. Il occupe ainsi une place de référence pour comparer la robustesse des modèles sur des problèmes textuels complexes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mirac Suzgun et al. |
| Capacités mesurées | langage, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | tâches textuelles variées, principalement questions à réponse courte ou choix contraint selon la tâche |
| Métrique d'évaluation | accuracy / exact match |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 23 tâches, jusqu’à environ 250 exemples par tâche |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 235B A22B | Qwen | 88,9 % | 25 juillet 2025 | Auto-déclaré |
| 2 | MiMo-V2.5-Pro | Xiaomi | 88,4 % | 27 avril 2026 | Auto-déclaré |
| 3 | Nova Pro | Amazon | 86,9 % | 20 novembre 2024 | Auto-déclaré |
| 4 | Qwen2.5 32B Instruct | Qwen | 84,5 % | 19 septembre 2024 | Auto-déclaré |
| 5 | DeepSeek-V2.5 | DeepSeek | 84,3 % | 8 mai 2024 | Auto-déclaré |
| 6 | Nova Lite | Amazon | 82,4 % | 20 novembre 2024 | Auto-déclaré |
| 7 | Qwen2 72B Instruct | Qwen | 82,4 % | 23 juillet 2024 | Auto-déclaré |
| 8 | MiniCPM-SALA | OpenBMB | 81,5 % | 11 février 2026 | Auto-déclaré |
| 9 | Nova Micro | Amazon | 79,5 % | 20 novembre 2024 | Auto-déclaré |
| 10 | Qwen2.5 14B Instruct | Qwen | 78,2 % | 19 septembre 2024 | Auto-déclaré |
| 11 | Hermes 3 70B | Nous Research | 67,8 % | 15 août 2024 | Auto-déclaré |
| 12 | ERNIE 4.5 | Baidu | 30,4 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 82,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BBH indique une bonne capacité à produire des réponses exactes sur des tâches de raisonnement complexes, souvent formulées en réponse courte ou en choix contraint. La métrique accuracy / exact match favorise une lecture nette des résultats, mais elle ne décrit pas toujours la qualité du raisonnement intermédiaire. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une prudence d’interprétation par rapport à des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian élevé de l’ensemble et le meilleur score atteint par Qwen3 235B A22B suggèrent que BBH reste discriminant, mais peut montrer des signes de saturation partielle pour les modèles les plus performants. Son accès public renforce aussi le risque de contamination des données d’entraînement. Enfin, sa portée demeure centrée sur l’anglais et sur 23 tâches textuelles, ce qui limite l’extrapolation à d’autres langues, formats d’interaction ou compétences non couvertes.
Sources des scores : llm-stats.