BBH

BBH, pour Big-Bench Hard, est un benchmark d’évaluation du raisonnement créé par Mirac Suzgun et al. Il regroupe des tâches difficiles issues de BIG-Bench, choisies parce que les évaluations antérieures de modèles de langage n’y dépassaient pas la performance moyenne d’annotateurs humains.

BBH, pour Big-Bench Hard, est un benchmark d’évaluation du raisonnement créé par Mirac Suzgun et al. Il regroupe des tâches difficiles issues de BIG-Bench, choisies parce que les évaluations antérieures de modèles de langage n’y dépassaient pas la performance moyenne d’annotateurs humains.

Le benchmark sert à tester des capacités de raisonnement multi-étapes dans des domaines variés, comme l’arithmétique, la logique, la compréhension temporelle et spatiale, le raisonnement causal et la compréhension du langage. Il occupe ainsi une place de référence pour comparer la robustesse des modèles sur des problèmes textuels complexes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMirac Suzgun et al.
Capacités mesuréeslangage, mathématiques, raisonnement
ModalitéTexte
Type de questionstâches textuelles variées, principalement questions à réponse courte ou choix contraint selon la tâche
Métrique d'évaluationaccuracy / exact match
AccèsPublic
Languesanglais
Taille du jeu23 tâches, jusqu’à environ 250 exemples par tâche
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 235B A22BQwen88,9 %25 juillet 2025Auto-déclaré
2MiMo-V2.5-ProXiaomi88,4 %27 avril 2026Auto-déclaré
3Nova ProAmazon86,9 %20 novembre 2024Auto-déclaré
4Qwen2.5 32B InstructQwen84,5 %19 septembre 2024Auto-déclaré
5DeepSeek-V2.5DeepSeek84,3 %8 mai 2024Auto-déclaré
6Nova LiteAmazon82,4 %20 novembre 2024Auto-déclaré
7Qwen2 72B InstructQwen82,4 %23 juillet 2024Auto-déclaré
8MiniCPM-SALAOpenBMB81,5 %11 février 2026Auto-déclaré
9Nova MicroAmazon79,5 %20 novembre 2024Auto-déclaré
10Qwen2.5 14B InstructQwen78,2 %19 septembre 2024Auto-déclaré
11Hermes 3 70BNous Research67,8 %15 août 2024Auto-déclaré
12ERNIE 4.5Baidu30,4 %25 juin 2025Auto-déclaré

Classement établi sur 12 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 82,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BBH indique une bonne capacité à produire des réponses exactes sur des tâches de raisonnement complexes, souvent formulées en réponse courte ou en choix contraint. La métrique accuracy / exact match favorise une lecture nette des résultats, mais elle ne décrit pas toujours la qualité du raisonnement intermédiaire. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une prudence d’interprétation par rapport à des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian élevé de l’ensemble et le meilleur score atteint par Qwen3 235B A22B suggèrent que BBH reste discriminant, mais peut montrer des signes de saturation partielle pour les modèles les plus performants. Son accès public renforce aussi le risque de contamination des données d’entraînement. Enfin, sa portée demeure centrée sur l’anglais et sur 23 tâches textuelles, ce qui limite l’extrapolation à d’autres langues, formats d’interaction ou compétences non couvertes.


Sources des scores : llm-stats.