Mathématiques

BBH

BBH, pour Big-Bench Hard, est un benchmark d’évaluation du raisonnement créé par Mirac Suzgun et al. Il regroupe des tâches difficiles issues de BIG-Bench, choisies parce que les évaluations antérieures de modèles de langage n’y dépassaient pas la performance moyenne d’annotateurs humains.

Le benchmark sert à tester des capacités de raisonnement multi-étapes dans des domaines variés, comme l’arithmétique, la logique, la compréhension temporelle et spatiale, le raisonnement causal et la compréhension du langage. Il occupe ainsi une place de référence pour comparer la robustesse des modèles sur des problèmes textuels complexes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mirac Suzgun et al.
Capacités mesurées	langage, mathématiques, raisonnement
Modalité	Texte
Type de questions	tâches textuelles variées, principalement questions à réponse courte ou choix contraint selon la tâche
Métrique d'évaluation	accuracy / exact match
Accès	Public
Langues	anglais
Taille du jeu	23 tâches, jusqu’à environ 250 exemples par tâche
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 235B A22B	Qwen	88,9 %	25 juillet 2025	Auto-déclaré
2	MiMo-V2.5-Pro	Xiaomi	88,4 %	27 avril 2026	Auto-déclaré
3	Nova Pro	Amazon	86,9 %	20 novembre 2024	Auto-déclaré
4	Qwen2.5 32B Instruct	Qwen	84,5 %	19 septembre 2024	Auto-déclaré
5	DeepSeek-V2.5	DeepSeek	84,3 %	8 mai 2024	Auto-déclaré
6	Nova Lite	Amazon	82,4 %	20 novembre 2024	Auto-déclaré
7	Qwen2 72B Instruct	Qwen	82,4 %	23 juillet 2024	Auto-déclaré
8	MiniCPM-SALA	OpenBMB	81,5 %	11 février 2026	Auto-déclaré
9	Nova Micro	Amazon	79,5 %	20 novembre 2024	Auto-déclaré
10	Qwen2.5 14B Instruct	Qwen	78,2 %	19 septembre 2024	Auto-déclaré
11	Hermes 3 70B	Nous Research	67,8 %	15 août 2024	Auto-déclaré
12	ERNIE 4.5	Baidu	30,4 %	25 juin 2025	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 82,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BBH indique une bonne capacité à produire des réponses exactes sur des tâches de raisonnement complexes, souvent formulées en réponse courte ou en choix contraint. La métrique accuracy / exact match favorise une lecture nette des résultats, mais elle ne décrit pas toujours la qualité du raisonnement intermédiaire. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une prudence d’interprétation par rapport à des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian élevé de l’ensemble et le meilleur score atteint par Qwen3 235B A22B suggèrent que BBH reste discriminant, mais peut montrer des signes de saturation partielle pour les modèles les plus performants. Son accès public renforce aussi le risque de contamination des données d’entraînement. Enfin, sa portée demeure centrée sur l’anglais et sur 23 tâches textuelles, ce qui limite l’extrapolation à d’autres langues, formats d’interaction ou compétences non couvertes.

Sources des scores : llm-stats.

BBH

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench