BIG-Bench Extra Hard

BIG-Bench Extra Hard est un benchmark public créé par Google DeepMind pour évaluer des capacités de raisonnement général difficiles et variées. Il prolonge l’esprit de BIG-Bench Hard en remplaçant chaque tâche par une variante nouvelle, conçue pour être nettement plus exigeante.

BIG-Bench Extra Hard est un benchmark public créé par Google DeepMind pour évaluer des capacités de raisonnement général difficiles et variées. Il prolonge l’esprit de BIG-Bench Hard en remplaçant chaque tâche par une variante nouvelle, conçue pour être nettement plus exigeante.

Le benchmark vise des modèles à raisonnement avancé et cherche à dépasser les évaluations déjà fortement saturées, notamment en mathématiques et en code. Ses tâches couvrent notamment le raisonnement multi-étapes, causal, spatial, temporel, géométrique, linguistique, logique et la compréhension de l’humour.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesRaisonnement général difficile et diversifié (au-delà des maths et du code désormais saturés), conçu pour des modèles à raisonnement avancé
ModalitéTexte
Type de questionsTâches de raisonnement variées (chaque tâche de BIG-Bench Hard remplacée par une variante nouvelle et nettement plus difficile)
Métrique d'évaluationAccuracy (moyenne harmonique sur les tâches)
AccèsPublic
LanguesAnglais
Taille du jeu4 520 exemples (version complète) ; 460 (version mini)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Gemma 4 31BGoogle74,4 %2 avril 2026Auto-déclaré
2Gemma 4 26B-A4BGoogle64,8 %2 avril 2026Auto-déclaré
3Gemma 4 12BGoogle53,0 %23 mai 2026Auto-déclaré
4DiffusionGemma 26B-A4BGoogle47,6 %10 juin 2026Auto-déclaré
5Gemma 4 E4BGoogle33,1 %2 avril 2026Auto-déclaré
6Gemma 4 E2BGoogle21,9 %2 avril 2026Auto-déclaré
7Gemma 3 27BGoogle19,3 %12 mars 2025Auto-déclaré
8Gemma 3 12BGoogle16,3 %12 mars 2025Auto-déclaré
9Gemini DiffusionGoogle15,0 %20 mai 2025Auto-déclaré
10Gemma 3 4BGoogle11,0 %12 mars 2025Auto-déclaré
11Gemma 3 1BGoogle7,2 %12 mars 2025Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 21,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BIG-Bench Extra Hard signale une capacité à maintenir une bonne précision sur des tâches de raisonnement hétérogènes et difficiles, plutôt qu’une performance isolée sur un seul domaine. La moyenne harmonique renforce cette lecture, car elle pénalise davantage les faiblesses marquées sur certaines tâches. Dans la base considérée, le classement montre un écart important entre le score médian et le meilleur résultat, Gemma 4 31B atteignant 74 %, ce qui suggère une forte différenciation entre modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la force probante par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi exposer le benchmark à des risques de contamination au fil du temps. Sa portée reste centrée sur l’anglais et sur le raisonnement général difficile, sans couvrir toutes les dimensions d’un modèle. Enfin, les 11 modèles classés dans la base sont tous édités par Google, également lié au développement du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.


Sources des scores : llm-stats.