Langage & rédaction

BIG-Bench Extra Hard

BIG-Bench Extra Hard est un benchmark public créé par Google DeepMind pour évaluer des capacités de raisonnement général difficiles et variées. Il prolonge l’esprit de BIG-Bench Hard en remplaçant chaque tâche par une variante nouvelle, conçue pour être nettement plus exigeante.

Le benchmark vise des modèles à raisonnement avancé et cherche à dépasser les évaluations déjà fortement saturées, notamment en mathématiques et en code. Ses tâches couvrent notamment le raisonnement multi-étapes, causal, spatial, temporel, géométrique, linguistique, logique et la compréhension de l’humour.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	Raisonnement général difficile et diversifié (au-delà des maths et du code désormais saturés), conçu pour des modèles à raisonnement avancé
Modalité	Texte
Type de questions	Tâches de raisonnement variées (chaque tâche de BIG-Bench Hard remplacée par une variante nouvelle et nettement plus difficile)
Métrique d'évaluation	Accuracy (moyenne harmonique sur les tâches)
Accès	Public
Langues	Anglais
Taille du jeu	4 520 exemples (version complète) ; 460 (version mini)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemma 4 31B	Google	74,4 %	2 avril 2026	Auto-déclaré
2	Gemma 4 26B-A4B	Google	64,8 %	2 avril 2026	Auto-déclaré
3	Gemma 4 12B	Google	53,0 %	23 mai 2026	Auto-déclaré
4	DiffusionGemma 26B-A4B	Google	47,6 %	10 juin 2026	Auto-déclaré
5	Gemma 4 E4B	Google	33,1 %	2 avril 2026	Auto-déclaré
6	Gemma 4 E2B	Google	21,9 %	2 avril 2026	Auto-déclaré
7	Gemma 3 27B	Google	19,3 %	12 mars 2025	Auto-déclaré
8	Gemma 3 12B	Google	16,3 %	12 mars 2025	Auto-déclaré
9	Gemini Diffusion	Google	15,0 %	20 mai 2025	Auto-déclaré
10	Gemma 3 4B	Google	11,0 %	12 mars 2025	Auto-déclaré
11	Gemma 3 1B	Google	7,2 %	12 mars 2025	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 21,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BIG-Bench Extra Hard signale une capacité à maintenir une bonne précision sur des tâches de raisonnement hétérogènes et difficiles, plutôt qu’une performance isolée sur un seul domaine. La moyenne harmonique renforce cette lecture, car elle pénalise davantage les faiblesses marquées sur certaines tâches. Dans la base considérée, le classement montre un écart important entre le score médian et le meilleur résultat, Gemma 4 31B atteignant 74 %, ce qui suggère une forte différenciation entre modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la force probante par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi exposer le benchmark à des risques de contamination au fil du temps. Sa portée reste centrée sur l’anglais et sur le raisonnement général difficile, sans couvrir toutes les dimensions d’un modèle. Enfin, les 11 modèles classés dans la base sont tous édités par Google, également lié au développement du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.

Sources des scores : llm-stats.

BIG-Bench Extra Hard

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench