BIG-Bench Extra Hard
BIG-Bench Extra Hard est un benchmark public créé par Google DeepMind pour évaluer des capacités de raisonnement général difficiles et variées. Il prolonge l’esprit de BIG-Bench Hard en remplaçant chaque tâche par une variante nouvelle, conçue pour être nettement plus exigeante.
BIG-Bench Extra Hard est un benchmark public créé par Google DeepMind pour évaluer des capacités de raisonnement général difficiles et variées. Il prolonge l’esprit de BIG-Bench Hard en remplaçant chaque tâche par une variante nouvelle, conçue pour être nettement plus exigeante.
Le benchmark vise des modèles à raisonnement avancé et cherche à dépasser les évaluations déjà fortement saturées, notamment en mathématiques et en code. Ses tâches couvrent notamment le raisonnement multi-étapes, causal, spatial, temporel, géométrique, linguistique, logique et la compréhension de l’humour.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | Raisonnement général difficile et diversifié (au-delà des maths et du code désormais saturés), conçu pour des modèles à raisonnement avancé |
| Modalité | Texte |
| Type de questions | Tâches de raisonnement variées (chaque tâche de BIG-Bench Hard remplacée par une variante nouvelle et nettement plus difficile) |
| Métrique d'évaluation | Accuracy (moyenne harmonique sur les tâches) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 4 520 exemples (version complète) ; 460 (version mini) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemma 4 31B | 74,4 % | 2 avril 2026 | Auto-déclaré | |
| 2 | Gemma 4 26B-A4B | 64,8 % | 2 avril 2026 | Auto-déclaré | |
| 3 | Gemma 4 12B | 53,0 % | 23 mai 2026 | Auto-déclaré | |
| 4 | DiffusionGemma 26B-A4B | 47,6 % | 10 juin 2026 | Auto-déclaré | |
| 5 | Gemma 4 E4B | 33,1 % | 2 avril 2026 | Auto-déclaré | |
| 6 | Gemma 4 E2B | 21,9 % | 2 avril 2026 | Auto-déclaré | |
| 7 | Gemma 3 27B | 19,3 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Gemma 3 12B | 16,3 % | 12 mars 2025 | Auto-déclaré | |
| 9 | Gemini Diffusion | 15,0 % | 20 mai 2025 | Auto-déclaré | |
| 10 | Gemma 3 4B | 11,0 % | 12 mars 2025 | Auto-déclaré | |
| 11 | Gemma 3 1B | 7,2 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 21,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BIG-Bench Extra Hard signale une capacité à maintenir une bonne précision sur des tâches de raisonnement hétérogènes et difficiles, plutôt qu’une performance isolée sur un seul domaine. La moyenne harmonique renforce cette lecture, car elle pénalise davantage les faiblesses marquées sur certaines tâches. Dans la base considérée, le classement montre un écart important entre le score médian et le meilleur résultat, Gemma 4 31B atteignant 74 %, ce qui suggère une forte différenciation entre modèles évalués. La prudence reste toutefois nécessaire : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la force probante par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi exposer le benchmark à des risques de contamination au fil du temps. Sa portée reste centrée sur l’anglais et sur le raisonnement général difficile, sans couvrir toutes les dimensions d’un modèle. Enfin, les 11 modèles classés dans la base sont tous édités par Google, également lié au développement du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.
Sources des scores : llm-stats.