BIG-Bench Hard

BIG-Bench Hard est un benchmark d’évaluation en anglais conçu par M. Suzgun et al. pour isoler des tâches de BIG-Bench particulièrement difficiles pour les modèles de langage. Il cible des problèmes où les évaluations antérieures ne dépassaient pas la performance moyenne de correcteurs…

BIG-Bench Hard est un benchmark d’évaluation en anglais conçu par M. Suzgun et al. pour isoler des tâches de BIG-Bench particulièrement difficiles pour les modèles de langage. Il cible des problèmes où les évaluations antérieures ne dépassaient pas la performance moyenne de correcteurs humains.

Le test mesure surtout le raisonnement multi-étapes en langage naturel, avec des questions textuelles à réponse courte. Il couvre notamment le raisonnement arithmétique, logique, symbolique, temporel, spatial et la compréhension de consignes complexes, ce qui en fait un repère utile pour comparer la robustesse des modèles sur des tâches de résolution structurée.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkM. Suzgun et al.
Capacités mesuréeslangage, mathématiques, raisonnement
ModalitéTexte
Type de questionsquestions textuelles à réponse courte, avec formats variables selon les tâches
Métrique d'évaluationexact match / accuracy
AccèsPublic
Languesanglais
Taille du jeu6 511 exemples répartis sur 23 tâches
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude 3.5 SonnetAnthropic93,1 %22 octobre 2024Auto-déclaré
2Gemini 1.5 ProGoogle89,2 %1 mai 2024Auto-déclaré
3Gemma 3 27BGoogle87,6 %12 mars 2025Auto-déclaré
4Claude 3 OpusAnthropic86,8 %29 février 2024Auto-déclaré
5Gemma 3 12BGoogle85,7 %12 mars 2025Auto-déclaré
6Gemini 1.5 FlashGoogle85,5 %1 mai 2024Auto-déclaré
7Claude 3 SonnetAnthropic82,9 %29 février 2024Auto-déclaré
8Phi-3.5-MoE-instructMicrosoft79,1 %23 août 2024Auto-déclaré
9Claude 3 HaikuAnthropic73,7 %13 mars 2024Auto-déclaré
10Gemma 3 4BGoogle72,2 %12 mars 2025Auto-déclaré
11Phi 4 MiniMicrosoft70,4 %30 avril 2025Auto-déclaré
12Granite 3.3 8B BaseIBM69,1 %16 avril 2025Auto-déclaré
13Granite 3.3 8B InstructIBM69,1 %16 avril 2025Auto-déclaré
14Phi-3.5-mini-instructMicrosoft69,0 %23 août 2024Auto-déclaré
15IBM Granite 4.0 Tiny PreviewIBM55,7 %2 mai 2025Auto-déclaré
16Gemma 3n E4BGoogle52,9 %26 juin 2025Auto-déclaré
17Gemma 3n E4B Instructed LiteRT PreviewGoogle52,9 %20 mai 2025Auto-déclaré
18Gemma 3n E2BGoogle44,3 %26 juin 2025Auto-déclaré
19Gemma 3n E2B Instructed LiteRT (Preview)Google44,3 %20 mai 2025Auto-déclaré
20Gemma 3 1BGoogle39,1 %12 mars 2025Auto-déclaré

Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 71,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BIG-Bench Hard indique une bonne capacité à suivre une chaîne de raisonnement et à produire une réponse courte conforme au résultat attendu, mesurée par exact match ou accuracy. Les meilleurs scores suggèrent donc une maîtrise solide de tâches comme la déduction logique, le comptage d’objets, la navigation, le jugement causal ou la reconnaissance de motifs. Dans la base observée, le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat, obtenu par Claude 3.5 Sonnet, ce qui signale que le benchmark reste discriminant entre modèles. La prudence reste toutefois nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Autres limites: le benchmark est uniquement en anglais, peut être exposé à des risques de contamination liés à son accès public, et sa portée reste centrée sur des formats textuels à réponse courte. Une saturation progressive est aussi possible lorsque les modèles se rapprochent des meilleurs niveaux publiés.


Sources des scores : llm-stats.