Mathématiques

BIG-Bench Hard

BIG-Bench Hard est un benchmark d’évaluation en anglais conçu par M. Suzgun et al. pour isoler des tâches de BIG-Bench particulièrement difficiles pour les modèles de langage. Il cible des problèmes où les évaluations antérieures ne dépassaient pas la performance moyenne de correcteurs…

Le test mesure surtout le raisonnement multi-étapes en langage naturel, avec des questions textuelles à réponse courte. Il couvre notamment le raisonnement arithmétique, logique, symbolique, temporel, spatial et la compréhension de consignes complexes, ce qui en fait un repère utile pour comparer la robustesse des modèles sur des tâches de résolution structurée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	M. Suzgun et al.
Capacités mesurées	langage, mathématiques, raisonnement
Modalité	Texte
Type de questions	questions textuelles à réponse courte, avec formats variables selon les tâches
Métrique d'évaluation	exact match / accuracy
Accès	Public
Langues	anglais
Taille du jeu	6 511 exemples répartis sur 23 tâches
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude 3.5 Sonnet	Anthropic	93,1 %	22 octobre 2024	Auto-déclaré
2	Gemini 1.5 Pro	Google	89,2 %	1 mai 2024	Auto-déclaré
3	Gemma 3 27B	Google	87,6 %	12 mars 2025	Auto-déclaré
4	Claude 3 Opus	Anthropic	86,8 %	29 février 2024	Auto-déclaré
5	Gemma 3 12B	Google	85,7 %	12 mars 2025	Auto-déclaré
6	Gemini 1.5 Flash	Google	85,5 %	1 mai 2024	Auto-déclaré
7	Claude 3 Sonnet	Anthropic	82,9 %	29 février 2024	Auto-déclaré
8	Phi-3.5-MoE-instruct	Microsoft	79,1 %	23 août 2024	Auto-déclaré
9	Claude 3 Haiku	Anthropic	73,7 %	13 mars 2024	Auto-déclaré
10	Gemma 3 4B	Google	72,2 %	12 mars 2025	Auto-déclaré
11	Phi 4 Mini	Microsoft	70,4 %	30 avril 2025	Auto-déclaré
12	Granite 3.3 8B Base	IBM	69,1 %	16 avril 2025	Auto-déclaré
13	Granite 3.3 8B Instruct	IBM	69,1 %	16 avril 2025	Auto-déclaré
14	Phi-3.5-mini-instruct	Microsoft	69,0 %	23 août 2024	Auto-déclaré
15	IBM Granite 4.0 Tiny Preview	IBM	55,7 %	2 mai 2025	Auto-déclaré
16	Gemma 3n E4B	Google	52,9 %	26 juin 2025	Auto-déclaré
17	Gemma 3n E4B Instructed LiteRT Preview	Google	52,9 %	20 mai 2025	Auto-déclaré
18	Gemma 3n E2B	Google	44,3 %	26 juin 2025	Auto-déclaré
19	Gemma 3n E2B Instructed LiteRT (Preview)	Google	44,3 %	20 mai 2025	Auto-déclaré
20	Gemma 3 1B	Google	39,1 %	12 mars 2025	Auto-déclaré

Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 71,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BIG-Bench Hard indique une bonne capacité à suivre une chaîne de raisonnement et à produire une réponse courte conforme au résultat attendu, mesurée par exact match ou accuracy. Les meilleurs scores suggèrent donc une maîtrise solide de tâches comme la déduction logique, le comptage d’objets, la navigation, le jugement causal ou la reconnaissance de motifs. Dans la base observée, le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat, obtenu par Claude 3.5 Sonnet, ce qui signale que le benchmark reste discriminant entre modèles. La prudence reste toutefois nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Autres limites: le benchmark est uniquement en anglais, peut être exposé à des risques de contamination liés à son accès public, et sa portée reste centrée sur des formats textuels à réponse courte. Une saturation progressive est aussi possible lorsque les modèles se rapprochent des meilleurs niveaux publiés.

Sources des scores : llm-stats.

BIG-Bench Hard

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench