BIG-Bench Hard
BIG-Bench Hard est un benchmark d’évaluation en anglais conçu par M. Suzgun et al. pour isoler des tâches de BIG-Bench particulièrement difficiles pour les modèles de langage. Il cible des problèmes où les évaluations antérieures ne dépassaient pas la performance moyenne de correcteurs…
BIG-Bench Hard est un benchmark d’évaluation en anglais conçu par M. Suzgun et al. pour isoler des tâches de BIG-Bench particulièrement difficiles pour les modèles de langage. Il cible des problèmes où les évaluations antérieures ne dépassaient pas la performance moyenne de correcteurs humains.
Le test mesure surtout le raisonnement multi-étapes en langage naturel, avec des questions textuelles à réponse courte. Il couvre notamment le raisonnement arithmétique, logique, symbolique, temporel, spatial et la compréhension de consignes complexes, ce qui en fait un repère utile pour comparer la robustesse des modèles sur des tâches de résolution structurée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | M. Suzgun et al. |
| Capacités mesurées | langage, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions textuelles à réponse courte, avec formats variables selon les tâches |
| Métrique d'évaluation | exact match / accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 6 511 exemples répartis sur 23 tâches |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude 3.5 Sonnet | Anthropic | 93,1 % | 22 octobre 2024 | Auto-déclaré |
| 2 | Gemini 1.5 Pro | 89,2 % | 1 mai 2024 | Auto-déclaré | |
| 3 | Gemma 3 27B | 87,6 % | 12 mars 2025 | Auto-déclaré | |
| 4 | Claude 3 Opus | Anthropic | 86,8 % | 29 février 2024 | Auto-déclaré |
| 5 | Gemma 3 12B | 85,7 % | 12 mars 2025 | Auto-déclaré | |
| 6 | Gemini 1.5 Flash | 85,5 % | 1 mai 2024 | Auto-déclaré | |
| 7 | Claude 3 Sonnet | Anthropic | 82,9 % | 29 février 2024 | Auto-déclaré |
| 8 | Phi-3.5-MoE-instruct | Microsoft | 79,1 % | 23 août 2024 | Auto-déclaré |
| 9 | Claude 3 Haiku | Anthropic | 73,7 % | 13 mars 2024 | Auto-déclaré |
| 10 | Gemma 3 4B | 72,2 % | 12 mars 2025 | Auto-déclaré | |
| 11 | Phi 4 Mini | Microsoft | 70,4 % | 30 avril 2025 | Auto-déclaré |
| 12 | Granite 3.3 8B Base | IBM | 69,1 % | 16 avril 2025 | Auto-déclaré |
| 13 | Granite 3.3 8B Instruct | IBM | 69,1 % | 16 avril 2025 | Auto-déclaré |
| 14 | Phi-3.5-mini-instruct | Microsoft | 69,0 % | 23 août 2024 | Auto-déclaré |
| 15 | IBM Granite 4.0 Tiny Preview | IBM | 55,7 % | 2 mai 2025 | Auto-déclaré |
| 16 | Gemma 3n E4B | 52,9 % | 26 juin 2025 | Auto-déclaré | |
| 17 | Gemma 3n E4B Instructed LiteRT Preview | 52,9 % | 20 mai 2025 | Auto-déclaré | |
| 18 | Gemma 3n E2B | 44,3 % | 26 juin 2025 | Auto-déclaré | |
| 19 | Gemma 3n E2B Instructed LiteRT (Preview) | 44,3 % | 20 mai 2025 | Auto-déclaré | |
| 20 | Gemma 3 1B | 39,1 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 71,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BIG-Bench Hard indique une bonne capacité à suivre une chaîne de raisonnement et à produire une réponse courte conforme au résultat attendu, mesurée par exact match ou accuracy. Les meilleurs scores suggèrent donc une maîtrise solide de tâches comme la déduction logique, le comptage d’objets, la navigation, le jugement causal ou la reconnaissance de motifs. Dans la base observée, le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat, obtenu par Claude 3.5 Sonnet, ce qui signale que le benchmark reste discriminant entre modèles. La prudence reste toutefois nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Autres limites: le benchmark est uniquement en anglais, peut être exposé à des risques de contamination liés à son accès public, et sa portée reste centrée sur des formats textuels à réponse courte. Une saturation progressive est aussi possible lorsque les modèles se rapprochent des meilleurs niveaux publiés.
Sources des scores : llm-stats.