General Knowledge (Baseline)
Benchable : General Knowledge (Baseline) est un benchmark public conçu par Benchable pour évaluer la culture générale des modèles d’IA. Il repose sur des questions à choix multiples en anglais, couvrant un spectre large allant de l’histoire et des sciences à la géographie, aux arts, à la…
Benchable : General Knowledge (Baseline) est un benchmark public conçu par Benchable pour évaluer la culture générale des modèles d’IA. Il repose sur des questions à choix multiples en anglais, couvrant un spectre large allant de l’histoire et des sciences à la géographie, aux arts, à la littérature, à l’actualité et à des domaines académiques plus spécialisés.
Son rôle est de fournir un point de repère de base sur la capacité d’un modèle à mobiliser des connaissances factuelles variées et à sélectionner la bonne réponse dans un format contraint.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Connaissances generales (histoire, science, geographie, arts, litterature, actualite, domaines academiques specialises) du niveau facile a tres obscur |
| Modalité | Texte |
| Type de questions | QCM (4 options A/B/C/D) |
| Métrique d'évaluation | Option correcte selectionnee (Exact Match, JSON Path $.answer) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 200 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | ByteDance Seed: Seed-2.0-Mini | ByteDance-Seed | 100,0 % | 26 février 2026 | ✅ Mesuré |
| 2 | Claude Opus 4 | Anthropic | 100,0 % | 22 mai 2025 | ✅ Mesuré |
| 3 | Claude Opus 4.1 | Anthropic | 100,0 % | 5 août 2025 | ✅ Mesuré |
| 4 | Claude Opus 4.5 | Anthropic | 100,0 % | 24 novembre 2025 | ✅ Mesuré |
| 5 | Claude Opus 4.7 | Anthropic | 100,0 % | 12 mai 2026 | ✅ Mesuré |
| 6 | Claude Sonnet 4.5 | Anthropic | 100,0 % | 29 septembre 2025 | ✅ Mesuré |
| 7 | Claude Sonnet 4.6 | Anthropic | 100,0 % | 17 février 2026 | ✅ Mesuré |
| 8 | GLM-4.5 | Zhipu AI | 100,0 % | 28 juillet 2025 | ✅ Mesuré |
| 9 | GLM-5.1 | Zhipu AI | 100,0 % | 7 avril 2026 | ✅ Mesuré |
| 10 | GLM-5V-Turbo | Zhipu AI | 100,0 % | 2 avril 2026 | ✅ Mesuré |
| 11 | GPT-5 | OpenAI | 100,0 % | 7 août 2025 | ✅ Mesuré |
| 12 | GPT-5 mini | OpenAI | 100,0 % | 7 août 2025 | ✅ Mesuré |
| 13 | GPT-5 nano | OpenAI | 100,0 % | 7 août 2025 | ✅ Mesuré |
| 14 | GPT-5.1 | OpenAI | 100,0 % | 13 novembre 2025 | ✅ Mesuré |
| 15 | GPT-5.1 Codex | OpenAI | 100,0 % | 19 novembre 2025 | ✅ Mesuré |
| 16 | GPT-5.1 Codex Mini | OpenAI | 100,0 % | 12 novembre 2025 | ✅ Mesuré |
| 17 | GPT-5.2 | OpenAI | 100,0 % | 11 décembre 2025 | ✅ Mesuré |
| 18 | GPT-5.2 Codex | OpenAI | 100,0 % | 14 janvier 2026 | ✅ Mesuré |
| 19 | GPT-5.3 Chat | OpenAI | 100,0 % | 4 mars 2026 | ✅ Mesuré |
| 20 | GPT-5.3 Codex | OpenAI | 100,0 % | 5 février 2026 | ✅ Mesuré |
Classement établi sur 251 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.
Notre analyse
Un score élevé sur Benchable : General Knowledge (Baseline) indique une forte capacité à reconnaître ou restituer des faits dans un cadre de QCM, y compris lorsque les questions deviennent plus obscures. La métrique repose sur la sélection exacte de l’option correcte, ce qui rend l’évaluation simple à interpréter et limite l’ambiguïté de notation. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de crédibilité qu’une évaluation entièrement auto-déclarée.
Le classement montre toutefois un benchmark très saturé : avec un score médian de 99 % parmi les 251 modèles évalués dans la base, il distingue peu les systèmes les plus performants. Le meilleur score atteint 100 % avec ByteDance Seed: Seed-2.0-Mini (ByteDance-Seed), ce qui suggère que le test sert surtout de filtre de compétence générale minimale plutôt que de mesure fine du raisonnement avancé. La portée reste limitée à des QCM en anglais, avec un risque possible de contamination pour des connaissances générales publiques.
Sources des scores : benchable.