General Knowledge (Baseline)

Benchable : General Knowledge (Baseline) est un benchmark public conçu par Benchable pour évaluer la culture générale des modèles d’IA. Il repose sur des questions à choix multiples en anglais, couvrant un spectre large allant de l’histoire et des sciences à la géographie, aux arts, à la…

Benchable : General Knowledge (Baseline) est un benchmark public conçu par Benchable pour évaluer la culture générale des modèles d’IA. Il repose sur des questions à choix multiples en anglais, couvrant un spectre large allant de l’histoire et des sciences à la géographie, aux arts, à la littérature, à l’actualité et à des domaines académiques plus spécialisés.

Son rôle est de fournir un point de repère de base sur la capacité d’un modèle à mobiliser des connaissances factuelles variées et à sélectionner la bonne réponse dans un format contraint.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesConnaissances generales (histoire, science, geographie, arts, litterature, actualite, domaines academiques specialises) du niveau facile a tres obscur
ModalitéTexte
Type de questionsQCM (4 options A/B/C/D)
Métrique d'évaluationOption correcte selectionnee (Exact Match, JSON Path $.answer)
AccèsPublic
Languesanglais
Taille du jeu200 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1ByteDance Seed: Seed-2.0-MiniByteDance-Seed100,0 %26 février 2026✅ Mesuré
2Claude Opus 4Anthropic100,0 %22 mai 2025✅ Mesuré
3Claude Opus 4.1Anthropic100,0 %5 août 2025✅ Mesuré
4Claude Opus 4.5Anthropic100,0 %24 novembre 2025✅ Mesuré
5Claude Opus 4.7Anthropic100,0 %12 mai 2026✅ Mesuré
6Claude Sonnet 4.5Anthropic100,0 %29 septembre 2025✅ Mesuré
7Claude Sonnet 4.6Anthropic100,0 %17 février 2026✅ Mesuré
8GLM-4.5Zhipu AI100,0 %28 juillet 2025✅ Mesuré
9GLM-5.1Zhipu AI100,0 %7 avril 2026✅ Mesuré
10GLM-5V-TurboZhipu AI100,0 %2 avril 2026✅ Mesuré
11GPT-5OpenAI100,0 %7 août 2025✅ Mesuré
12GPT-5 miniOpenAI100,0 %7 août 2025✅ Mesuré
13GPT-5 nanoOpenAI100,0 %7 août 2025✅ Mesuré
14GPT-5.1OpenAI100,0 %13 novembre 2025✅ Mesuré
15GPT-5.1 CodexOpenAI100,0 %19 novembre 2025✅ Mesuré
16GPT-5.1 Codex MiniOpenAI100,0 %12 novembre 2025✅ Mesuré
17GPT-5.2OpenAI100,0 %11 décembre 2025✅ Mesuré
18GPT-5.2 CodexOpenAI100,0 %14 janvier 2026✅ Mesuré
19GPT-5.3 ChatOpenAI100,0 %4 mars 2026✅ Mesuré
20GPT-5.3 CodexOpenAI100,0 %5 février 2026✅ Mesuré

Classement établi sur 251 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.

Notre analyse

Un score élevé sur Benchable : General Knowledge (Baseline) indique une forte capacité à reconnaître ou restituer des faits dans un cadre de QCM, y compris lorsque les questions deviennent plus obscures. La métrique repose sur la sélection exacte de l’option correcte, ce qui rend l’évaluation simple à interpréter et limite l’ambiguïté de notation. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de crédibilité qu’une évaluation entièrement auto-déclarée.

Le classement montre toutefois un benchmark très saturé : avec un score médian de 99 % parmi les 251 modèles évalués dans la base, il distingue peu les systèmes les plus performants. Le meilleur score atteint 100 % avec ByteDance Seed: Seed-2.0-Mini (ByteDance-Seed), ce qui suggère que le test sert surtout de filtre de compétence générale minimale plutôt que de mesure fine du raisonnement avancé. La portée reste limitée à des QCM en anglais, avec un risque possible de contamination pour des connaissances générales publiques.


Sources des scores : benchable.