Autres benchmarks

General Knowledge (Baseline)

Benchable : General Knowledge (Baseline) est un benchmark public conçu par Benchable pour évaluer la culture générale des modèles d’IA. Il repose sur des questions à choix multiples en anglais, couvrant un spectre large allant de l’histoire et des sciences à la géographie, aux arts, à la…

Son rôle est de fournir un point de repère de base sur la capacité d’un modèle à mobiliser des connaissances factuelles variées et à sélectionner la bonne réponse dans un format contraint.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Connaissances generales (histoire, science, geographie, arts, litterature, actualite, domaines academiques specialises) du niveau facile a tres obscur
Modalité	Texte
Type de questions	QCM (4 options A/B/C/D)
Métrique d'évaluation	Option correcte selectionnee (Exact Match, JSON Path $.answer)
Accès	Public
Langues	anglais
Taille du jeu	200 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	ByteDance Seed: Seed-2.0-Mini	ByteDance-Seed	100,0 %	26 février 2026	✅ Mesuré
2	Claude Opus 4	Anthropic	100,0 %	22 mai 2025	✅ Mesuré
3	Claude Opus 4.1	Anthropic	100,0 %	5 août 2025	✅ Mesuré
4	Claude Opus 4.5	Anthropic	100,0 %	24 novembre 2025	✅ Mesuré
5	Claude Opus 4.7	Anthropic	100,0 %	12 mai 2026	✅ Mesuré
6	Claude Sonnet 4.5	Anthropic	100,0 %	29 septembre 2025	✅ Mesuré
7	Claude Sonnet 4.6	Anthropic	100,0 %	17 février 2026	✅ Mesuré
8	GLM-4.5	Zhipu AI	100,0 %	28 juillet 2025	✅ Mesuré
9	GLM-5.1	Zhipu AI	100,0 %	7 avril 2026	✅ Mesuré
10	GLM-5V-Turbo	Zhipu AI	100,0 %	2 avril 2026	✅ Mesuré
11	GPT-5	OpenAI	100,0 %	7 août 2025	✅ Mesuré
12	GPT-5 mini	OpenAI	100,0 %	7 août 2025	✅ Mesuré
13	GPT-5 nano	OpenAI	100,0 %	7 août 2025	✅ Mesuré
14	GPT-5.1	OpenAI	100,0 %	13 novembre 2025	✅ Mesuré
15	GPT-5.1 Codex	OpenAI	100,0 %	19 novembre 2025	✅ Mesuré
16	GPT-5.1 Codex Mini	OpenAI	100,0 %	12 novembre 2025	✅ Mesuré
17	GPT-5.2	OpenAI	100,0 %	11 décembre 2025	✅ Mesuré
18	GPT-5.2 Codex	OpenAI	100,0 %	14 janvier 2026	✅ Mesuré
19	GPT-5.3 Chat	OpenAI	100,0 %	4 mars 2026	✅ Mesuré
20	GPT-5.3 Codex	OpenAI	100,0 %	5 février 2026	✅ Mesuré

Classement établi sur 251 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.

Notre analyse

Un score élevé sur Benchable : General Knowledge (Baseline) indique une forte capacité à reconnaître ou restituer des faits dans un cadre de QCM, y compris lorsque les questions deviennent plus obscures. La métrique repose sur la sélection exacte de l’option correcte, ce qui rend l’évaluation simple à interpréter et limite l’ambiguïté de notation. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de crédibilité qu’une évaluation entièrement auto-déclarée.

Le classement montre toutefois un benchmark très saturé : avec un score médian de 99 % parmi les 251 modèles évalués dans la base, il distingue peu les systèmes les plus performants. Le meilleur score atteint 100 % avec ByteDance Seed: Seed-2.0-Mini (ByteDance-Seed), ce qui suggère que le test sert surtout de filtre de compétence générale minimale plutôt que de mesure fine du raisonnement avancé. La portée reste limitée à des QCM en anglais, avec un risque possible de contamination pour des connaissances générales publiques.

Sources des scores : benchable.

General Knowledge (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench