Autres benchmarks

Coding (Baseline)

Benchable : Coding (Baseline) est un benchmark public créé par Benchable pour évaluer les connaissances en programmation des modèles d’IA. Il prend la forme de questions à choix multiples et couvre un spectre large, allant de la syntaxe de base aux algorithmes, structures de données,…

Son rôle est de fournir un repère simple et standardisé sur la maîtrise théorique du code. Les énoncés en anglais mobilisent plusieurs langages, ce qui permet d’observer la robustesse générale d’un modèle face à des concepts de programmation variés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Connaissances en programmation : de la syntaxe de base aux algorithmes, structures de donnees, concurrence, bases de donnees, design patterns, reseaux
Modalité	Texte
Type de questions	QCM (6 options A-F)
Métrique d'évaluation	Lettre de l'option correcte (Exact Match, JSON Path $.answer)
Accès	Public
Langues	anglais (enonces) ; couvre Python, JavaScript, Java, C++, Go, SQL, PHP, Ruby, Rust, TypeScript, C#, Scala, Haskell
Taille du jeu	100 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Instruct	Qwen	100,0 %	22 septembre 2025	✅ Mesuré
2	StepFun: Step 3.7 Flash	StepFun	100,0 %	28 mai 2026	✅ Mesuré
3	cydonia-24b-v4.1	thedrummer	100,0 %	—	✅ Mesuré
4	GPT-5.3 Chat	OpenAI	98,0 %	4 mars 2026	✅ Mesuré
5	Qwen3-235B-A22B-Thinking-2507	Qwen	98,0 %	25 juillet 2025	✅ Mesuré
6	Gemini 2.5 Pro	Google	97,0 %	20 mai 2025	✅ Mesuré
7	Gemini 3.5 Flash	Google	97,0 %	19 mai 2026	✅ Mesuré
8	gemini-3-pro-image	Google	97,0 %	—	✅ Mesuré
9	qwen3-235b-a22b-04-28	Qwen	97,0 %	—	✅ Mesuré
10	Google: Gemini 3.1 Pro Preview Custom Tools	Google	96,9 %	25 février 2026	✅ Mesuré
11	AionLabs: Aion-1.0	aion-labs	96,0 %	4 février 2025	✅ Mesuré
12	GLM-5.1	Zhipu AI	96,0 %	7 avril 2026	✅ Mesuré
13	GPT-5.2	OpenAI	96,0 %	11 décembre 2025	✅ Mesuré
14	GPT-5.3 Codex	OpenAI	96,0 %	5 février 2026	✅ Mesuré
15	Grok 4.3	xAI	96,0 %	6 mai 2026	✅ Mesuré
16	MiMo-V2.5-Pro	Xiaomi	96,0 %	27 avril 2026	✅ Mesuré
17	OpenAI: GPT Chat Latest	OpenAI	96,0 %	5 mai 2026	✅ Mesuré
18	OpenAI: GPT-5.2 Chat	OpenAI	96,0 %	10 décembre 2025	✅ Mesuré
19	gemini-2.5-pro-preview-03-25	Google	96,0 %	—	✅ Mesuré
20	gemini-3.1-flash-image-preview	Google	96,0 %	—	✅ Mesuré

Classement établi sur 249 modèles évalués, dont 146 de grands éditeurs. Score médian de l'ensemble : 89,0 %.

Notre analyse

Un score élevé sur Benchable : Coding (Baseline) indique une bonne capacité à identifier la bonne réponse dans des QCM de programmation, avec une validation stricte par correspondance exacte de la lettre attendue. La fiabilité est renforcée par le fait que les scores disponibles sont au moins partiellement mesurés par un tiers, et ne reposent donc pas uniquement sur des déclarations des fournisseurs. Le classement montre toutefois une forte performance globale, avec un score médian de 89 % sur les 249 modèles évalués et un meilleur résultat à 100 % pour Qwen3 VL 32B Instruct. Cette concentration de scores élevés suggère un risque de saturation, qui limite la capacité du benchmark à départager les meilleurs modèles. Comme tout jeu public de petite taille, il peut aussi être exposé à des effets de contamination. Sa portée reste centrée sur des connaissances de programmation en QCM, et ne mesure pas directement la production, le débogage ou la maintenance de code dans des environnements réels.

Sources des scores : benchable.

Coding (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench