Coding (Baseline)

Benchable : Coding (Baseline) est un benchmark public créé par Benchable pour évaluer les connaissances en programmation des modèles d’IA. Il prend la forme de questions à choix multiples et couvre un spectre large, allant de la syntaxe de base aux algorithmes, structures de données,…

Benchable : Coding (Baseline) est un benchmark public créé par Benchable pour évaluer les connaissances en programmation des modèles d’IA. Il prend la forme de questions à choix multiples et couvre un spectre large, allant de la syntaxe de base aux algorithmes, structures de données, bases de données, réseaux, concurrence et design patterns.

Son rôle est de fournir un repère simple et standardisé sur la maîtrise théorique du code. Les énoncés en anglais mobilisent plusieurs langages, ce qui permet d’observer la robustesse générale d’un modèle face à des concepts de programmation variés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesConnaissances en programmation : de la syntaxe de base aux algorithmes, structures de donnees, concurrence, bases de donnees, design patterns, reseaux
ModalitéTexte
Type de questionsQCM (6 options A-F)
Métrique d'évaluationLettre de l'option correcte (Exact Match, JSON Path $.answer)
AccèsPublic
Languesanglais (enonces) ; couvre Python, JavaScript, Java, C++, Go, SQL, PHP, Ruby, Rust, TypeScript, C#, Scala, Haskell
Taille du jeu100 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B InstructQwen100,0 %22 septembre 2025✅ Mesuré
2StepFun: Step 3.7 FlashStepFun100,0 %28 mai 2026✅ Mesuré
3cydonia-24b-v4.1thedrummer100,0 %✅ Mesuré
4GPT-5.3 ChatOpenAI98,0 %4 mars 2026✅ Mesuré
5Qwen3-235B-A22B-Thinking-2507Qwen98,0 %25 juillet 2025✅ Mesuré
6Gemini 2.5 ProGoogle97,0 %20 mai 2025✅ Mesuré
7Gemini 3.5 FlashGoogle97,0 %19 mai 2026✅ Mesuré
8gemini-3-pro-imageGoogle97,0 %✅ Mesuré
9qwen3-235b-a22b-04-28Qwen97,0 %✅ Mesuré
10Google: Gemini 3.1 Pro Preview Custom ToolsGoogle96,9 %25 février 2026✅ Mesuré
11AionLabs: Aion-1.0aion-labs96,0 %4 février 2025✅ Mesuré
12GLM-5.1Zhipu AI96,0 %7 avril 2026✅ Mesuré
13GPT-5.2OpenAI96,0 %11 décembre 2025✅ Mesuré
14GPT-5.3 CodexOpenAI96,0 %5 février 2026✅ Mesuré
15Grok 4.3xAI96,0 %6 mai 2026✅ Mesuré
16MiMo-V2.5-ProXiaomi96,0 %27 avril 2026✅ Mesuré
17OpenAI: GPT Chat LatestOpenAI96,0 %5 mai 2026✅ Mesuré
18OpenAI: GPT-5.2 ChatOpenAI96,0 %10 décembre 2025✅ Mesuré
19gemini-2.5-pro-preview-03-25Google96,0 %✅ Mesuré
20gemini-3.1-flash-image-previewGoogle96,0 %✅ Mesuré

Classement établi sur 249 modèles évalués, dont 146 de grands éditeurs. Score médian de l'ensemble : 89,0 %.

Notre analyse

Un score élevé sur Benchable : Coding (Baseline) indique une bonne capacité à identifier la bonne réponse dans des QCM de programmation, avec une validation stricte par correspondance exacte de la lettre attendue. La fiabilité est renforcée par le fait que les scores disponibles sont au moins partiellement mesurés par un tiers, et ne reposent donc pas uniquement sur des déclarations des fournisseurs. Le classement montre toutefois une forte performance globale, avec un score médian de 89 % sur les 249 modèles évalués et un meilleur résultat à 100 % pour Qwen3 VL 32B Instruct. Cette concentration de scores élevés suggère un risque de saturation, qui limite la capacité du benchmark à départager les meilleurs modèles. Comme tout jeu public de petite taille, il peut aussi être exposé à des effets de contamination. Sa portée reste centrée sur des connaissances de programmation en QCM, et ne mesure pas directement la production, le débogage ou la maintenance de code dans des environnements réels.


Sources des scores : benchable.