Coding (Baseline)
Benchable : Coding (Baseline) est un benchmark public créé par Benchable pour évaluer les connaissances en programmation des modèles d’IA. Il prend la forme de questions à choix multiples et couvre un spectre large, allant de la syntaxe de base aux algorithmes, structures de données,…
Benchable : Coding (Baseline) est un benchmark public créé par Benchable pour évaluer les connaissances en programmation des modèles d’IA. Il prend la forme de questions à choix multiples et couvre un spectre large, allant de la syntaxe de base aux algorithmes, structures de données, bases de données, réseaux, concurrence et design patterns.
Son rôle est de fournir un repère simple et standardisé sur la maîtrise théorique du code. Les énoncés en anglais mobilisent plusieurs langages, ce qui permet d’observer la robustesse générale d’un modèle face à des concepts de programmation variés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Connaissances en programmation : de la syntaxe de base aux algorithmes, structures de donnees, concurrence, bases de donnees, design patterns, reseaux |
| Modalité | Texte |
| Type de questions | QCM (6 options A-F) |
| Métrique d'évaluation | Lettre de l'option correcte (Exact Match, JSON Path $.answer) |
| Accès | Public |
| Langues | anglais (enonces) ; couvre Python, JavaScript, Java, C++, Go, SQL, PHP, Ruby, Rust, TypeScript, C#, Scala, Haskell |
| Taille du jeu | 100 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Instruct | Qwen | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 2 | StepFun: Step 3.7 Flash | StepFun | 100,0 % | 28 mai 2026 | ✅ Mesuré |
| 3 | cydonia-24b-v4.1 | thedrummer | 100,0 % | — | ✅ Mesuré |
| 4 | GPT-5.3 Chat | OpenAI | 98,0 % | 4 mars 2026 | ✅ Mesuré |
| 5 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 98,0 % | 25 juillet 2025 | ✅ Mesuré |
| 6 | Gemini 2.5 Pro | 97,0 % | 20 mai 2025 | ✅ Mesuré | |
| 7 | Gemini 3.5 Flash | 97,0 % | 19 mai 2026 | ✅ Mesuré | |
| 8 | gemini-3-pro-image | 97,0 % | — | ✅ Mesuré | |
| 9 | qwen3-235b-a22b-04-28 | Qwen | 97,0 % | — | ✅ Mesuré |
| 10 | Google: Gemini 3.1 Pro Preview Custom Tools | 96,9 % | 25 février 2026 | ✅ Mesuré | |
| 11 | AionLabs: Aion-1.0 | aion-labs | 96,0 % | 4 février 2025 | ✅ Mesuré |
| 12 | GLM-5.1 | Zhipu AI | 96,0 % | 7 avril 2026 | ✅ Mesuré |
| 13 | GPT-5.2 | OpenAI | 96,0 % | 11 décembre 2025 | ✅ Mesuré |
| 14 | GPT-5.3 Codex | OpenAI | 96,0 % | 5 février 2026 | ✅ Mesuré |
| 15 | Grok 4.3 | xAI | 96,0 % | 6 mai 2026 | ✅ Mesuré |
| 16 | MiMo-V2.5-Pro | Xiaomi | 96,0 % | 27 avril 2026 | ✅ Mesuré |
| 17 | OpenAI: GPT Chat Latest | OpenAI | 96,0 % | 5 mai 2026 | ✅ Mesuré |
| 18 | OpenAI: GPT-5.2 Chat | OpenAI | 96,0 % | 10 décembre 2025 | ✅ Mesuré |
| 19 | gemini-2.5-pro-preview-03-25 | 96,0 % | — | ✅ Mesuré | |
| 20 | gemini-3.1-flash-image-preview | 96,0 % | — | ✅ Mesuré |
Classement établi sur 249 modèles évalués, dont 146 de grands éditeurs. Score médian de l'ensemble : 89,0 %.
Notre analyse
Un score élevé sur Benchable : Coding (Baseline) indique une bonne capacité à identifier la bonne réponse dans des QCM de programmation, avec une validation stricte par correspondance exacte de la lettre attendue. La fiabilité est renforcée par le fait que les scores disponibles sont au moins partiellement mesurés par un tiers, et ne reposent donc pas uniquement sur des déclarations des fournisseurs. Le classement montre toutefois une forte performance globale, avec un score médian de 89 % sur les 249 modèles évalués et un meilleur résultat à 100 % pour Qwen3 VL 32B Instruct. Cette concentration de scores élevés suggère un risque de saturation, qui limite la capacité du benchmark à départager les meilleurs modèles. Comme tout jeu public de petite taille, il peut aussi être exposé à des effets de contamination. Sa portée reste centrée sur des connaissances de programmation en QCM, et ne mesure pas directement la production, le débogage ou la maintenance de code dans des environnements réels.
Sources des scores : benchable.