Mathematics (Baseline)
Benchable : Mathematics (Baseline) est un benchmark public conçu par Benchable pour évaluer les capacités mathématiques des modèles d’IA. Il couvre un spectre large, depuis l’arithmétique élémentaire jusqu’à des domaines avancés comme le calcul, l’algèbre linéaire, la topologie, la…
Benchable : Mathematics (Baseline) est un benchmark public conçu par Benchable pour évaluer les capacités mathématiques des modèles d’IA. Il couvre un spectre large, depuis l’arithmétique élémentaire jusqu’à des domaines avancés comme le calcul, l’algèbre linéaire, la topologie, la géométrie algébrique et des problèmes de niveau doctoral.
Le test repose sur des QCM en anglais, avec une validation fondée sur la lettre de réponse attendue. Il sert de repère synthétique pour comparer la précision des modèles sur des tâches mathématiques variées, dans un format simple à scorer et à agréger.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Mathematiques a tous niveaux : de l'arithmetique elementaire au calcul, algebre lineaire, topologie, geometrie algebrique et problemes de niveau doctoral |
| Modalité | Texte |
| Type de questions | QCM (6 options A-F) |
| Métrique d'évaluation | Lettre de la reponse correcte (Exact Match, JSON Path $.answer) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Instruct | Qwen | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 2 | Step-3.5-Flash | StepFun | 100,0 % | 2 février 2026 | ✅ Mesuré |
| 3 | StepFun: Step 3.7 Flash | StepFun | 100,0 % | 28 mai 2026 | ✅ Mesuré |
| 4 | Arcee AI: Trinity Large Thinking | arcee-ai | 97,5 % | 1 avril 2026 | ✅ Mesuré |
| 5 | Writer: Palmyra X5 | Writer | 97,2 % | 28 avril 2025 | ✅ Mesuré |
| 6 | Gemini 3.1 Flash-Lite | 97,0 % | 3 mars 2026 | ✅ Mesuré | |
| 7 | Qwen3.5-9B | Qwen | 97,0 % | 2 mars 2026 | ✅ Mesuré |
| 8 | Seed 2.0 Lite | bytedance | 97,0 % | 14 février 2026 | ✅ Mesuré |
| 9 | gemini-3-pro-image | 97,0 % | — | ✅ Mesuré | |
| 10 | qwen3-235b-a22b-07-25 | Qwen | 97,0 % | — | ✅ Mesuré |
| 11 | kimi-k2.5-0127 | Moonshot AI | 96,8 % | — | ✅ Mesuré |
| 12 | inclusionAI: Ling-2.6-1T | inclusionai | 96,4 % | 23 avril 2026 | ✅ Mesuré |
| 13 | AionLabs: Aion-2.0 | aion-labs | 96,0 % | 23 février 2026 | ✅ Mesuré |
| 14 | Claude Opus 4.5 | Anthropic | 96,0 % | 24 novembre 2025 | ✅ Mesuré |
| 15 | Deep Cogito: Cogito v2.1 671B | deepcogito | 96,0 % | 13 novembre 2025 | ✅ Mesuré |
| 16 | GLM-4.6 | Zhipu AI | 96,0 % | 30 septembre 2025 | ✅ Mesuré |
| 17 | GPT-4.1 | OpenAI | 96,0 % | 14 avril 2025 | ✅ Mesuré |
| 18 | GPT-5.1 Codex Mini | OpenAI | 96,0 % | 12 novembre 2025 | ✅ Mesuré |
| 19 | Seed 1.6 | ByteDance-Seed | 96,0 % | 23 décembre 2025 | ✅ Mesuré |
| 20 | laguna-xs.2 | Poolside | 96,0 % | — | ✅ Mesuré |
Classement établi sur 218 modèles évalués, dont 133 de grands éditeurs. Score médian de l'ensemble : 91,0 %.
Notre analyse
Un score élevé sur Benchable : Mathematics (Baseline) indique une forte capacité à sélectionner la bonne réponse parmi plusieurs options dans un ensemble de problèmes mathématiques de difficulté très hétérogène. La présence de 218 modèles évalués dans la base donne un aperçu comparatif large, et le fait que les scores soient au moins partiellement mesurés par un tiers renforce leur valeur par rapport à des résultats uniquement auto-déclarés. Le score médian de 91 % et un meilleur résultat à 100 % suggèrent toutefois une possible saturation : le benchmark distingue moins finement les modèles les plus performants lorsque beaucoup se rapprochent du plafond. Comme tout jeu public et limité à 100 questions, il ne permet pas à lui seul d’écarter les risques de contamination ni de représenter toute la diversité du raisonnement mathématique. Le classement met néanmoins en évidence des modèles capables d’une précision quasi parfaite sur ce format, notamment Qwen3 VL 32B Instruct en tête.
Sources des scores : benchable.