Mathematics (Baseline)

Benchable : Mathematics (Baseline) est un benchmark public conçu par Benchable pour évaluer les capacités mathématiques des modèles d’IA. Il couvre un spectre large, depuis l’arithmétique élémentaire jusqu’à des domaines avancés comme le calcul, l’algèbre linéaire, la topologie, la…

Benchable : Mathematics (Baseline) est un benchmark public conçu par Benchable pour évaluer les capacités mathématiques des modèles d’IA. Il couvre un spectre large, depuis l’arithmétique élémentaire jusqu’à des domaines avancés comme le calcul, l’algèbre linéaire, la topologie, la géométrie algébrique et des problèmes de niveau doctoral.

Le test repose sur des QCM en anglais, avec une validation fondée sur la lettre de réponse attendue. Il sert de repère synthétique pour comparer la précision des modèles sur des tâches mathématiques variées, dans un format simple à scorer et à agréger.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesMathematiques a tous niveaux : de l'arithmetique elementaire au calcul, algebre lineaire, topologie, geometrie algebrique et problemes de niveau doctoral
ModalitéTexte
Type de questionsQCM (6 options A-F)
Métrique d'évaluationLettre de la reponse correcte (Exact Match, JSON Path $.answer)
AccèsPublic
Languesanglais
Taille du jeu100 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B InstructQwen100,0 %22 septembre 2025✅ Mesuré
2Step-3.5-FlashStepFun100,0 %2 février 2026✅ Mesuré
3StepFun: Step 3.7 FlashStepFun100,0 %28 mai 2026✅ Mesuré
4Arcee AI: Trinity Large Thinkingarcee-ai97,5 %1 avril 2026✅ Mesuré
5Writer: Palmyra X5Writer97,2 %28 avril 2025✅ Mesuré
6Gemini 3.1 Flash-LiteGoogle97,0 %3 mars 2026✅ Mesuré
7Qwen3.5-9BQwen97,0 %2 mars 2026✅ Mesuré
8Seed 2.0 Litebytedance97,0 %14 février 2026✅ Mesuré
9gemini-3-pro-imageGoogle97,0 %✅ Mesuré
10qwen3-235b-a22b-07-25Qwen97,0 %✅ Mesuré
11kimi-k2.5-0127Moonshot AI96,8 %✅ Mesuré
12inclusionAI: Ling-2.6-1Tinclusionai96,4 %23 avril 2026✅ Mesuré
13AionLabs: Aion-2.0aion-labs96,0 %23 février 2026✅ Mesuré
14Claude Opus 4.5Anthropic96,0 %24 novembre 2025✅ Mesuré
15Deep Cogito: Cogito v2.1 671Bdeepcogito96,0 %13 novembre 2025✅ Mesuré
16GLM-4.6Zhipu AI96,0 %30 septembre 2025✅ Mesuré
17GPT-4.1OpenAI96,0 %14 avril 2025✅ Mesuré
18GPT-5.1 Codex MiniOpenAI96,0 %12 novembre 2025✅ Mesuré
19Seed 1.6ByteDance-Seed96,0 %23 décembre 2025✅ Mesuré
20laguna-xs.2Poolside96,0 %✅ Mesuré

Classement établi sur 218 modèles évalués, dont 133 de grands éditeurs. Score médian de l'ensemble : 91,0 %.

Notre analyse

Un score élevé sur Benchable : Mathematics (Baseline) indique une forte capacité à sélectionner la bonne réponse parmi plusieurs options dans un ensemble de problèmes mathématiques de difficulté très hétérogène. La présence de 218 modèles évalués dans la base donne un aperçu comparatif large, et le fait que les scores soient au moins partiellement mesurés par un tiers renforce leur valeur par rapport à des résultats uniquement auto-déclarés. Le score médian de 91 % et un meilleur résultat à 100 % suggèrent toutefois une possible saturation : le benchmark distingue moins finement les modèles les plus performants lorsque beaucoup se rapprochent du plafond. Comme tout jeu public et limité à 100 questions, il ne permet pas à lui seul d’écarter les risques de contamination ni de représenter toute la diversité du raisonnement mathématique. Le classement met néanmoins en évidence des modèles capables d’une précision quasi parfaite sur ce format, notamment Qwen3 VL 32B Instruct en tête.


Sources des scores : benchable.