Autres benchmarks

Mathematics (Baseline)

Benchable : Mathematics (Baseline) est un benchmark public conçu par Benchable pour évaluer les capacités mathématiques des modèles d’IA. Il couvre un spectre large, depuis l’arithmétique élémentaire jusqu’à des domaines avancés comme le calcul, l’algèbre linéaire, la topologie, la…

Le test repose sur des QCM en anglais, avec une validation fondée sur la lettre de réponse attendue. Il sert de repère synthétique pour comparer la précision des modèles sur des tâches mathématiques variées, dans un format simple à scorer et à agréger.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Mathematiques a tous niveaux : de l'arithmetique elementaire au calcul, algebre lineaire, topologie, geometrie algebrique et problemes de niveau doctoral
Modalité	Texte
Type de questions	QCM (6 options A-F)
Métrique d'évaluation	Lettre de la reponse correcte (Exact Match, JSON Path $.answer)
Accès	Public
Langues	anglais
Taille du jeu	100 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Instruct	Qwen	100,0 %	22 septembre 2025	✅ Mesuré
2	Step-3.5-Flash	StepFun	100,0 %	2 février 2026	✅ Mesuré
3	StepFun: Step 3.7 Flash	StepFun	100,0 %	28 mai 2026	✅ Mesuré
4	Arcee AI: Trinity Large Thinking	arcee-ai	97,5 %	1 avril 2026	✅ Mesuré
5	Writer: Palmyra X5	Writer	97,2 %	28 avril 2025	✅ Mesuré
6	Gemini 3.1 Flash-Lite	Google	97,0 %	3 mars 2026	✅ Mesuré
7	Qwen3.5-9B	Qwen	97,0 %	2 mars 2026	✅ Mesuré
8	Seed 2.0 Lite	bytedance	97,0 %	14 février 2026	✅ Mesuré
9	gemini-3-pro-image	Google	97,0 %	—	✅ Mesuré
10	qwen3-235b-a22b-07-25	Qwen	97,0 %	—	✅ Mesuré
11	kimi-k2.5-0127	Moonshot AI	96,8 %	—	✅ Mesuré
12	inclusionAI: Ling-2.6-1T	inclusionai	96,4 %	23 avril 2026	✅ Mesuré
13	AionLabs: Aion-2.0	aion-labs	96,0 %	23 février 2026	✅ Mesuré
14	Claude Opus 4.5	Anthropic	96,0 %	24 novembre 2025	✅ Mesuré
15	Deep Cogito: Cogito v2.1 671B	deepcogito	96,0 %	13 novembre 2025	✅ Mesuré
16	GLM-4.6	Zhipu AI	96,0 %	30 septembre 2025	✅ Mesuré
17	GPT-4.1	OpenAI	96,0 %	14 avril 2025	✅ Mesuré
18	GPT-5.1 Codex Mini	OpenAI	96,0 %	12 novembre 2025	✅ Mesuré
19	Seed 1.6	ByteDance-Seed	96,0 %	23 décembre 2025	✅ Mesuré
20	laguna-xs.2	Poolside	96,0 %	—	✅ Mesuré

Classement établi sur 218 modèles évalués, dont 133 de grands éditeurs. Score médian de l'ensemble : 91,0 %.

Notre analyse

Un score élevé sur Benchable : Mathematics (Baseline) indique une forte capacité à sélectionner la bonne réponse parmi plusieurs options dans un ensemble de problèmes mathématiques de difficulté très hétérogène. La présence de 218 modèles évalués dans la base donne un aperçu comparatif large, et le fait que les scores soient au moins partiellement mesurés par un tiers renforce leur valeur par rapport à des résultats uniquement auto-déclarés. Le score médian de 91 % et un meilleur résultat à 100 % suggèrent toutefois une possible saturation : le benchmark distingue moins finement les modèles les plus performants lorsque beaucoup se rapprochent du plafond. Comme tout jeu public et limité à 100 questions, il ne permet pas à lui seul d’écarter les risques de contamination ni de représenter toute la diversité du raisonnement mathématique. Le classement met néanmoins en évidence des modèles capables d’une précision quasi parfaite sur ce format, notamment Qwen3 VL 32B Instruct en tête.

Sources des scores : benchable.

Mathematics (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23