Autres benchmarks

Reasoning (Baseline)

Benchable : Reasoning (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement complexe des modèles d’IA. Il s’appuie sur des questions ouvertes couvrant des énigmes logiques, des suites, des cryptarithmes, du raisonnement spatial et des tâches de déduction.

Son rôle est de tester la capacité d’un modèle à produire une solution logique précise, au-delà de la simple restitution de connaissances. L’évaluation repose sur une validation par équivalence sémantique contrôlée par IA, appliquée à la réponse structurée attendue.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Raisonnement complexe : logique, reconnaissance de motifs, inference deductive, raisonnement mathematique, resolution abstraite
Modalité	Texte
Type de questions	Questions ouvertes (enigmes logiques, suites, cryptarithmes, raisonnement spatial, deduction)
Métrique d'évaluation	Solution logique precise, validation par equivalence semantique (verification par IA sur JSON Path $.answer)
Accès	Public
Langues	anglais
Taille du jeu	50 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	AionLabs: Aion-2.0	aion-labs	100,0 %	23 février 2026	✅ Mesuré
2	Arcee AI: Trinity Large Thinking	arcee-ai	100,0 %	1 avril 2026	✅ Mesuré
3	DeepSeek V4 Flash	DeepSeek	100,0 %	24 avril 2026	✅ Mesuré
4	DeepSeek V4 Pro	DeepSeek	100,0 %	24 avril 2026	✅ Mesuré
5	GLM-5.1	Zhipu AI	100,0 %	7 avril 2026	✅ Mesuré
6	GPT-5.5	OpenAI	100,0 %	23 avril 2026	✅ Mesuré
7	Gemini 3.1 Pro Preview	Google	100,0 %	19 février 2026	✅ Mesuré
8	Gemini 3.5 Flash	Google	100,0 %	19 mai 2026	✅ Mesuré
9	Google: Gemini 3.1 Pro Preview Custom Tools	Google	100,0 %	25 février 2026	✅ Mesuré
10	Kimi K2.6	Moonshot AI	100,0 %	20 avril 2026	✅ Mesuré
11	Qwen3 VL 235B A22B Instruct	Qwen	100,0 %	22 septembre 2025	✅ Mesuré
12	Qwen3 VL 32B Instruct	Qwen	100,0 %	22 septembre 2025	✅ Mesuré
13	Seed 1.6	ByteDance-Seed	100,0 %	23 décembre 2025	✅ Mesuré
14	Seed 2.0 Lite	bytedance	100,0 %	14 février 2026	✅ Mesuré
15	Step-3.5-Flash	StepFun	100,0 %	2 février 2026	✅ Mesuré
16	gemini-3-pro-image	Google	100,0 %	—	✅ Mesuré
17	inclusionAI: Ring-2.6-1T	inclusionai	100,0 %	8 mai 2026	✅ Mesuré
18	kimi-k2.5-0127	Moonshot AI	100,0 %	—	✅ Mesuré
19	o1	OpenAI	100,0 %	17 décembre 2024	✅ Mesuré
20	o3	OpenAI	100,0 %	16 avril 2025	✅ Mesuré

Classement établi sur 240 modèles évalués, dont 139 de grands éditeurs. Score médian de l'ensemble : 80,0 %.

Notre analyse

Un score élevé sur Benchable : Reasoning (Baseline) indique une forte capacité à résoudre des tâches abstraites nécessitant logique, reconnaissance de motifs, inférence déductive et raisonnement mathématique. La validation par équivalence sémantique, appliquée au champ JSON Path $.answer, permet de tenir compte de formulations différentes lorsque la solution est logiquement identique. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de rigueur qu’une déclaration purement fournie par les éditeurs de modèles.

Le classement montre une performance déjà élevée de l’ensemble évalué, avec une médiane à 80 % sur les 240 modèles présents dans la base, et un meilleur résultat à 100 % pour AionLabs: Aion-2.0 (aion-labs). Cette proximité avec le plafond suggère une possible saturation pour les meilleurs systèmes. La portée reste limitée par la taille du jeu, son format en anglais et le périmètre centré sur 50 tâches de raisonnement, avec un risque général de contamination difficile à exclure pour un benchmark public.

Sources des scores : benchable.

Reasoning (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench