Reasoning (Baseline)

Benchable : Reasoning (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement complexe des modèles d’IA. Il s’appuie sur des questions ouvertes couvrant des énigmes logiques, des suites, des cryptarithmes, du raisonnement spatial et des tâches de déduction.

Benchable : Reasoning (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement complexe des modèles d’IA. Il s’appuie sur des questions ouvertes couvrant des énigmes logiques, des suites, des cryptarithmes, du raisonnement spatial et des tâches de déduction.

Son rôle est de tester la capacité d’un modèle à produire une solution logique précise, au-delà de la simple restitution de connaissances. L’évaluation repose sur une validation par équivalence sémantique contrôlée par IA, appliquée à la réponse structurée attendue.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesRaisonnement complexe : logique, reconnaissance de motifs, inference deductive, raisonnement mathematique, resolution abstraite
ModalitéTexte
Type de questionsQuestions ouvertes (enigmes logiques, suites, cryptarithmes, raisonnement spatial, deduction)
Métrique d'évaluationSolution logique precise, validation par equivalence semantique (verification par IA sur JSON Path $.answer)
AccèsPublic
Languesanglais
Taille du jeu50 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1AionLabs: Aion-2.0aion-labs100,0 %23 février 2026✅ Mesuré
2Arcee AI: Trinity Large Thinkingarcee-ai100,0 %1 avril 2026✅ Mesuré
3DeepSeek V4 FlashDeepSeek100,0 %24 avril 2026✅ Mesuré
4DeepSeek V4 ProDeepSeek100,0 %24 avril 2026✅ Mesuré
5GLM-5.1Zhipu AI100,0 %7 avril 2026✅ Mesuré
6GPT-5.5OpenAI100,0 %23 avril 2026✅ Mesuré
7Gemini 3.1 Pro PreviewGoogle100,0 %19 février 2026✅ Mesuré
8Gemini 3.5 FlashGoogle100,0 %19 mai 2026✅ Mesuré
9Google: Gemini 3.1 Pro Preview Custom ToolsGoogle100,0 %25 février 2026✅ Mesuré
10Kimi K2.6Moonshot AI100,0 %20 avril 2026✅ Mesuré
11Qwen3 VL 235B A22B InstructQwen100,0 %22 septembre 2025✅ Mesuré
12Qwen3 VL 32B InstructQwen100,0 %22 septembre 2025✅ Mesuré
13Seed 1.6ByteDance-Seed100,0 %23 décembre 2025✅ Mesuré
14Seed 2.0 Litebytedance100,0 %14 février 2026✅ Mesuré
15Step-3.5-FlashStepFun100,0 %2 février 2026✅ Mesuré
16gemini-3-pro-imageGoogle100,0 %✅ Mesuré
17inclusionAI: Ring-2.6-1Tinclusionai100,0 %8 mai 2026✅ Mesuré
18kimi-k2.5-0127Moonshot AI100,0 %✅ Mesuré
19o1OpenAI100,0 %17 décembre 2024✅ Mesuré
20o3OpenAI100,0 %16 avril 2025✅ Mesuré

Classement établi sur 240 modèles évalués, dont 139 de grands éditeurs. Score médian de l'ensemble : 80,0 %.

Notre analyse

Un score élevé sur Benchable : Reasoning (Baseline) indique une forte capacité à résoudre des tâches abstraites nécessitant logique, reconnaissance de motifs, inférence déductive et raisonnement mathématique. La validation par équivalence sémantique, appliquée au champ JSON Path $.answer, permet de tenir compte de formulations différentes lorsque la solution est logiquement identique. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de rigueur qu’une déclaration purement fournie par les éditeurs de modèles.

Le classement montre une performance déjà élevée de l’ensemble évalué, avec une médiane à 80 % sur les 240 modèles présents dans la base, et un meilleur résultat à 100 % pour AionLabs: Aion-2.0 (aion-labs). Cette proximité avec le plafond suggère une possible saturation pour les meilleurs systèmes. La portée reste limitée par la taille du jeu, son format en anglais et le périmètre centré sur 50 tâches de raisonnement, avec un risque général de contamination difficile à exclure pour un benchmark public.


Sources des scores : benchable.