Reasoning (Baseline)
Benchable : Reasoning (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement complexe des modèles d’IA. Il s’appuie sur des questions ouvertes couvrant des énigmes logiques, des suites, des cryptarithmes, du raisonnement spatial et des tâches de déduction.
Benchable : Reasoning (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement complexe des modèles d’IA. Il s’appuie sur des questions ouvertes couvrant des énigmes logiques, des suites, des cryptarithmes, du raisonnement spatial et des tâches de déduction.
Son rôle est de tester la capacité d’un modèle à produire une solution logique précise, au-delà de la simple restitution de connaissances. L’évaluation repose sur une validation par équivalence sémantique contrôlée par IA, appliquée à la réponse structurée attendue.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Raisonnement complexe : logique, reconnaissance de motifs, inference deductive, raisonnement mathematique, resolution abstraite |
| Modalité | Texte |
| Type de questions | Questions ouvertes (enigmes logiques, suites, cryptarithmes, raisonnement spatial, deduction) |
| Métrique d'évaluation | Solution logique precise, validation par equivalence semantique (verification par IA sur JSON Path $.answer) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 50 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | AionLabs: Aion-2.0 | aion-labs | 100,0 % | 23 février 2026 | ✅ Mesuré |
| 2 | Arcee AI: Trinity Large Thinking | arcee-ai | 100,0 % | 1 avril 2026 | ✅ Mesuré |
| 3 | DeepSeek V4 Flash | DeepSeek | 100,0 % | 24 avril 2026 | ✅ Mesuré |
| 4 | DeepSeek V4 Pro | DeepSeek | 100,0 % | 24 avril 2026 | ✅ Mesuré |
| 5 | GLM-5.1 | Zhipu AI | 100,0 % | 7 avril 2026 | ✅ Mesuré |
| 6 | GPT-5.5 | OpenAI | 100,0 % | 23 avril 2026 | ✅ Mesuré |
| 7 | Gemini 3.1 Pro Preview | 100,0 % | 19 février 2026 | ✅ Mesuré | |
| 8 | Gemini 3.5 Flash | 100,0 % | 19 mai 2026 | ✅ Mesuré | |
| 9 | Google: Gemini 3.1 Pro Preview Custom Tools | 100,0 % | 25 février 2026 | ✅ Mesuré | |
| 10 | Kimi K2.6 | Moonshot AI | 100,0 % | 20 avril 2026 | ✅ Mesuré |
| 11 | Qwen3 VL 235B A22B Instruct | Qwen | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 12 | Qwen3 VL 32B Instruct | Qwen | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 13 | Seed 1.6 | ByteDance-Seed | 100,0 % | 23 décembre 2025 | ✅ Mesuré |
| 14 | Seed 2.0 Lite | bytedance | 100,0 % | 14 février 2026 | ✅ Mesuré |
| 15 | Step-3.5-Flash | StepFun | 100,0 % | 2 février 2026 | ✅ Mesuré |
| 16 | gemini-3-pro-image | 100,0 % | — | ✅ Mesuré | |
| 17 | inclusionAI: Ring-2.6-1T | inclusionai | 100,0 % | 8 mai 2026 | ✅ Mesuré |
| 18 | kimi-k2.5-0127 | Moonshot AI | 100,0 % | — | ✅ Mesuré |
| 19 | o1 | OpenAI | 100,0 % | 17 décembre 2024 | ✅ Mesuré |
| 20 | o3 | OpenAI | 100,0 % | 16 avril 2025 | ✅ Mesuré |
Classement établi sur 240 modèles évalués, dont 139 de grands éditeurs. Score médian de l'ensemble : 80,0 %.
Notre analyse
Un score élevé sur Benchable : Reasoning (Baseline) indique une forte capacité à résoudre des tâches abstraites nécessitant logique, reconnaissance de motifs, inférence déductive et raisonnement mathématique. La validation par équivalence sémantique, appliquée au champ JSON Path $.answer, permet de tenir compte de formulations différentes lorsque la solution est logiquement identique. Les scores sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de rigueur qu’une déclaration purement fournie par les éditeurs de modèles.
Le classement montre une performance déjà élevée de l’ensemble évalué, avec une médiane à 80 % sur les 240 modèles présents dans la base, et un meilleur résultat à 100 % pour AionLabs: Aion-2.0 (aion-labs). Cette proximité avec le plafond suggère une possible saturation pour les meilleurs systèmes. La portée reste limitée par la taille du jeu, son format en anglais et le périmètre centré sur 50 tâches de raisonnement, avec un risque général de contamination difficile à exclure pour un benchmark public.
Sources des scores : benchable.