Reasoning
LiveBench: Reasoning est la catégorie consacrée au raisonnement dans LiveBench, un benchmark public pour LLM créé par l’équipe LiveBench, associant notamment Abacus.AI et NYU. Publié en 2024, il vise à limiter la contamination en renouvelant régulièrement ses tâches.
LiveBench: Reasoning est la catégorie consacrée au raisonnement dans LiveBench, un benchmark public pour LLM créé par l’équipe LiveBench, associant notamment Abacus.AI et NYU. Publié en 2024, il vise à limiter la contamination en renouvelant régulièrement ses tâches.
Ce volet mesure la capacité des modèles à résoudre des énigmes de logique et des problèmes de déduction étape par étape. Les réponses ouvertes sont corrigées automatiquement à partir d’une vérité-terrain objective, ce qui en fait un repère utile pour comparer la robustesse du raisonnement déductif.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe LiveBench (Abacus.AI, NYU et al.) |
| Capacités mesurées | Raisonnement logique et déductif (énigmes de logique, déduction étape par étape). |
| Modalité | Texte |
| Type de questions | Énigmes de raisonnement/logique, réponses ouvertes à correction automatique objective |
| Métrique d'évaluation | Exactitude (score automatique sur vérité-terrain) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | Sous-ensemble « raisonnement » de LiveBench (taille variable, mise à jour mensuelle) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.8 | Anthropic | 89,7 % | 28 mai 2026 | ✅ Mesuré |
| 2 | Claude Opus 4.6 | Anthropic | 88,7 % | 7 avril 2026 | ✅ Mesuré |
| 3 | GPT-5.4 | OpenAI | 88,1 % | 5 mars 2026 | ✅ Mesuré |
| 4 | GPT-5.5 | OpenAI | 87,7 % | 23 avril 2026 | ✅ Mesuré |
| 5 | Claude Opus 4.7 | Anthropic | 87,7 % | 12 mai 2026 | ✅ Mesuré |
| 6 | Claude Fable 5 | Anthropic | 87,2 % | 9 juin 2026 | ✅ Mesuré |
| 7 | Claude Sonnet 4.6 | Anthropic | 84,8 % | 17 février 2026 | ✅ Mesuré |
| 8 | Gemini 3.1 Pro Preview | 84,0 % | 19 février 2026 | ✅ Mesuré | |
| 9 | GPT-5.1 Codex | OpenAI | 83,7 % | 19 novembre 2025 | ✅ Mesuré |
| 10 | Qwen3.7 Max | Qwen | 83,3 % | 19 mai 2026 | ✅ Mesuré |
| 11 | GPT-5.2 | OpenAI | 83,2 % | 11 décembre 2025 | ✅ Mesuré |
| 12 | Kimi K2.7 Code | Moonshot AI | 82,8 % | 12 juin 2026 | ✅ Mesuré |
| 13 | DeepSeek V4 Pro | DeepSeek | 82,7 % | 24 avril 2026 | ✅ Mesuré |
| 14 | Gemini 3.5 Flash | 82,0 % | 19 mai 2026 | ✅ Mesuré | |
| 15 | OpenAI: GPT-5 Pro | OpenAI | 81,7 % | 6 octobre 2025 | ✅ Mesuré |
| 16 | GPT-5.4 nano | OpenAI | 81,1 % | 17 mars 2026 | ✅ Mesuré |
| 17 | Grok 4.1 Fast | xAI | 80,2 % | 19 novembre 2025 | ✅ Mesuré |
| 18 | GPT-5.3 Codex | OpenAI | 80,2 % | 5 février 2026 | ✅ Mesuré |
| 19 | Kimi K2.6 | Moonshot AI | 79,4 % | — | ✅ Mesuré |
| 20 | Grok-4 | xAI | 79,1 % | 9 juillet 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %.
Notre analyse
Un score élevé sur LiveBench: Reasoning indique une bonne capacité à suivre des contraintes logiques, à maintenir une chaîne de déduction cohérente et à produire une réponse vérifiable. Le meilleur résultat recensé dans la base, Claude Opus 4.8 à 90 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère encore une différenciation entre modèles, même si les meilleurs systèmes peuvent approcher une zone de saturation sur certaines tâches. La rigueur du benchmark tient à sa correction automatique sur vérité-terrain et à son renouvellement mensuel, destiné à réduire la contamination. La fiabilité pratique du classement reste toutefois à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs. La portée est également circonscrite: les tâches sont en anglais et ciblent le raisonnement logique et déductif, sans couvrir l’ensemble des compétences d’un modèle généraliste. Le classement met donc surtout en évidence la performance sur des problèmes objectifs de déduction, plutôt qu’une intelligence générale complète.
Sources des scores : livebench.