Reasoning

LiveBench: Reasoning est la catégorie consacrée au raisonnement dans LiveBench, un benchmark public pour LLM créé par l’équipe LiveBench, associant notamment Abacus.AI et NYU. Publié en 2024, il vise à limiter la contamination en renouvelant régulièrement ses tâches.

LiveBench: Reasoning est la catégorie consacrée au raisonnement dans LiveBench, un benchmark public pour LLM créé par l’équipe LiveBench, associant notamment Abacus.AI et NYU. Publié en 2024, il vise à limiter la contamination en renouvelant régulièrement ses tâches.

Ce volet mesure la capacité des modèles à résoudre des énigmes de logique et des problèmes de déduction étape par étape. Les réponses ouvertes sont corrigées automatiquement à partir d’une vérité-terrain objective, ce qui en fait un repère utile pour comparer la robustesse du raisonnement déductif.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe LiveBench (Abacus.AI, NYU et al.)
Capacités mesuréesRaisonnement logique et déductif (énigmes de logique, déduction étape par étape).
ModalitéTexte
Type de questionsÉnigmes de raisonnement/logique, réponses ouvertes à correction automatique objective
Métrique d'évaluationExactitude (score automatique sur vérité-terrain)
AccèsPublic
LanguesAnglais
Taille du jeuSous-ensemble « raisonnement » de LiveBench (taille variable, mise à jour mensuelle)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.8Anthropic89,7 %28 mai 2026✅ Mesuré
2Claude Opus 4.6Anthropic88,7 %7 avril 2026✅ Mesuré
3GPT-5.4OpenAI88,1 %5 mars 2026✅ Mesuré
4GPT-5.5OpenAI87,7 %23 avril 2026✅ Mesuré
5Claude Opus 4.7Anthropic87,7 %12 mai 2026✅ Mesuré
6Claude Fable 5Anthropic87,2 %9 juin 2026✅ Mesuré
7Claude Sonnet 4.6Anthropic84,8 %17 février 2026✅ Mesuré
8Gemini 3.1 Pro PreviewGoogle84,0 %19 février 2026✅ Mesuré
9GPT-5.1 CodexOpenAI83,7 %19 novembre 2025✅ Mesuré
10Qwen3.7 MaxQwen83,3 %19 mai 2026✅ Mesuré
11GPT-5.2OpenAI83,2 %11 décembre 2025✅ Mesuré
12Kimi K2.7 CodeMoonshot AI82,8 %12 juin 2026✅ Mesuré
13DeepSeek V4 ProDeepSeek82,7 %24 avril 2026✅ Mesuré
14Gemini 3.5 FlashGoogle82,0 %19 mai 2026✅ Mesuré
15OpenAI: GPT-5 ProOpenAI81,7 %6 octobre 2025✅ Mesuré
16GPT-5.4 nanoOpenAI81,1 %17 mars 2026✅ Mesuré
17Grok 4.1 FastxAI80,2 %19 novembre 2025✅ Mesuré
18GPT-5.3 CodexOpenAI80,2 %5 février 2026✅ Mesuré
19Kimi K2.6Moonshot AI79,4 %✅ Mesuré
20Grok-4xAI79,1 %9 juillet 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %.

Notre analyse

Un score élevé sur LiveBench: Reasoning indique une bonne capacité à suivre des contraintes logiques, à maintenir une chaîne de déduction cohérente et à produire une réponse vérifiable. Le meilleur résultat recensé dans la base, Claude Opus 4.8 à 90 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère encore une différenciation entre modèles, même si les meilleurs systèmes peuvent approcher une zone de saturation sur certaines tâches. La rigueur du benchmark tient à sa correction automatique sur vérité-terrain et à son renouvellement mensuel, destiné à réduire la contamination. La fiabilité pratique du classement reste toutefois à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs. La portée est également circonscrite: les tâches sont en anglais et ciblent le raisonnement logique et déductif, sans couvrir l’ensemble des compétences d’un modèle généraliste. Le classement met donc surtout en évidence la performance sur des problèmes objectifs de déduction, plutôt qu’une intelligence générale complète.


Sources des scores : livebench.