Autres benchmarks

Reasoning

LiveBench: Reasoning est la catégorie consacrée au raisonnement dans LiveBench, un benchmark public pour LLM créé par l’équipe LiveBench, associant notamment Abacus.AI et NYU. Publié en 2024, il vise à limiter la contamination en renouvelant régulièrement ses tâches.

Ce volet mesure la capacité des modèles à résoudre des énigmes de logique et des problèmes de déduction étape par étape. Les réponses ouvertes sont corrigées automatiquement à partir d’une vérité-terrain objective, ce qui en fait un repère utile pour comparer la robustesse du raisonnement déductif.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe LiveBench (Abacus.AI, NYU et al.)
Capacités mesurées	Raisonnement logique et déductif (énigmes de logique, déduction étape par étape).
Modalité	Texte
Type de questions	Énigmes de raisonnement/logique, réponses ouvertes à correction automatique objective
Métrique d'évaluation	Exactitude (score automatique sur vérité-terrain)
Accès	Public
Langues	Anglais
Taille du jeu	Sous-ensemble « raisonnement » de LiveBench (taille variable, mise à jour mensuelle)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.8	Anthropic	89,7 %	28 mai 2026	✅ Mesuré
2	Claude Opus 4.6	Anthropic	88,7 %	7 avril 2026	✅ Mesuré
3	GPT-5.4	OpenAI	88,1 %	5 mars 2026	✅ Mesuré
4	GPT-5.5	OpenAI	87,7 %	23 avril 2026	✅ Mesuré
5	Claude Opus 4.7	Anthropic	87,7 %	12 mai 2026	✅ Mesuré
6	Claude Fable 5	Anthropic	87,2 %	9 juin 2026	✅ Mesuré
7	Claude Sonnet 4.6	Anthropic	84,8 %	17 février 2026	✅ Mesuré
8	Gemini 3.1 Pro Preview	Google	84,0 %	19 février 2026	✅ Mesuré
9	GPT-5.1 Codex	OpenAI	83,7 %	19 novembre 2025	✅ Mesuré
10	Qwen3.7 Max	Qwen	83,3 %	19 mai 2026	✅ Mesuré
11	GPT-5.2	OpenAI	83,2 %	11 décembre 2025	✅ Mesuré
12	Kimi K2.7 Code	Moonshot AI	82,8 %	12 juin 2026	✅ Mesuré
13	DeepSeek V4 Pro	DeepSeek	82,7 %	24 avril 2026	✅ Mesuré
14	Gemini 3.5 Flash	Google	82,0 %	19 mai 2026	✅ Mesuré
15	OpenAI: GPT-5 Pro	OpenAI	81,7 %	6 octobre 2025	✅ Mesuré
16	GPT-5.4 nano	OpenAI	81,1 %	17 mars 2026	✅ Mesuré
17	Grok 4.1 Fast	xAI	80,2 %	19 novembre 2025	✅ Mesuré
18	GPT-5.3 Codex	OpenAI	80,2 %	5 février 2026	✅ Mesuré
19	Kimi K2.6	Moonshot AI	79,4 %	—	✅ Mesuré
20	Grok-4	xAI	79,1 %	9 juillet 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %.

Notre analyse

Un score élevé sur LiveBench: Reasoning indique une bonne capacité à suivre des contraintes logiques, à maintenir une chaîne de déduction cohérente et à produire une réponse vérifiable. Le meilleur résultat recensé dans la base, Claude Opus 4.8 à 90 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère encore une différenciation entre modèles, même si les meilleurs systèmes peuvent approcher une zone de saturation sur certaines tâches. La rigueur du benchmark tient à sa correction automatique sur vérité-terrain et à son renouvellement mensuel, destiné à réduire la contamination. La fiabilité pratique du classement reste toutefois à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs. La portée est également circonscrite: les tâches sont en anglais et ciblent le raisonnement logique et déductif, sans couvrir l’ensemble des compétences d’un modèle généraliste. Le classement met donc surtout en évidence la performance sur des problèmes objectifs de déduction, plutôt qu’une intelligence générale complète.

Sources des scores : livebench.

Reasoning

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench