Chess Puzzles

Epoch: Chess Puzzles est un benchmark conçu par Epoch AI pour évaluer la capacité des modèles d’IA à résoudre des positions d’échecs. Chaque tâche consiste à sélectionner le meilleur coup dans une position donnée, avec une réponse de référence validée par Stockfish.

Epoch: Chess Puzzles est un benchmark conçu par Epoch AI pour évaluer la capacité des modèles d’IA à résoudre des positions d’échecs. Chaque tâche consiste à sélectionner le meilleur coup dans une position donnée, avec une réponse de référence validée par Stockfish.

Le test sert d’évaluation légère du raisonnement spatial et de la planification. Intégré à l’Epoch Capabilities Index, il fournit un signal rapide sur la capacité d’un modèle à analyser une configuration structurée et à choisir une action optimale.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesRaisonnement spatial et planification via la résolution de puzzles d'échecs (choix du meilleur coup validé par Stockfish).
ModalitéTexte
Type de questionsSélection du meilleur coup à partir d'une position d'échecs
Métrique d'évaluationExactitude (% de meilleurs coups corrects)
AccèsPublic
LanguesN/A (positions d'échecs)
Taille du jeu100 puzzles
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5 ProOpenAI64,0 %23 avril 2026✅ Mesuré
2OpenAI: GPT-5.4 ProOpenAI58,6 %5 mars 2026✅ Mesuré
3Gemini 3.1 Pro PreviewGoogle55,0 %19 février 2026✅ Mesuré
4GPT-5.5OpenAI54,0 %23 avril 2026✅ Mesuré
5Gemini 3.5 FlashGoogle50,0 %19 mai 2026✅ Mesuré
6GPT-5.2OpenAI49,0 %11 décembre 2025✅ Mesuré
7GPT-5.4OpenAI44,0 %5 mars 2026✅ Mesuré
8Claude Fable 5Anthropic41,0 %9 juin 2026✅ Mesuré
9Gemini 3 FlashGoogle38,0 %17 décembre 2025✅ Mesuré
10GPT-5OpenAI37,0 %7 août 2025✅ Mesuré
11Claude Opus 4.8Anthropic34,0 %28 mai 2026✅ Mesuré
12GPT-5.1OpenAI32,0 %13 novembre 2025✅ Mesuré
13Gemini 3 ProGoogle31,0 %18 novembre 2025✅ Mesuré
14Claude Opus 4.7Anthropic30,0 %12 mai 2026✅ Mesuré
15GPT-5.4 nanoOpenAI30,0 %17 mars 2026✅ Mesuré
16Grok-4xAI28,0 %9 juillet 2025✅ Mesuré
17Kimi K2.6Moonshot AI26,0 %20 avril 2026✅ Mesuré
18o4-miniOpenAI26,0 %16 avril 2025✅ Mesuré
19Grok 4.3 BetaxAI25,0 %17 avril 2026✅ Mesuré
20Qwen3.7 MaxQwen22,0 %19 mai 2026✅ Mesuré

Classement établi sur 43 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 20,0 %.

Notre analyse

Un score élevé indique qu’un modèle parvient fréquemment à identifier le meilleur coup selon Stockfish, ce qui suggère une bonne aptitude à raisonner sur des relations spatiales, à anticiper des séquences et à planifier dans un environnement formel. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés, et par l’usage d’un moteur d’échecs comme référence de validation. Le benchmark reste toutefois limité par sa portée: il ne mesure pas le langage, la connaissance générale ni la résolution de problèmes ouverts. Sa taille réduite et son accès public peuvent aussi favoriser la saturation ou une éventuelle contamination des données. Le classement montre un écart important entre la performance médiane de l’ensemble évalué et le meilleur résultat observé, GPT-5.5 Pro atteignant 64%, ce qui suggère que la tâche reste discriminante pour les modèles de la base.


Sources des scores : epoch.