Autres benchmarks

Chess Puzzles

Epoch: Chess Puzzles est un benchmark conçu par Epoch AI pour évaluer la capacité des modèles d’IA à résoudre des positions d’échecs. Chaque tâche consiste à sélectionner le meilleur coup dans une position donnée, avec une réponse de référence validée par Stockfish.

Le test sert d’évaluation légère du raisonnement spatial et de la planification. Intégré à l’Epoch Capabilities Index, il fournit un signal rapide sur la capacité d’un modèle à analyser une configuration structurée et à choisir une action optimale.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Raisonnement spatial et planification via la résolution de puzzles d'échecs (choix du meilleur coup validé par Stockfish).
Modalité	Texte
Type de questions	Sélection du meilleur coup à partir d'une position d'échecs
Métrique d'évaluation	Exactitude (% de meilleurs coups corrects)
Accès	Public
Langues	N/A (positions d'échecs)
Taille du jeu	100 puzzles
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5 Pro	OpenAI	64,0 %	23 avril 2026	✅ Mesuré
2	OpenAI: GPT-5.4 Pro	OpenAI	58,6 %	5 mars 2026	✅ Mesuré
3	Gemini 3.1 Pro Preview	Google	55,0 %	19 février 2026	✅ Mesuré
4	GPT-5.5	OpenAI	54,0 %	23 avril 2026	✅ Mesuré
5	Gemini 3.5 Flash	Google	50,0 %	19 mai 2026	✅ Mesuré
6	GPT-5.2	OpenAI	49,0 %	11 décembre 2025	✅ Mesuré
7	GPT-5.4	OpenAI	44,0 %	5 mars 2026	✅ Mesuré
8	Claude Fable 5	Anthropic	41,0 %	9 juin 2026	✅ Mesuré
9	Gemini 3 Flash	Google	38,0 %	17 décembre 2025	✅ Mesuré
10	GPT-5	OpenAI	37,0 %	7 août 2025	✅ Mesuré
11	Claude Opus 4.8	Anthropic	34,0 %	28 mai 2026	✅ Mesuré
12	GPT-5.1	OpenAI	32,0 %	13 novembre 2025	✅ Mesuré
13	Gemini 3 Pro	Google	31,0 %	18 novembre 2025	✅ Mesuré
14	Claude Opus 4.7	Anthropic	30,0 %	12 mai 2026	✅ Mesuré
15	GPT-5.4 nano	OpenAI	30,0 %	17 mars 2026	✅ Mesuré
16	Grok-4	xAI	28,0 %	9 juillet 2025	✅ Mesuré
17	Kimi K2.6	Moonshot AI	26,0 %	20 avril 2026	✅ Mesuré
18	o4-mini	OpenAI	26,0 %	16 avril 2025	✅ Mesuré
19	Grok 4.3 Beta	xAI	25,0 %	17 avril 2026	✅ Mesuré
20	Qwen3.7 Max	Qwen	22,0 %	19 mai 2026	✅ Mesuré

Classement établi sur 43 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 20,0 %.

Notre analyse

Un score élevé indique qu’un modèle parvient fréquemment à identifier le meilleur coup selon Stockfish, ce qui suggère une bonne aptitude à raisonner sur des relations spatiales, à anticiper des séquences et à planifier dans un environnement formel. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés, et par l’usage d’un moteur d’échecs comme référence de validation. Le benchmark reste toutefois limité par sa portée: il ne mesure pas le langage, la connaissance générale ni la résolution de problèmes ouverts. Sa taille réduite et son accès public peuvent aussi favoriser la saturation ou une éventuelle contamination des données. Le classement montre un écart important entre la performance médiane de l’ensemble évalué et le meilleur résultat observé, GPT-5.5 Pro atteignant 64%, ce qui suggère que la tâche reste discriminante pour les modèles de la base.

Sources des scores : epoch.

Chess Puzzles

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench