Chess Puzzles
Epoch: Chess Puzzles est un benchmark conçu par Epoch AI pour évaluer la capacité des modèles d’IA à résoudre des positions d’échecs. Chaque tâche consiste à sélectionner le meilleur coup dans une position donnée, avec une réponse de référence validée par Stockfish.
Epoch: Chess Puzzles est un benchmark conçu par Epoch AI pour évaluer la capacité des modèles d’IA à résoudre des positions d’échecs. Chaque tâche consiste à sélectionner le meilleur coup dans une position donnée, avec une réponse de référence validée par Stockfish.
Le test sert d’évaluation légère du raisonnement spatial et de la planification. Intégré à l’Epoch Capabilities Index, il fournit un signal rapide sur la capacité d’un modèle à analyser une configuration structurée et à choisir une action optimale.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Raisonnement spatial et planification via la résolution de puzzles d'échecs (choix du meilleur coup validé par Stockfish). |
| Modalité | Texte |
| Type de questions | Sélection du meilleur coup à partir d'une position d'échecs |
| Métrique d'évaluation | Exactitude (% de meilleurs coups corrects) |
| Accès | Public |
| Langues | N/A (positions d'échecs) |
| Taille du jeu | 100 puzzles |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 Pro | OpenAI | 64,0 % | 23 avril 2026 | ✅ Mesuré |
| 2 | OpenAI: GPT-5.4 Pro | OpenAI | 58,6 % | 5 mars 2026 | ✅ Mesuré |
| 3 | Gemini 3.1 Pro Preview | 55,0 % | 19 février 2026 | ✅ Mesuré | |
| 4 | GPT-5.5 | OpenAI | 54,0 % | 23 avril 2026 | ✅ Mesuré |
| 5 | Gemini 3.5 Flash | 50,0 % | 19 mai 2026 | ✅ Mesuré | |
| 6 | GPT-5.2 | OpenAI | 49,0 % | 11 décembre 2025 | ✅ Mesuré |
| 7 | GPT-5.4 | OpenAI | 44,0 % | 5 mars 2026 | ✅ Mesuré |
| 8 | Claude Fable 5 | Anthropic | 41,0 % | 9 juin 2026 | ✅ Mesuré |
| 9 | Gemini 3 Flash | 38,0 % | 17 décembre 2025 | ✅ Mesuré | |
| 10 | GPT-5 | OpenAI | 37,0 % | 7 août 2025 | ✅ Mesuré |
| 11 | Claude Opus 4.8 | Anthropic | 34,0 % | 28 mai 2026 | ✅ Mesuré |
| 12 | GPT-5.1 | OpenAI | 32,0 % | 13 novembre 2025 | ✅ Mesuré |
| 13 | Gemini 3 Pro | 31,0 % | 18 novembre 2025 | ✅ Mesuré | |
| 14 | Claude Opus 4.7 | Anthropic | 30,0 % | 12 mai 2026 | ✅ Mesuré |
| 15 | GPT-5.4 nano | OpenAI | 30,0 % | 17 mars 2026 | ✅ Mesuré |
| 16 | Grok-4 | xAI | 28,0 % | 9 juillet 2025 | ✅ Mesuré |
| 17 | Kimi K2.6 | Moonshot AI | 26,0 % | 20 avril 2026 | ✅ Mesuré |
| 18 | o4-mini | OpenAI | 26,0 % | 16 avril 2025 | ✅ Mesuré |
| 19 | Grok 4.3 Beta | xAI | 25,0 % | 17 avril 2026 | ✅ Mesuré |
| 20 | Qwen3.7 Max | Qwen | 22,0 % | 19 mai 2026 | ✅ Mesuré |
Classement établi sur 43 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 20,0 %.
Notre analyse
Un score élevé indique qu’un modèle parvient fréquemment à identifier le meilleur coup selon Stockfish, ce qui suggère une bonne aptitude à raisonner sur des relations spatiales, à anticiper des séquences et à planifier dans un environnement formel. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés, et par l’usage d’un moteur d’échecs comme référence de validation. Le benchmark reste toutefois limité par sa portée: il ne mesure pas le langage, la connaissance générale ni la résolution de problèmes ouverts. Sa taille réduite et son accès public peuvent aussi favoriser la saturation ou une éventuelle contamination des données. Le classement montre un écart important entre la performance médiane de l’ensemble évalué et le meilleur résultat observé, GPT-5.5 Pro atteignant 64%, ce qui suggère que la tâche reste discriminante pour les modèles de la base.
Sources des scores : epoch.