ZebraLogic

ZebraLogic est un benchmark d’évaluation du raisonnement logique des grands modèles de langage, construit autour de puzzles de grille logique dérivés de problèmes de satisfaction de contraintes. Publié en 2025 par Bill Yuchen Lin et al., dans des travaux associés à Allen Institute for AI…

ZebraLogic est un benchmark d’évaluation du raisonnement logique des grands modèles de langage, construit autour de puzzles de grille logique dérivés de problèmes de satisfaction de contraintes. Publié en 2025 par Bill Yuchen Lin et al., dans des travaux associés à Allen Institute for AI et Google DeepMind, il vise à tester la capacité des modèles à manipuler des contraintes explicites et à résoudre des problèmes structurés.

Son intérêt tient à la complexité contrôlable des puzzles, notamment via la taille de l’espace de recherche et le nombre de conflits Z3. ZebraLogic sert ainsi à observer comment la performance évolue lorsque les problèmes deviennent plus difficiles, au-delà de simples questions de connaissance.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBill Yuchen Lin et al. (travaux associés à Allen Institute for AI / Google DeepMind)
Capacités mesuréesRaisonnement logique des LLM via des puzzles de grille logique dérivés de CSP, à complexité contrôlable (taille d'espace de recherche, nombre de conflits Z3).
ModalitéTexte
Type de questionsRaisonnement logique (grilles logiques / problèmes de satisfaction de contraintes)
Métrique d'évaluationExactitude (taux de puzzles/cellules résolus)
AccèsPublic
LanguesAnglais
Taille du jeu1 000 puzzles de grille logique
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 235B A22B ThinkingQwen97,3 %22 septembre 2025Auto-déclaré
2LongCat-Flash-ThinkingMeituan95,5 %22 septembre 2025Auto-déclaré
3Qwen3-235B-A22B-Instruct-2507Qwen95,0 %22 juillet 2025Auto-déclaré
4LongCat-Flash-ChatMeituan89,3 %29 août 2025Auto-déclaré
5Kimi K2 InstructMoonshot AI89,0 %11 juillet 2025Auto-déclaré
6Kimi K2-Instruct-0905Moonshot AI89,0 %5 septembre 2025Auto-déclaré
7MiniMax M1MiniMax80,1 %17 juin 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 89,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ZebraLogic indique une forte capacité à suivre des contraintes, à maintenir une cohérence logique et à résoudre des grilles dont la difficulté peut être quantifiée. L’exactitude peut porter sur les puzzles ou sur les cellules résolues, ce qui en fait une mesure directe de performance sur la tâche. Le classement disponible montre des résultats élevés, avec une médiane à 89 % parmi les modèles recensés et un meilleur score de 97 % pour Qwen3 VL 235B A22B Thinking, ce qui suggère que certains systèmes gèrent très bien les instances évaluées. Cette lecture doit rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, donc moins contrôlés qu’une évaluation entièrement indépendante. Le benchmark peut aussi connaître des effets de saturation si les meilleurs modèles approchent le plafond, ainsi que des risques de contamination propres aux jeux publics. Sa portée reste ciblée: ZebraLogic mesure le raisonnement logique sur des grilles en anglais, pas l’ensemble des capacités de raisonnement ni la robustesse en conditions ouvertes.


Sources des scores : llm-stats.