Raisonnement

ZebraLogic

ZebraLogic est un benchmark d’évaluation du raisonnement logique des grands modèles de langage, construit autour de puzzles de grille logique dérivés de problèmes de satisfaction de contraintes. Publié en 2025 par Bill Yuchen Lin et al., dans des travaux associés à Allen Institute for AI et Google DeepMind, il vise à tester la capacité des modèles à manipuler des contraintes explicites et à résoudre des problèmes structurés.

Son intérêt tient à la complexité contrôlable des puzzles, notamment via la taille de l’espace de recherche et le nombre de conflits Z3. ZebraLogic sert ainsi à observer comment la performance évolue lorsque les problèmes deviennent plus difficiles, au-delà de simples questions de connaissance.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Bill Yuchen Lin et al. (travaux associés à Allen Institute for AI / Google DeepMind)
Capacités mesurées	Raisonnement logique des LLM via des puzzles de grille logique dérivés de CSP, à complexité contrôlable (taille d'espace de recherche, nombre de conflits Z3).
Modalité	Texte
Type de questions	Raisonnement logique (grilles logiques / problèmes de satisfaction de contraintes)
Métrique d'évaluation	Exactitude (taux de puzzles/cellules résolus)
Accès	Public
Langues	Anglais
Taille du jeu	1 000 puzzles de grille logique
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 235B A22B Thinking	Qwen	97,3 %	22 septembre 2025	Auto-déclaré
2	LongCat-Flash-Thinking	Meituan	95,5 %	22 septembre 2025	Auto-déclaré
3	Qwen3-235B-A22B-Instruct-2507	Qwen	95,0 %	22 juillet 2025	Auto-déclaré
4	LongCat-Flash-Chat	Meituan	89,3 %	29 août 2025	Auto-déclaré
5	Kimi K2 Instruct	Moonshot AI	89,0 %	11 juillet 2025	Auto-déclaré
6	Kimi K2-Instruct-0905	Moonshot AI	89,0 %	5 septembre 2025	Auto-déclaré
7	MiniMax M1	MiniMax	80,1 %	17 juin 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 89,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ZebraLogic indique une forte capacité à suivre des contraintes, à maintenir une cohérence logique et à résoudre des grilles dont la difficulté peut être quantifiée. L’exactitude peut porter sur les puzzles ou sur les cellules résolues, ce qui en fait une mesure directe de performance sur la tâche. Le classement disponible montre des résultats élevés, avec une médiane à 89 % parmi les modèles recensés et un meilleur score de 97 % pour Qwen3 VL 235B A22B Thinking, ce qui suggère que certains systèmes gèrent très bien les instances évaluées. Cette lecture doit rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, donc moins contrôlés qu’une évaluation entièrement indépendante. Le benchmark peut aussi connaître des effets de saturation si les meilleurs modèles approchent le plafond, ainsi que des risques de contamination propres aux jeux publics. Sa portée reste ciblée: ZebraLogic mesure le raisonnement logique sur des grilles en anglais, pas l’ensemble des capacités de raisonnement ni la robustesse en conditions ouvertes.

Sources des scores : llm-stats.

ZebraLogic

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench