ZebraLogic
ZebraLogic est un benchmark d’évaluation du raisonnement logique des grands modèles de langage, construit autour de puzzles de grille logique dérivés de problèmes de satisfaction de contraintes. Publié en 2025 par Bill Yuchen Lin et al., dans des travaux associés à Allen Institute for AI…
ZebraLogic est un benchmark d’évaluation du raisonnement logique des grands modèles de langage, construit autour de puzzles de grille logique dérivés de problèmes de satisfaction de contraintes. Publié en 2025 par Bill Yuchen Lin et al., dans des travaux associés à Allen Institute for AI et Google DeepMind, il vise à tester la capacité des modèles à manipuler des contraintes explicites et à résoudre des problèmes structurés.
Son intérêt tient à la complexité contrôlable des puzzles, notamment via la taille de l’espace de recherche et le nombre de conflits Z3. ZebraLogic sert ainsi à observer comment la performance évolue lorsque les problèmes deviennent plus difficiles, au-delà de simples questions de connaissance.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Bill Yuchen Lin et al. (travaux associés à Allen Institute for AI / Google DeepMind) |
| Capacités mesurées | Raisonnement logique des LLM via des puzzles de grille logique dérivés de CSP, à complexité contrôlable (taille d'espace de recherche, nombre de conflits Z3). |
| Modalité | Texte |
| Type de questions | Raisonnement logique (grilles logiques / problèmes de satisfaction de contraintes) |
| Métrique d'évaluation | Exactitude (taux de puzzles/cellules résolus) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 1 000 puzzles de grille logique |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Thinking | Qwen | 97,3 % | 22 septembre 2025 | Auto-déclaré |
| 2 | LongCat-Flash-Thinking | Meituan | 95,5 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 95,0 % | 22 juillet 2025 | Auto-déclaré |
| 4 | LongCat-Flash-Chat | Meituan | 89,3 % | 29 août 2025 | Auto-déclaré |
| 5 | Kimi K2 Instruct | Moonshot AI | 89,0 % | 11 juillet 2025 | Auto-déclaré |
| 6 | Kimi K2-Instruct-0905 | Moonshot AI | 89,0 % | 5 septembre 2025 | Auto-déclaré |
| 7 | MiniMax M1 | MiniMax | 80,1 % | 17 juin 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 89,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ZebraLogic indique une forte capacité à suivre des contraintes, à maintenir une cohérence logique et à résoudre des grilles dont la difficulté peut être quantifiée. L’exactitude peut porter sur les puzzles ou sur les cellules résolues, ce qui en fait une mesure directe de performance sur la tâche. Le classement disponible montre des résultats élevés, avec une médiane à 89 % parmi les modèles recensés et un meilleur score de 97 % pour Qwen3 VL 235B A22B Thinking, ce qui suggère que certains systèmes gèrent très bien les instances évaluées. Cette lecture doit rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, donc moins contrôlés qu’une évaluation entièrement indépendante. Le benchmark peut aussi connaître des effets de saturation si les meilleurs modèles approchent le plafond, ainsi que des risques de contamination propres aux jeux publics. Sa portée reste ciblée: ZebraLogic mesure le raisonnement logique sur des grilles en anglais, pas l’ensemble des capacités de raisonnement ni la robustesse en conditions ouvertes.
Sources des scores : llm-stats.