IFBench
IFBench est un benchmark public consacré au suivi d’instructions, créé par l’Allen Institute for AI (AI2) et l’University of Washington. Il évalue la capacité d’un modèle à appliquer des consignes complexes, en particulier lorsque celles-ci imposent des contraintes de sortie vérifiables…
IFBench est un benchmark public consacré au suivi d’instructions, créé par l’Allen Institute for AI (AI2) et l’University of Washington. Il évalue la capacité d’un modèle à appliquer des consignes complexes, en particulier lorsque celles-ci imposent des contraintes de sortie vérifiables et situées hors du domaine d’entraînement.
Son rôle est de tester une dimension pratique des modèles de langage : produire une réponse conforme à des règles explicites, plutôt que seulement correcte sur le fond. IFBench s’inscrit ainsi dans l’évaluation de la robustesse instructionnelle et de la généralisation à des formats inédits.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for AI (AI2) et University of Washington |
| Capacités mesurées | Suivi precis d'instructions et generalisation a des contraintes de sortie inedites (non vues a l'entrainement) |
| Modalité | Texte |
| Type de questions | suivi d'instructions avec contraintes de sortie verifiables hors domaine (prompts WildChat held-out) |
| Métrique d'évaluation | taux de respect des contraintes verifiables (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 58 contraintes verifiables out-of-domain (+ set d'entrainement IFTrain de 29 contraintes) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 81,7 % | 4 juin 2026 | Auto-déclaré |
| 2 | Hermes 3 70B | Nous Research | 81,2 % | 15 août 2024 | Auto-déclaré |
| 3 | Nova 2 Pro | Amazon | 80,2 % | 2 décembre 2025 | Auto-déclaré |
| 4 | Qwen3.7 Max | Qwen | 79,1 % | 19 mai 2026 | Auto-déclaré |
| 5 | Qwen3.7-Plus | Qwen | 79,1 % | 31 mai 2026 | Auto-déclaré |
| 6 | Qwen3.5-27B | Qwen | 76,5 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-397B-A17B | Qwen | 76,5 % | 16 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-122B-A10B | Qwen | 76,1 % | 24 février 2026 | Auto-déclaré |
| 9 | MAI-Code-1-Flash | Microsoft | 75,0 % | 2 juin 2026 | Auto-déclaré |
| 10 | Qwen3.6 Plus | Qwen | 74,2 % | 31 mars 2026 | Auto-déclaré |
| 11 | Command A+ | cohere | 74,0 % | 20 mai 2026 | Auto-déclaré |
| 12 | Nemotron 3 Super (120B A12B) | NVIDIA | 72,6 % | 11 mars 2026 | Auto-déclaré |
| 13 | Mercury 2 | Inception | 71,0 % | 24 février 2026 | Auto-déclaré |
| 14 | Nova 2 Lite | Amazon | 70,8 % | 2 décembre 2025 | Auto-déclaré |
| 15 | Qwen3.5-35B-A3B | Qwen | 70,2 % | 24 février 2026 | Auto-déclaré |
| 16 | MiniMax M2.1 | MiniMax | 70,0 % | 23 décembre 2025 | Auto-déclaré |
| 17 | GPT OSS 120B | OpenAI | 69,5 % | 5 août 2025 | Auto-déclaré |
| 18 | MAI-Thinking-1 | Microsoft | 69,0 % | 2 juin 2026 | Auto-déclaré |
| 19 | Mistral Medium 3.5 | Mistral AI | 69,0 % | 29 avril 2026 | Auto-déclaré |
| 20 | Nova 2 Omni | Amazon | 68,7 % | 2 décembre 2025 | Auto-déclaré |
Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur IFBench indique qu’un modèle respecte plus souvent les contraintes vérifiables imposées dans les prompts, y compris lorsqu’elles ne correspondent pas aux contraintes vues pendant l’entraînement. La métrique d’accuracy rend l’évaluation lisible, mais elle réduit la performance à un taux de conformité et ne couvre pas toute la qualité d’une réponse. Les scores de la base doivent aussi être lus avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le classement fait apparaître un niveau médian de 71 % sur les modèles recensés et un meilleur score à 82 % pour Nemotron 3 Ultra (550B A55B) (NVIDIA), ce qui suggère une marge de progression plutôt qu’une saturation complète. Les limites principales tiennent à la portée anglophone du jeu, au périmètre restreint des contraintes vérifiables et au risque général de contamination lié aux benchmarks publics.
Sources des scores : llm-stats.