IFBench

IFBench est un benchmark public consacré au suivi d’instructions, créé par l’Allen Institute for AI (AI2) et l’University of Washington. Il évalue la capacité d’un modèle à appliquer des consignes complexes, en particulier lorsque celles-ci imposent des contraintes de sortie vérifiables…

IFBench est un benchmark public consacré au suivi d’instructions, créé par l’Allen Institute for AI (AI2) et l’University of Washington. Il évalue la capacité d’un modèle à appliquer des consignes complexes, en particulier lorsque celles-ci imposent des contraintes de sortie vérifiables et situées hors du domaine d’entraînement.

Son rôle est de tester une dimension pratique des modèles de langage : produire une réponse conforme à des règles explicites, plutôt que seulement correcte sur le fond. IFBench s’inscrit ainsi dans l’évaluation de la robustesse instructionnelle et de la généralisation à des formats inédits.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for AI (AI2) et University of Washington
Capacités mesuréesSuivi precis d'instructions et generalisation a des contraintes de sortie inedites (non vues a l'entrainement)
ModalitéTexte
Type de questionssuivi d'instructions avec contraintes de sortie verifiables hors domaine (prompts WildChat held-out)
Métrique d'évaluationtaux de respect des contraintes verifiables (accuracy)
AccèsPublic
Languesanglais
Taille du jeu58 contraintes verifiables out-of-domain (+ set d'entrainement IFTrain de 29 contraintes)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Nemotron 3 Ultra (550B A55B)NVIDIA81,7 %4 juin 2026Auto-déclaré
2Hermes 3 70BNous Research81,2 %15 août 2024Auto-déclaré
3Nova 2 ProAmazon80,2 %2 décembre 2025Auto-déclaré
4Qwen3.7 MaxQwen79,1 %19 mai 2026Auto-déclaré
5Qwen3.7-PlusQwen79,1 %31 mai 2026Auto-déclaré
6Qwen3.5-27BQwen76,5 %24 février 2026Auto-déclaré
7Qwen3.5-397B-A17BQwen76,5 %16 février 2026Auto-déclaré
8Qwen3.5-122B-A10BQwen76,1 %24 février 2026Auto-déclaré
9MAI-Code-1-FlashMicrosoft75,0 %2 juin 2026Auto-déclaré
10Qwen3.6 PlusQwen74,2 %31 mars 2026Auto-déclaré
11Command A+cohere74,0 %20 mai 2026Auto-déclaré
12Nemotron 3 Super (120B A12B)NVIDIA72,6 %11 mars 2026Auto-déclaré
13Mercury 2Inception71,0 %24 février 2026Auto-déclaré
14Nova 2 LiteAmazon70,8 %2 décembre 2025Auto-déclaré
15Qwen3.5-35B-A3BQwen70,2 %24 février 2026Auto-déclaré
16MiniMax M2.1MiniMax70,0 %23 décembre 2025Auto-déclaré
17GPT OSS 120BOpenAI69,5 %5 août 2025Auto-déclaré
18MAI-Thinking-1Microsoft69,0 %2 juin 2026Auto-déclaré
19Mistral Medium 3.5Mistral AI69,0 %29 avril 2026Auto-déclaré
20Nova 2 OmniAmazon68,7 %2 décembre 2025Auto-déclaré

Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IFBench indique qu’un modèle respecte plus souvent les contraintes vérifiables imposées dans les prompts, y compris lorsqu’elles ne correspondent pas aux contraintes vues pendant l’entraînement. La métrique d’accuracy rend l’évaluation lisible, mais elle réduit la performance à un taux de conformité et ne couvre pas toute la qualité d’une réponse. Les scores de la base doivent aussi être lus avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le classement fait apparaître un niveau médian de 71 % sur les modèles recensés et un meilleur score à 82 % pour Nemotron 3 Ultra (550B A55B) (NVIDIA), ce qui suggère une marge de progression plutôt qu’une saturation complète. Les limites principales tiennent à la portée anglophone du jeu, au périmètre restreint des contraintes vérifiables et au risque général de contamination lié aux benchmarks publics.


Sources des scores : llm-stats.