Langage & rédaction

IFBench

IFBench est un benchmark public consacré au suivi d’instructions, créé par l’Allen Institute for AI (AI2) et l’University of Washington. Il évalue la capacité d’un modèle à appliquer des consignes complexes, en particulier lorsque celles-ci imposent des contraintes de sortie vérifiables…

Son rôle est de tester une dimension pratique des modèles de langage : produire une réponse conforme à des règles explicites, plutôt que seulement correcte sur le fond. IFBench s’inscrit ainsi dans l’évaluation de la robustesse instructionnelle et de la généralisation à des formats inédits.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for AI (AI2) et University of Washington
Capacités mesurées	Suivi precis d'instructions et generalisation a des contraintes de sortie inedites (non vues a l'entrainement)
Modalité	Texte
Type de questions	suivi d'instructions avec contraintes de sortie verifiables hors domaine (prompts WildChat held-out)
Métrique d'évaluation	taux de respect des contraintes verifiables (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	58 contraintes verifiables out-of-domain (+ set d'entrainement IFTrain de 29 contraintes)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nemotron 3 Ultra (550B A55B)	NVIDIA	81,7 %	4 juin 2026	Auto-déclaré
2	Hermes 3 70B	Nous Research	81,2 %	15 août 2024	Auto-déclaré
3	Nova 2 Pro	Amazon	80,2 %	2 décembre 2025	Auto-déclaré
4	Qwen3.7 Max	Qwen	79,1 %	19 mai 2026	Auto-déclaré
5	Qwen3.7-Plus	Qwen	79,1 %	31 mai 2026	Auto-déclaré
6	Qwen3.5-27B	Qwen	76,5 %	24 février 2026	Auto-déclaré
7	Qwen3.5-397B-A17B	Qwen	76,5 %	16 février 2026	Auto-déclaré
8	Qwen3.5-122B-A10B	Qwen	76,1 %	24 février 2026	Auto-déclaré
9	MAI-Code-1-Flash	Microsoft	75,0 %	2 juin 2026	Auto-déclaré
10	Qwen3.6 Plus	Qwen	74,2 %	31 mars 2026	Auto-déclaré
11	Command A+	cohere	74,0 %	20 mai 2026	Auto-déclaré
12	Nemotron 3 Super (120B A12B)	NVIDIA	72,6 %	11 mars 2026	Auto-déclaré
13	Mercury 2	Inception	71,0 %	24 février 2026	Auto-déclaré
14	Nova 2 Lite	Amazon	70,8 %	2 décembre 2025	Auto-déclaré
15	Qwen3.5-35B-A3B	Qwen	70,2 %	24 février 2026	Auto-déclaré
16	MiniMax M2.1	MiniMax	70,0 %	23 décembre 2025	Auto-déclaré
17	GPT OSS 120B	OpenAI	69,5 %	5 août 2025	Auto-déclaré
18	MAI-Thinking-1	Microsoft	69,0 %	2 juin 2026	Auto-déclaré
19	Mistral Medium 3.5	Mistral AI	69,0 %	29 avril 2026	Auto-déclaré
20	Nova 2 Omni	Amazon	68,7 %	2 décembre 2025	Auto-déclaré

Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IFBench indique qu’un modèle respecte plus souvent les contraintes vérifiables imposées dans les prompts, y compris lorsqu’elles ne correspondent pas aux contraintes vues pendant l’entraînement. La métrique d’accuracy rend l’évaluation lisible, mais elle réduit la performance à un taux de conformité et ne couvre pas toute la qualité d’une réponse. Les scores de la base doivent aussi être lus avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le classement fait apparaître un niveau médian de 71 % sur les modèles recensés et un meilleur score à 82 % pour Nemotron 3 Ultra (550B A55B) (NVIDIA), ce qui suggère une marge de progression plutôt qu’une saturation complète. Les limites principales tiennent à la portée anglophone du jeu, au périmètre restreint des contraintes vérifiables et au risque général de contamination lié aux benchmarks publics.

Sources des scores : llm-stats.

IFBench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++