Langage & rédaction

IFEval

IFEval, pour Instruction-Following Evaluation, est un benchmark proposé par Google Research (Zhou et al.) afin d’évaluer la capacité des grands modèles de langage à respecter des consignes explicites. Il se concentre sur des instructions vérifiables automatiquement, comme des contraintes…

Le test repose sur de la génération de texte ouverte, mais encadrée par des contraintes précises. Son intérêt est de mesurer une compétence centrale pour les assistants IA : produire une réponse utile tout en suivant fidèlement les règles imposées dans le prompt.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research (Zhou et al.)
Capacités mesurées	généraliste, suivi d'instructions, sortie structurée
Modalité	Texte
Type de questions	génération de texte ouverte avec contraintes vérifiables
Métrique d'évaluation	accuracy de respect des instructions, aux niveaux prompt et instruction, en versions strict et loose
Accès	Public
Langues	anglais
Taille du jeu	541 prompts
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-27B	Qwen	95,0 %	24 février 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	94,6 %	31 mai 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	94,3 %	31 mars 2026	Auto-déclaré
4	Qwen3.7 Max	Qwen	94,3 %	19 mai 2026	Auto-déclaré
5	o3-mini	OpenAI	93,9 %	30 janvier 2025	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	93,4 %	24 février 2026	Auto-déclaré
7	Claude 3.7 Sonnet	Anthropic	93,2 %	24 février 2025	Auto-déclaré
8	Qwen3.5-397B-A17B	Qwen	92,6 %	16 février 2026	Auto-déclaré
9	Llama 3.3 70B Instruct	Meta	92,1 %	6 décembre 2024	Auto-déclaré
10	Nova Pro	Amazon	92,1 %	20 novembre 2024	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	91,9 %	24 février 2026	Auto-déclaré
12	Qwen3.5-9B	Qwen	91,5 %	2 mars 2026	Auto-déclaré
13	Gemma 3 27B	Google	90,4 %	12 mars 2025	Auto-déclaré
14	Nemotron Nano 9B v2	NVIDIA	90,3 %	18 août 2025	Auto-déclaré
15	Gemma 3 4B	Google	90,2 %	12 mars 2025	Auto-déclaré
16	Kimi K2 Instruct	Moonshot AI	89,8 %	11 juillet 2025	Auto-déclaré
17	Kimi K2-Instruct-0905	Moonshot AI	89,8 %	5 septembre 2025	Auto-déclaré
18	Qwen3.5-4B	Qwen	89,8 %	2 mars 2026	Auto-déclaré
19	Nova Lite	Amazon	89,7 %	20 novembre 2024	Auto-déclaré
20	LongCat-Flash-Chat	Meituan	89,6 %	29 août 2025	Auto-déclaré

Classement établi sur 65 modèles évalués, dont 56 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IFEval indique qu’un modèle respecte correctement des instructions explicites, y compris lorsque plusieurs contraintes doivent être satisfaites dans une même réponse. Les résultats sont mesurés aux niveaux du prompt et de l’instruction, avec des variantes strict et loose, ce qui permet de distinguer le respect exact des consignes d’une conformité plus tolérante.

L’interprétation doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, à 87 %, suggère aussi une possible saturation progressive du benchmark pour les modèles récents. IFEval couvre surtout des consignes vérifiables en anglais, ce qui limite sa portée pour juger des capacités générales de raisonnement, de robustesse multilingue ou d’exécution de tâches complexes. Le classement, dominé ici par Qwen3.5-27B à 95 %, met surtout en évidence les modèles les plus fiables dans le suivi formel d’instructions, plutôt qu’une supériorité globale sur l’ensemble des usages IA.

Sources des scores : llm-stats.

IFEval

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench