IFEval

IFEval, pour Instruction-Following Evaluation, est un benchmark proposé par Google Research (Zhou et al.) afin d’évaluer la capacité des grands modèles de langage à respecter des consignes explicites. Il se concentre sur des instructions vérifiables automatiquement, comme des contraintes…

IFEval, pour Instruction-Following Evaluation, est un benchmark proposé par Google Research (Zhou et al.) afin d’évaluer la capacité des grands modèles de langage à respecter des consignes explicites. Il se concentre sur des instructions vérifiables automatiquement, comme des contraintes de format, de longueur, de style ou de contenu.

Le test repose sur de la génération de texte ouverte, mais encadrée par des contraintes précises. Son intérêt est de mesurer une compétence centrale pour les assistants IA : produire une réponse utile tout en suivant fidèlement les règles imposées dans le prompt.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research (Zhou et al.)
Capacités mesuréesgénéraliste, suivi d'instructions, sortie structurée
ModalitéTexte
Type de questionsgénération de texte ouverte avec contraintes vérifiables
Métrique d'évaluationaccuracy de respect des instructions, aux niveaux prompt et instruction, en versions strict et loose
AccèsPublic
Languesanglais
Taille du jeu541 prompts
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-27BQwen95,0 %24 février 2026Auto-déclaré
2Qwen3.7-PlusQwen94,6 %31 mai 2026Auto-déclaré
3Qwen3.6 PlusQwen94,3 %31 mars 2026Auto-déclaré
4Qwen3.7 MaxQwen94,3 %19 mai 2026Auto-déclaré
5o3-miniOpenAI93,9 %30 janvier 2025Auto-déclaré
6Qwen3.5-122B-A10BQwen93,4 %24 février 2026Auto-déclaré
7Claude 3.7 SonnetAnthropic93,2 %24 février 2025Auto-déclaré
8Qwen3.5-397B-A17BQwen92,6 %16 février 2026Auto-déclaré
9Llama 3.3 70B InstructMeta92,1 %6 décembre 2024Auto-déclaré
10Nova ProAmazon92,1 %20 novembre 2024Auto-déclaré
11Qwen3.5-35B-A3BQwen91,9 %24 février 2026Auto-déclaré
12Qwen3.5-9BQwen91,5 %2 mars 2026Auto-déclaré
13Gemma 3 27BGoogle90,4 %12 mars 2025Auto-déclaré
14Nemotron Nano 9B v2NVIDIA90,3 %18 août 2025Auto-déclaré
15Gemma 3 4BGoogle90,2 %12 mars 2025Auto-déclaré
16Kimi K2 InstructMoonshot AI89,8 %11 juillet 2025Auto-déclaré
17Kimi K2-Instruct-0905Moonshot AI89,8 %5 septembre 2025Auto-déclaré
18Qwen3.5-4BQwen89,8 %2 mars 2026Auto-déclaré
19Nova LiteAmazon89,7 %20 novembre 2024Auto-déclaré
20LongCat-Flash-ChatMeituan89,6 %29 août 2025Auto-déclaré

Classement établi sur 65 modèles évalués, dont 56 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IFEval indique qu’un modèle respecte correctement des instructions explicites, y compris lorsque plusieurs contraintes doivent être satisfaites dans une même réponse. Les résultats sont mesurés aux niveaux du prompt et de l’instruction, avec des variantes strict et loose, ce qui permet de distinguer le respect exact des consignes d’une conformité plus tolérante.

L’interprétation doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, à 87 %, suggère aussi une possible saturation progressive du benchmark pour les modèles récents. IFEval couvre surtout des consignes vérifiables en anglais, ce qui limite sa portée pour juger des capacités générales de raisonnement, de robustesse multilingue ou d’exécution de tâches complexes. Le classement, dominé ici par Qwen3.5-27B à 95 %, met surtout en évidence les modèles les plus fiables dans le suivi formel d’instructions, plutôt qu’une supériorité globale sur l’ensemble des usages IA.


Sources des scores : llm-stats.