IFEval
IFEval, pour Instruction-Following Evaluation, est un benchmark proposé par Google Research (Zhou et al.) afin d’évaluer la capacité des grands modèles de langage à respecter des consignes explicites. Il se concentre sur des instructions vérifiables automatiquement, comme des contraintes…
IFEval, pour Instruction-Following Evaluation, est un benchmark proposé par Google Research (Zhou et al.) afin d’évaluer la capacité des grands modèles de langage à respecter des consignes explicites. Il se concentre sur des instructions vérifiables automatiquement, comme des contraintes de format, de longueur, de style ou de contenu.
Le test repose sur de la génération de texte ouverte, mais encadrée par des contraintes précises. Son intérêt est de mesurer une compétence centrale pour les assistants IA : produire une réponse utile tout en suivant fidèlement les règles imposées dans le prompt.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research (Zhou et al.) |
| Capacités mesurées | généraliste, suivi d'instructions, sortie structurée |
| Modalité | Texte |
| Type de questions | génération de texte ouverte avec contraintes vérifiables |
| Métrique d'évaluation | accuracy de respect des instructions, aux niveaux prompt et instruction, en versions strict et loose |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 541 prompts |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-27B | Qwen | 95,0 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 94,6 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.6 Plus | Qwen | 94,3 % | 31 mars 2026 | Auto-déclaré |
| 4 | Qwen3.7 Max | Qwen | 94,3 % | 19 mai 2026 | Auto-déclaré |
| 5 | o3-mini | OpenAI | 93,9 % | 30 janvier 2025 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 93,4 % | 24 février 2026 | Auto-déclaré |
| 7 | Claude 3.7 Sonnet | Anthropic | 93,2 % | 24 février 2025 | Auto-déclaré |
| 8 | Qwen3.5-397B-A17B | Qwen | 92,6 % | 16 février 2026 | Auto-déclaré |
| 9 | Llama 3.3 70B Instruct | Meta | 92,1 % | 6 décembre 2024 | Auto-déclaré |
| 10 | Nova Pro | Amazon | 92,1 % | 20 novembre 2024 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 91,9 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3.5-9B | Qwen | 91,5 % | 2 mars 2026 | Auto-déclaré |
| 13 | Gemma 3 27B | 90,4 % | 12 mars 2025 | Auto-déclaré | |
| 14 | Nemotron Nano 9B v2 | NVIDIA | 90,3 % | 18 août 2025 | Auto-déclaré |
| 15 | Gemma 3 4B | 90,2 % | 12 mars 2025 | Auto-déclaré | |
| 16 | Kimi K2 Instruct | Moonshot AI | 89,8 % | 11 juillet 2025 | Auto-déclaré |
| 17 | Kimi K2-Instruct-0905 | Moonshot AI | 89,8 % | 5 septembre 2025 | Auto-déclaré |
| 18 | Qwen3.5-4B | Qwen | 89,8 % | 2 mars 2026 | Auto-déclaré |
| 19 | Nova Lite | Amazon | 89,7 % | 20 novembre 2024 | Auto-déclaré |
| 20 | LongCat-Flash-Chat | Meituan | 89,6 % | 29 août 2025 | Auto-déclaré |
Classement établi sur 65 modèles évalués, dont 56 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur IFEval indique qu’un modèle respecte correctement des instructions explicites, y compris lorsque plusieurs contraintes doivent être satisfaites dans une même réponse. Les résultats sont mesurés aux niveaux du prompt et de l’instruction, avec des variantes strict et loose, ce qui permet de distinguer le respect exact des consignes d’une conformité plus tolérante.
L’interprétation doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, à 87 %, suggère aussi une possible saturation progressive du benchmark pour les modèles récents. IFEval couvre surtout des consignes vérifiables en anglais, ce qui limite sa portée pour juger des capacités générales de raisonnement, de robustesse multilingue ou d’exécution de tâches complexes. Le classement, dominé ici par Qwen3.5-27B à 95 %, met surtout en évidence les modèles les plus fiables dans le suivi formel d’instructions, plutôt qu’une supériorité globale sur l’ensemble des usages IA.
Sources des scores : llm-stats.