IF
LiveBench: IF est la catégorie « instruction following » de LiveBench, un benchmark créé par Abacus.AI, NYU et NVIDIA autour des travaux de Colin White et al. Il évalue la capacité des modèles à respecter précisément des consignes, à partir de tâches durcies et sans contamination issues…
LiveBench: IF est la catégorie « instruction following » de LiveBench, un benchmark créé par Abacus.AI, NYU et NVIDIA autour des travaux de Colin White et al. Il évalue la capacité des modèles à respecter précisément des consignes, à partir de tâches durcies et sans contamination issues d’IFEval.
Le benchmark s’inscrit dans une évaluation automatisée et objective, fondée sur une vérité-terrain. Il sert à comparer les modèles sur un aspect central des assistants IA : exécuter fidèlement une demande formulée en langage naturel, au-delà de la simple génération fluide.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, NYU, NVIDIA (auteurs LiveBench, Colin White et al.) |
| Capacités mesurées | suivi d'instructions |
| Modalité | Texte |
| Type de questions | tâches de suivi d'instructions (versions durcies et sans contamination d'IFEval: paraphrase, simplification, résumé, génération d'histoire) |
| Métrique d'évaluation | score automatique objectif sur vérité-terrain (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | catégorie 'instruction following' de LiveBench (sous-ensemble; questions actualisées régulièrement) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 79,1 % | 19 février 2026 | ✅ Mesuré | |
| 2 | Gemini 3.5 Flash | 75,6 % | 19 mai 2026 | ✅ Mesuré | |
| 3 | Gemini 3 Flash | 74,9 % | 17 décembre 2025 | ✅ Mesuré | |
| 4 | Qwen3.7 Max | Qwen | 74,0 % | 19 mai 2026 | ✅ Mesuré |
| 5 | GPT-5.5 | OpenAI | 73,0 % | 23 avril 2026 | ✅ Mesuré |
| 6 | GPT-5.1 Codex | OpenAI | 70,4 % | 19 novembre 2025 | ✅ Mesuré |
| 7 | GPT-5.4 | OpenAI | 70,2 % | 5 mars 2026 | ✅ Mesuré |
| 8 | Gemini 3.1 Flash-Lite | 68,6 % | 3 mars 2026 | ✅ Mesuré | |
| 9 | GLM-5.1 | Zhipu AI | 68,5 % | 7 avril 2026 | ✅ Mesuré |
| 10 | Gemma 4 31B | 67,6 % | 2 avril 2026 | ✅ Mesuré | |
| 11 | Claude Opus 4.8 | Anthropic | 67,4 % | 28 mai 2026 | ✅ Mesuré |
| 12 | GPT-5.4 nano | OpenAI | 67,2 % | 17 mars 2026 | ✅ Mesuré |
| 13 | GPT-5.2 Codex | OpenAI | 66,4 % | 14 janvier 2026 | ✅ Mesuré |
| 14 | gemini-3-pro-preview-11-2025-high | 65,8 % | — | ✅ Mesuré | |
| 15 | GPT-5.3 Codex | OpenAI | 65,4 % | 5 février 2026 | ✅ Mesuré |
| 16 | GPT-5 mini | OpenAI | 65,3 % | 7 août 2025 | ✅ Mesuré |
| 17 | xAI: Grok Build 0.1 | xAI | 65,2 % | 20 mai 2026 | ✅ Mesuré |
| 18 | Kimi K2.6 | Moonshot AI | 64,4 % | — | ✅ Mesuré |
| 19 | OpenAI: GPT-5 Pro | OpenAI | 64,0 % | 6 octobre 2025 | ✅ Mesuré |
| 20 | GPT-5.1 | OpenAI | 63,9 % | 13 novembre 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 57,5 %.
Notre analyse
Un score élevé sur LiveBench: IF indique qu’un modèle suit mieux des contraintes explicites dans des tâches comme la paraphrase, la simplification, le résumé ou la génération d’histoire. Le meilleur score observé, 79% pour Gemini 3.1 Pro Preview, face à une médiane de 57% sur les modèles évalués dans la base, suggère un écart notable entre les systèmes les plus performants et le niveau central du classement. La saturation paraît donc limitée.
La rigueur du test repose sur une notation automatique par accuracy, comparée à une vérité-terrain, et sur la conception contamination-free de LiveBench, avec des questions régulièrement actualisées. Cette approche réduit le risque de mémorisation, sans l’éliminer comme sujet d’attention général. La principale réserve concerne la fiabilité opérationnelle des résultats, majoritairement auto-déclarés par les éditeurs. La portée reste aussi ciblée : le benchmark mesure le suivi d’instructions en anglais, dans un sous-ensemble de LiveBench, et ne résume pas à lui seul les capacités générales d’un modèle.
Sources des scores : livebench.