IF

LiveBench: IF est la catégorie « instruction following » de LiveBench, un benchmark créé par Abacus.AI, NYU et NVIDIA autour des travaux de Colin White et al. Il évalue la capacité des modèles à respecter précisément des consignes, à partir de tâches durcies et sans contamination issues…

LiveBench: IF est la catégorie « instruction following » de LiveBench, un benchmark créé par Abacus.AI, NYU et NVIDIA autour des travaux de Colin White et al. Il évalue la capacité des modèles à respecter précisément des consignes, à partir de tâches durcies et sans contamination issues d’IFEval.

Le benchmark s’inscrit dans une évaluation automatisée et objective, fondée sur une vérité-terrain. Il sert à comparer les modèles sur un aspect central des assistants IA : exécuter fidèlement une demande formulée en langage naturel, au-delà de la simple génération fluide.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, NYU, NVIDIA (auteurs LiveBench, Colin White et al.)
Capacités mesuréessuivi d'instructions
ModalitéTexte
Type de questionstâches de suivi d'instructions (versions durcies et sans contamination d'IFEval: paraphrase, simplification, résumé, génération d'histoire)
Métrique d'évaluationscore automatique objectif sur vérité-terrain (accuracy)
AccèsPublic
Languesanglais
Taille du jeucatégorie 'instruction following' de LiveBench (sous-ensemble; questions actualisées régulièrement)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.1 Pro PreviewGoogle79,1 %19 février 2026✅ Mesuré
2Gemini 3.5 FlashGoogle75,6 %19 mai 2026✅ Mesuré
3Gemini 3 FlashGoogle74,9 %17 décembre 2025✅ Mesuré
4Qwen3.7 MaxQwen74,0 %19 mai 2026✅ Mesuré
5GPT-5.5OpenAI73,0 %23 avril 2026✅ Mesuré
6GPT-5.1 CodexOpenAI70,4 %19 novembre 2025✅ Mesuré
7GPT-5.4OpenAI70,2 %5 mars 2026✅ Mesuré
8Gemini 3.1 Flash-LiteGoogle68,6 %3 mars 2026✅ Mesuré
9GLM-5.1Zhipu AI68,5 %7 avril 2026✅ Mesuré
10Gemma 4 31BGoogle67,6 %2 avril 2026✅ Mesuré
11Claude Opus 4.8Anthropic67,4 %28 mai 2026✅ Mesuré
12GPT-5.4 nanoOpenAI67,2 %17 mars 2026✅ Mesuré
13GPT-5.2 CodexOpenAI66,4 %14 janvier 2026✅ Mesuré
14gemini-3-pro-preview-11-2025-highGoogle65,8 %✅ Mesuré
15GPT-5.3 CodexOpenAI65,4 %5 février 2026✅ Mesuré
16GPT-5 miniOpenAI65,3 %7 août 2025✅ Mesuré
17xAI: Grok Build 0.1xAI65,2 %20 mai 2026✅ Mesuré
18Kimi K2.6Moonshot AI64,4 %✅ Mesuré
19OpenAI: GPT-5 ProOpenAI64,0 %6 octobre 2025✅ Mesuré
20GPT-5.1OpenAI63,9 %13 novembre 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 57,5 %.

Notre analyse

Un score élevé sur LiveBench: IF indique qu’un modèle suit mieux des contraintes explicites dans des tâches comme la paraphrase, la simplification, le résumé ou la génération d’histoire. Le meilleur score observé, 79% pour Gemini 3.1 Pro Preview, face à une médiane de 57% sur les modèles évalués dans la base, suggère un écart notable entre les systèmes les plus performants et le niveau central du classement. La saturation paraît donc limitée.

La rigueur du test repose sur une notation automatique par accuracy, comparée à une vérité-terrain, et sur la conception contamination-free de LiveBench, avec des questions régulièrement actualisées. Cette approche réduit le risque de mémorisation, sans l’éliminer comme sujet d’attention général. La principale réserve concerne la fiabilité opérationnelle des résultats, majoritairement auto-déclarés par les éditeurs. La portée reste aussi ciblée : le benchmark mesure le suivi d’instructions en anglais, dans un sous-ensemble de LiveBench, et ne résume pas à lui seul les capacités générales d’un modèle.


Sources des scores : livebench.