Autres benchmarks

IF

LiveBench: IF est la catégorie « instruction following » de LiveBench, un benchmark créé par Abacus.AI, NYU et NVIDIA autour des travaux de Colin White et al. Il évalue la capacité des modèles à respecter précisément des consignes, à partir de tâches durcies et sans contamination issues…

Le benchmark s’inscrit dans une évaluation automatisée et objective, fondée sur une vérité-terrain. Il sert à comparer les modèles sur un aspect central des assistants IA : exécuter fidèlement une demande formulée en langage naturel, au-delà de la simple génération fluide.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, NYU, NVIDIA (auteurs LiveBench, Colin White et al.)
Capacités mesurées	suivi d'instructions
Modalité	Texte
Type de questions	tâches de suivi d'instructions (versions durcies et sans contamination d'IFEval: paraphrase, simplification, résumé, génération d'histoire)
Métrique d'évaluation	score automatique objectif sur vérité-terrain (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	catégorie 'instruction following' de LiveBench (sous-ensemble; questions actualisées régulièrement)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.1 Pro Preview	Google	79,1 %	19 février 2026	✅ Mesuré
2	Gemini 3.5 Flash	Google	75,6 %	19 mai 2026	✅ Mesuré
3	Gemini 3 Flash	Google	74,9 %	17 décembre 2025	✅ Mesuré
4	Qwen3.7 Max	Qwen	74,0 %	19 mai 2026	✅ Mesuré
5	GPT-5.5	OpenAI	73,0 %	23 avril 2026	✅ Mesuré
6	GPT-5.1 Codex	OpenAI	70,4 %	19 novembre 2025	✅ Mesuré
7	GPT-5.4	OpenAI	70,2 %	5 mars 2026	✅ Mesuré
8	Gemini 3.1 Flash-Lite	Google	68,6 %	3 mars 2026	✅ Mesuré
9	GLM-5.1	Zhipu AI	68,5 %	7 avril 2026	✅ Mesuré
10	Gemma 4 31B	Google	67,6 %	2 avril 2026	✅ Mesuré
11	Claude Opus 4.8	Anthropic	67,4 %	28 mai 2026	✅ Mesuré
12	GPT-5.4 nano	OpenAI	67,2 %	17 mars 2026	✅ Mesuré
13	GPT-5.2 Codex	OpenAI	66,4 %	14 janvier 2026	✅ Mesuré
14	gemini-3-pro-preview-11-2025-high	Google	65,8 %	—	✅ Mesuré
15	GPT-5.3 Codex	OpenAI	65,4 %	5 février 2026	✅ Mesuré
16	GPT-5 mini	OpenAI	65,3 %	7 août 2025	✅ Mesuré
17	xAI: Grok Build 0.1	xAI	65,2 %	20 mai 2026	✅ Mesuré
18	Kimi K2.6	Moonshot AI	64,4 %	—	✅ Mesuré
19	OpenAI: GPT-5 Pro	OpenAI	64,0 %	6 octobre 2025	✅ Mesuré
20	GPT-5.1	OpenAI	63,9 %	13 novembre 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 57,5 %.

Notre analyse

Un score élevé sur LiveBench: IF indique qu’un modèle suit mieux des contraintes explicites dans des tâches comme la paraphrase, la simplification, le résumé ou la génération d’histoire. Le meilleur score observé, 79% pour Gemini 3.1 Pro Preview, face à une médiane de 57% sur les modèles évalués dans la base, suggère un écart notable entre les systèmes les plus performants et le niveau central du classement. La saturation paraît donc limitée.

La rigueur du test repose sur une notation automatique par accuracy, comparée à une vérité-terrain, et sur la conception contamination-free de LiveBench, avec des questions régulièrement actualisées. Cette approche réduit le risque de mémorisation, sans l’éliminer comme sujet d’attention général. La principale réserve concerne la fiabilité opérationnelle des résultats, majoritairement auto-déclarés par les éditeurs. La portée reste aussi ciblée : le benchmark mesure le suivi d’instructions en anglais, dans un sous-ensemble de LiveBench, et ne résume pas à lui seul les capacités générales d’un modèle.

Sources des scores : livebench.

IF

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23