Autres benchmarks

Instruction Following (Baseline)

Benchable : Instruction Following (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité des modèles à suivre précisément des consignes. Il couvre des tâches en anglais dont la difficulté augmente progressivement, depuis des directives simples jusqu’à des…

Le test cible des compétences pratiques essentielles pour les assistants IA : respect du format attendu, ordre du contenu, calculs et logique conditionnelle. Il sert ainsi de repère de base pour comparer la discipline d’exécution des modèles face à des consignes explicites et vérifiables.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Suivi precis d'instructions (formatage, ordre du contenu, calculs, logique conditionnelle) sur une gradation de complexite
Modalité	Texte
Type de questions	Taches de suivi d'instructions a complexite croissante
Métrique d'évaluation	Conformite exacte aux instructions (Exact Match, tout le texte)
Accès	Public
Langues	anglais
Taille du jeu	100 etapes
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek R1 Distill Llama 70B	DeepSeek	100,0 %	20 janvier 2025	✅ Mesuré
2	DeepSeek-R1	DeepSeek	100,0 %	28 mai 2025	✅ Mesuré
3	Nemotron 3 Ultra (550B A55B)	NVIDIA	100,0 %	4 juin 2026	✅ Mesuré
4	Step-3.5-Flash	StepFun	100,0 %	2 février 2026	✅ Mesuré
5	StepFun: Step 3.7 Flash	StepFun	100,0 %	28 mai 2026	✅ Mesuré
6	inclusionAI: Ling-2.6-1T	inclusionai	100,0 %	23 avril 2026	✅ Mesuré
7	inclusionAI: Ring-2.6-1T	inclusionai	100,0 %	8 mai 2026	✅ Mesuré
8	Google: Gemini 3.1 Pro Preview Custom Tools	Google	94,9 %	25 février 2026	✅ Mesuré
9	Gemini 3.1 Pro Preview	Google	93,9 %	19 février 2026	✅ Mesuré
10	GPT-5.3 Chat	OpenAI	92,0 %	4 mars 2026	✅ Mesuré
11	Perceptron: Perceptron Mk1	perceptron	91,4 %	12 mai 2026	✅ Mesuré
12	GPT-5	OpenAI	91,0 %	7 août 2025	✅ Mesuré
13	OpenAI: GPT-5.2 Chat	OpenAI	91,0 %	10 décembre 2025	✅ Mesuré
14	GPT-5.2 Codex	OpenAI	89,0 %	14 janvier 2026	✅ Mesuré
15	Gemma 4 31B	Google	88,7 %	2 avril 2026	✅ Mesuré
16	GPT-5.3 Codex	OpenAI	88,0 %	5 février 2026	✅ Mesuré
17	GPT-5.5	OpenAI	88,0 %	23 avril 2026	✅ Mesuré
18	Gemini 2.5 Pro Preview 06-05	Google	88,0 %	5 juin 2025	✅ Mesuré
19	OpenAI: GPT Chat Latest	OpenAI	88,0 %	5 mai 2026	✅ Mesuré
20	Sakana: Fugu Ultra	sakana	88,0 %	24 juin 2026	✅ Mesuré

Classement établi sur 253 modèles évalués, dont 150 de grands éditeurs. Score médian de l'ensemble : 63,0 %.

Notre analyse

Un score élevé sur Benchable : Instruction Following (Baseline) indique une forte conformité au texte attendu, puisque la notation repose sur une correspondance exacte de l’ensemble de la réponse. Cette exigence rend le benchmark strict : une erreur de format, d’ordre ou de condition peut suffire à faire échouer une étape, même si l’intention générale est correcte. Les scores de la base bénéficient d’une fiabilité renforcée, car ils sont au moins partiellement mesurés par un tiers plutôt que seulement auto-déclarés.

Le classement montre une dispersion utile entre modèles, avec une médiane de 63 % sur 253 modèles évalués, tandis que DeepSeek R1 Distill Llama 70B atteint 100 %.
La présence d’un score parfait signale aussi un risque de saturation en tête de classement : le test peut moins distinguer les meilleurs systèmes si plusieurs modèles atteignent ce niveau.
La portée reste ciblée : le benchmark mesure le suivi d’instructions en anglais, pas la vérité factuelle générale, la créativité ou le raisonnement ouvert. Comme pour tout benchmark public, une contamination éventuelle des données d’entraînement ne peut pas être exclue sans audit spécifique.

Sources des scores : benchable.

Instruction Following (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench