Instruction Following (Baseline)

Benchable : Instruction Following (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité des modèles à suivre précisément des consignes. Il couvre des tâches en anglais dont la difficulté augmente progressivement, depuis des directives simples jusqu’à des…

Benchable : Instruction Following (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité des modèles à suivre précisément des consignes. Il couvre des tâches en anglais dont la difficulté augmente progressivement, depuis des directives simples jusqu’à des instructions conditionnelles à plusieurs niveaux.

Le test cible des compétences pratiques essentielles pour les assistants IA : respect du format attendu, ordre du contenu, calculs et logique conditionnelle. Il sert ainsi de repère de base pour comparer la discipline d’exécution des modèles face à des consignes explicites et vérifiables.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesSuivi precis d'instructions (formatage, ordre du contenu, calculs, logique conditionnelle) sur une gradation de complexite
ModalitéTexte
Type de questionsTaches de suivi d'instructions a complexite croissante
Métrique d'évaluationConformite exacte aux instructions (Exact Match, tout le texte)
AccèsPublic
Languesanglais
Taille du jeu100 etapes
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek R1 Distill Llama 70BDeepSeek100,0 %20 janvier 2025✅ Mesuré
2DeepSeek-R1DeepSeek100,0 %28 mai 2025✅ Mesuré
3Nemotron 3 Ultra (550B A55B)NVIDIA100,0 %4 juin 2026✅ Mesuré
4Step-3.5-FlashStepFun100,0 %2 février 2026✅ Mesuré
5StepFun: Step 3.7 FlashStepFun100,0 %28 mai 2026✅ Mesuré
6inclusionAI: Ling-2.6-1Tinclusionai100,0 %23 avril 2026✅ Mesuré
7inclusionAI: Ring-2.6-1Tinclusionai100,0 %8 mai 2026✅ Mesuré
8Google: Gemini 3.1 Pro Preview Custom ToolsGoogle94,9 %25 février 2026✅ Mesuré
9Gemini 3.1 Pro PreviewGoogle93,9 %19 février 2026✅ Mesuré
10GPT-5.3 ChatOpenAI92,0 %4 mars 2026✅ Mesuré
11Perceptron: Perceptron Mk1perceptron91,4 %12 mai 2026✅ Mesuré
12GPT-5OpenAI91,0 %7 août 2025✅ Mesuré
13OpenAI: GPT-5.2 ChatOpenAI91,0 %10 décembre 2025✅ Mesuré
14GPT-5.2 CodexOpenAI89,0 %14 janvier 2026✅ Mesuré
15Gemma 4 31BGoogle88,7 %2 avril 2026✅ Mesuré
16GPT-5.3 CodexOpenAI88,0 %5 février 2026✅ Mesuré
17GPT-5.5OpenAI88,0 %23 avril 2026✅ Mesuré
18Gemini 2.5 Pro Preview 06-05Google88,0 %5 juin 2025✅ Mesuré
19OpenAI: GPT Chat LatestOpenAI88,0 %5 mai 2026✅ Mesuré
20Sakana: Fugu Ultrasakana88,0 %24 juin 2026✅ Mesuré

Classement établi sur 253 modèles évalués, dont 150 de grands éditeurs. Score médian de l'ensemble : 63,0 %.

Notre analyse

Un score élevé sur Benchable : Instruction Following (Baseline) indique une forte conformité au texte attendu, puisque la notation repose sur une correspondance exacte de l’ensemble de la réponse. Cette exigence rend le benchmark strict : une erreur de format, d’ordre ou de condition peut suffire à faire échouer une étape, même si l’intention générale est correcte. Les scores de la base bénéficient d’une fiabilité renforcée, car ils sont au moins partiellement mesurés par un tiers plutôt que seulement auto-déclarés.

  • Le classement montre une dispersion utile entre modèles, avec une médiane de 63 % sur 253 modèles évalués, tandis que DeepSeek R1 Distill Llama 70B atteint 100 %.
  • La présence d’un score parfait signale aussi un risque de saturation en tête de classement : le test peut moins distinguer les meilleurs systèmes si plusieurs modèles atteignent ce niveau.
  • La portée reste ciblée : le benchmark mesure le suivi d’instructions en anglais, pas la vérité factuelle générale, la créativité ou le raisonnement ouvert. Comme pour tout benchmark public, une contamination éventuelle des données d’entraînement ne peut pas être exclue sans audit spécifique.

Sources des scores : benchable.