Instruction Following (Baseline)
Benchable : Instruction Following (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité des modèles à suivre précisément des consignes. Il couvre des tâches en anglais dont la difficulté augmente progressivement, depuis des directives simples jusqu’à des…
Benchable : Instruction Following (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité des modèles à suivre précisément des consignes. Il couvre des tâches en anglais dont la difficulté augmente progressivement, depuis des directives simples jusqu’à des instructions conditionnelles à plusieurs niveaux.
Le test cible des compétences pratiques essentielles pour les assistants IA : respect du format attendu, ordre du contenu, calculs et logique conditionnelle. Il sert ainsi de repère de base pour comparer la discipline d’exécution des modèles face à des consignes explicites et vérifiables.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Suivi precis d'instructions (formatage, ordre du contenu, calculs, logique conditionnelle) sur une gradation de complexite |
| Modalité | Texte |
| Type de questions | Taches de suivi d'instructions a complexite croissante |
| Métrique d'évaluation | Conformite exacte aux instructions (Exact Match, tout le texte) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 etapes |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek R1 Distill Llama 70B | DeepSeek | 100,0 % | 20 janvier 2025 | ✅ Mesuré |
| 2 | DeepSeek-R1 | DeepSeek | 100,0 % | 28 mai 2025 | ✅ Mesuré |
| 3 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 100,0 % | 4 juin 2026 | ✅ Mesuré |
| 4 | Step-3.5-Flash | StepFun | 100,0 % | 2 février 2026 | ✅ Mesuré |
| 5 | StepFun: Step 3.7 Flash | StepFun | 100,0 % | 28 mai 2026 | ✅ Mesuré |
| 6 | inclusionAI: Ling-2.6-1T | inclusionai | 100,0 % | 23 avril 2026 | ✅ Mesuré |
| 7 | inclusionAI: Ring-2.6-1T | inclusionai | 100,0 % | 8 mai 2026 | ✅ Mesuré |
| 8 | Google: Gemini 3.1 Pro Preview Custom Tools | 94,9 % | 25 février 2026 | ✅ Mesuré | |
| 9 | Gemini 3.1 Pro Preview | 93,9 % | 19 février 2026 | ✅ Mesuré | |
| 10 | GPT-5.3 Chat | OpenAI | 92,0 % | 4 mars 2026 | ✅ Mesuré |
| 11 | Perceptron: Perceptron Mk1 | perceptron | 91,4 % | 12 mai 2026 | ✅ Mesuré |
| 12 | GPT-5 | OpenAI | 91,0 % | 7 août 2025 | ✅ Mesuré |
| 13 | OpenAI: GPT-5.2 Chat | OpenAI | 91,0 % | 10 décembre 2025 | ✅ Mesuré |
| 14 | GPT-5.2 Codex | OpenAI | 89,0 % | 14 janvier 2026 | ✅ Mesuré |
| 15 | Gemma 4 31B | 88,7 % | 2 avril 2026 | ✅ Mesuré | |
| 16 | GPT-5.3 Codex | OpenAI | 88,0 % | 5 février 2026 | ✅ Mesuré |
| 17 | GPT-5.5 | OpenAI | 88,0 % | 23 avril 2026 | ✅ Mesuré |
| 18 | Gemini 2.5 Pro Preview 06-05 | 88,0 % | 5 juin 2025 | ✅ Mesuré | |
| 19 | OpenAI: GPT Chat Latest | OpenAI | 88,0 % | 5 mai 2026 | ✅ Mesuré |
| 20 | Sakana: Fugu Ultra | sakana | 88,0 % | 24 juin 2026 | ✅ Mesuré |
Classement établi sur 253 modèles évalués, dont 150 de grands éditeurs. Score médian de l'ensemble : 63,0 %.
Notre analyse
Un score élevé sur Benchable : Instruction Following (Baseline) indique une forte conformité au texte attendu, puisque la notation repose sur une correspondance exacte de l’ensemble de la réponse. Cette exigence rend le benchmark strict : une erreur de format, d’ordre ou de condition peut suffire à faire échouer une étape, même si l’intention générale est correcte. Les scores de la base bénéficient d’une fiabilité renforcée, car ils sont au moins partiellement mesurés par un tiers plutôt que seulement auto-déclarés.
- Le classement montre une dispersion utile entre modèles, avec une médiane de 63 % sur 253 modèles évalués, tandis que DeepSeek R1 Distill Llama 70B atteint 100 %.
- La présence d’un score parfait signale aussi un risque de saturation en tête de classement : le test peut moins distinguer les meilleurs systèmes si plusieurs modèles atteignent ce niveau.
- La portée reste ciblée : le benchmark mesure le suivi d’instructions en anglais, pas la vérité factuelle générale, la créativité ou le raisonnement ouvert. Comme pour tout benchmark public, une contamination éventuelle des données d’entraînement ne peut pas être exclue sans audit spécifique.
Sources des scores : benchable.