Internal API instruction following (hard)
Internal API instruction following (hard) est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à suivre des consignes complexes, proches de retours réels de développeurs. Il porte surtout sur le respect de contraintes de format, de verbosité et de longueur, dans des…
Internal API instruction following (hard) est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à suivre des consignes complexes, proches de retours réels de développeurs. Il porte surtout sur le respect de contraintes de format, de verbosité et de longueur, dans des tâches de suivi d’instructions.
Ce test vise à mesurer un aspect très opérationnel des modèles d’IA : leur fiabilité lorsqu’une réponse doit satisfaire des exigences précises. Il complète les évaluations de connaissances ou de raisonnement en se concentrant sur l’obéissance aux instructions et la conformité de sortie.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Suivi d'instructions difficiles issues de retours réels de développeurs, avec contraintes de format, verbosité et longueur |
| Modalité | Texte |
| Type de questions | suivi d'instructions (formatage, verbosité, longueur) |
| Métrique d'évaluation | taux de réussite / accuracy (évaluation interne, non détaillée) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais (présumé) |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 64,0 % | 7 août 2025 | Auto-déclaré |
| 2 | GPT-5.4 | OpenAI | 54,0 % | 5 mars 2026 | Auto-déclaré |
| 3 | o3-mini | OpenAI | 50,0 % | 30 janvier 2025 | Auto-déclaré |
| 4 | GPT-4.1 | OpenAI | 49,1 % | 14 avril 2025 | Auto-déclaré |
| 5 | GPT-4.1 mini | OpenAI | 45,1 % | 14 avril 2025 | Auto-déclaré |
| 6 | GPT-4.1 nano | OpenAI | 31,6 % | 14 avril 2025 | Auto-déclaré |
| 7 | GPT-4o | OpenAI | 29,2 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 49,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé indique qu’un modèle respecte plus souvent des consignes difficiles, notamment lorsque plusieurs contraintes doivent être satisfaites simultanément. La métrique publiée est un taux de réussite, mais l’évaluation reste interne et peu documentée. Les réponses du jeu de test ne sont pas divulguées, ce qui limite la reproductibilité externe, et les scores disponibles sont majoritairement auto-déclarés par les éditeurs.
La portée du benchmark doit donc être interprétée avec prudence. Il éclaire la qualité du suivi d’instructions, mais ne mesure pas directement le raisonnement général, la factualité ou la robustesse multilingue. Le jeu étant privé, la contamination est moins observable publiquement, tandis qu’une éventuelle saturation serait difficile à vérifier sans détails sur la distribution des tâches. Le classement révèle surtout des écarts au sein de modèles OpenAI, puisque tous les modèles classés dans la base proviennent de cet éditeur, également créateur du benchmark. Il ne constitue donc pas une source indépendante pour comparer OpenAI à d’autres acteurs.
Sources des scores : llm-stats.