Internal API instruction following (hard)

Internal API instruction following (hard) est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à suivre des consignes complexes, proches de retours réels de développeurs. Il porte surtout sur le respect de contraintes de format, de verbosité et de longueur, dans des…

Internal API instruction following (hard) est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à suivre des consignes complexes, proches de retours réels de développeurs. Il porte surtout sur le respect de contraintes de format, de verbosité et de longueur, dans des tâches de suivi d’instructions.

Ce test vise à mesurer un aspect très opérationnel des modèles d’IA : leur fiabilité lorsqu’une réponse doit satisfaire des exigences précises. Il complète les évaluations de connaissances ou de raisonnement en se concentrant sur l’obéissance aux instructions et la conformité de sortie.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesSuivi d'instructions difficiles issues de retours réels de développeurs, avec contraintes de format, verbosité et longueur
ModalitéTexte
Type de questionssuivi d'instructions (formatage, verbosité, longueur)
Métrique d'évaluationtaux de réussite / accuracy (évaluation interne, non détaillée)
AccèsJeu de test privé (réponses non divulguées)
Languesanglais (présumé)

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI64,0 %7 août 2025Auto-déclaré
2GPT-5.4OpenAI54,0 %5 mars 2026Auto-déclaré
3o3-miniOpenAI50,0 %30 janvier 2025Auto-déclaré
4GPT-4.1OpenAI49,1 %14 avril 2025Auto-déclaré
5GPT-4.1 miniOpenAI45,1 %14 avril 2025Auto-déclaré
6GPT-4.1 nanoOpenAI31,6 %14 avril 2025Auto-déclaré
7GPT-4oOpenAI29,2 %27 mars 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 49,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé indique qu’un modèle respecte plus souvent des consignes difficiles, notamment lorsque plusieurs contraintes doivent être satisfaites simultanément. La métrique publiée est un taux de réussite, mais l’évaluation reste interne et peu documentée. Les réponses du jeu de test ne sont pas divulguées, ce qui limite la reproductibilité externe, et les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

La portée du benchmark doit donc être interprétée avec prudence. Il éclaire la qualité du suivi d’instructions, mais ne mesure pas directement le raisonnement général, la factualité ou la robustesse multilingue. Le jeu étant privé, la contamination est moins observable publiquement, tandis qu’une éventuelle saturation serait difficile à vérifier sans détails sur la distribution des tâches. Le classement révèle surtout des écarts au sein de modèles OpenAI, puisque tous les modèles classés dans la base proviennent de cet éditeur, également créateur du benchmark. Il ne constitue donc pas une source indépendante pour comparer OpenAI à d’autres acteurs.


Sources des scores : llm-stats.