Langage & rédaction

Internal API instruction following (hard)

Internal API instruction following (hard) est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à suivre des consignes complexes, proches de retours réels de développeurs. Il porte surtout sur le respect de contraintes de format, de verbosité et de longueur, dans des…

Ce test vise à mesurer un aspect très opérationnel des modèles d’IA : leur fiabilité lorsqu’une réponse doit satisfaire des exigences précises. Il complète les évaluations de connaissances ou de raisonnement en se concentrant sur l’obéissance aux instructions et la conformité de sortie.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Suivi d'instructions difficiles issues de retours réels de développeurs, avec contraintes de format, verbosité et longueur
Modalité	Texte
Type de questions	suivi d'instructions (formatage, verbosité, longueur)
Métrique d'évaluation	taux de réussite / accuracy (évaluation interne, non détaillée)
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais (présumé)

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	64,0 %	7 août 2025	Auto-déclaré
2	GPT-5.4	OpenAI	54,0 %	5 mars 2026	Auto-déclaré
3	o3-mini	OpenAI	50,0 %	30 janvier 2025	Auto-déclaré
4	GPT-4.1	OpenAI	49,1 %	14 avril 2025	Auto-déclaré
5	GPT-4.1 mini	OpenAI	45,1 %	14 avril 2025	Auto-déclaré
6	GPT-4.1 nano	OpenAI	31,6 %	14 avril 2025	Auto-déclaré
7	GPT-4o	OpenAI	29,2 %	27 mars 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 49,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé indique qu’un modèle respecte plus souvent des consignes difficiles, notamment lorsque plusieurs contraintes doivent être satisfaites simultanément. La métrique publiée est un taux de réussite, mais l’évaluation reste interne et peu documentée. Les réponses du jeu de test ne sont pas divulguées, ce qui limite la reproductibilité externe, et les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

La portée du benchmark doit donc être interprétée avec prudence. Il éclaire la qualité du suivi d’instructions, mais ne mesure pas directement le raisonnement général, la factualité ou la robustesse multilingue. Le jeu étant privé, la contamination est moins observable publiquement, tandis qu’une éventuelle saturation serait difficile à vérifier sans détails sur la distribution des tâches. Le classement révèle surtout des écarts au sein de modèles OpenAI, puisque tous les modèles classés dans la base proviennent de cet éditeur, également créateur du benchmark. Il ne constitue donc pas une source indépendante pour comparer OpenAI à d’autres acteurs.

Sources des scores : llm-stats.

Internal API instruction following (hard)

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23