GPT-5.4 mini

GPT-5.4 mini est un LLM propriétaire d’OpenAI sorti le 17 mars 2026, avec des poids non ouverts et des connaissances arrêtées au 31 août 2025. Son trait le plus distinctif est l’équilibre entre une très grande fenêtre de contexte, fixée à 400 000 tokens, et un positionnement tarifaire…

GPT-5.4 mini est un LLM propriétaire d’OpenAI sorti le 17 mars 2026, avec des poids non ouverts et des connaissances arrêtées au 31 août 2025. Son trait le plus distinctif est l’équilibre entre une très grande fenêtre de contexte, fixée à 400 000 tokens, et un positionnement tarifaire très économique.

Le modèle coûte 0,75 $ par million de tokens en entrée et 4,5 $ en sortie, soit 62% sous la moyenne des LLM similaires et environ 6,4 fois moins cher que les modèles frontière. À sa sortie, il se situait dans le top 32% des LLM de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie17 mars 2026
Connaissances jusqu'à2025-08-31
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index40.022ᵉ / 136
Code Index56.118ᵉ / 50
Agentic Index30.215ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202587,2 %28ᵉ / 111epoch✅ Mesuré
Benchable : Coding (Baseline)87,0 %135ᵉ / 248benchable✅ Mesuré
Epoch: GPQA diamond83,6 %36ᵉ / 132epoch✅ Mesuré
Benchable : Mathematics (Baseline)83,0 %144ᵉ / 217benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)79,2 %15ᵉ / 52pinchbench✅ Mesuré
LiveBench: Mathematics78,6 %41ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)76,0 %65ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)74,0 %135ᵉ / 239benchable✅ Mesuré
LiveBench: Reasoning72,5 %34ᵉ / 76livebench✅ Mesuré
LiveBench: Coding71,6 %39ᵉ / 76livebench✅ Mesuré
LiveBench: Language71,5 %39ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis70,9 %16ᵉ / 76livebench✅ Mesuré
LiveBench: Global average67,5 %31ᵉ / 76livebench✅ Mesuré
LiveBench: IF60,3 %31ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private51,2 %19ᵉ / 31epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public50,0 %16ᵉ / 64epoch✅ Mesuré
LiveBench: Agentic Coding47,5 %37ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified28,6 %37ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private28,3 %20ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles18,0 %27ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private9,8 %24ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %45ᵉ / 55epoch✅ Mesuré
Tau2 Telecom93,4 %12ᵉ / 34llm-statsAuto-déclaré
GPQA88,0 %26ᵉ / 213llm-statsAuto-déclaré
OmniDocBench 1.587,4 %11ᵉ / 13llm-statsAuto-déclaré
MMMU-Pro76,6 %22ᵉ / 60llm-statsAuto-déclaré
Graphwalks BFS <128k76,3 %4ᵉ / 10llm-statsAuto-déclaré
OSWorld-Verified72,1 %10ᵉ / 17llm-statsAuto-déclaré
Graphwalks parents <128k71,5 %4ᵉ / 10llm-statsAuto-déclaré
Terminal-Bench 2.060,0 %19ᵉ / 48llm-statsAuto-déclaré
MCP Atlas57,7 %24ᵉ / 27llm-statsAuto-déclaré
SWE-Bench Pro54,4 %24ᵉ / 34llm-statsAuto-déclaré
Finance Agent v245,4 %9ᵉ / 25llm-statsn.d.
Toolathlon42,9 %15ᵉ / 23llm-statsAuto-déclaré
GDPval-AA39,7 %17ᵉ / 33llm-statsn.d.
MRCR v2 (8-needle)33,6 %4ᵉ / 10llm-statsAuto-déclaré
Humanity's Last Exam28,2 %41ᵉ / 86llm-statsAuto-déclaré
Legal Agent Benchmark0,0 %8ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ GPT-5.4 mini40.0
Grok Build 0.1 061639.8

Code Index

▶ GPT-5.4 mini56.1
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Text144948ᵉ
Arena Code139840ᵉ
Arena Vision125623ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai0,75 $4,5 $n.d.
OpenAI0,75 $4,5 $0,075 $

Prix en dollars US par million de tokens.

Sa tarification se situe 62 % en dessous de la moyenne des LLM similaires, et 6,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)4,87 $
Durée d'exécution — PinchBench3 h 19 min
Indice valeur/coût — PinchBench25,38
Coût moyen par benchmark — Benchable0,03 $
Latence moyenne par benchmark — Benchable1 min 23 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GPT-5.4 mini affiche ses meilleurs signaux sur Ethics, où il atteint le top 10, ainsi que sur les tâches de connaissance générale, de classification d’e-mails et de limitation des hallucinations, toutes placées à des niveaux élevés dans Benchable. Son résultat sur OTIS Mock AIME 2024-2025 indique aussi une bonne tenue sur des problèmes d’olympiades de mathématiques de niveau lycée. Le Code Index et l’Agentic Index le placent dans une zone compétitive de leurs classements respectifs, avec un profil plus solide que son prix ne le laisse supposer. La fenêtre de contexte de 400 000 tokens renforce son intérêt pour les traitements de documents longs, les bases de connaissances volumineuses et les workflows nécessitant beaucoup d’historique.

Limites et points d’attention. GPT-5.4 mini n’est pas un modèle ouvert, ses poids restent propriétaires. Ses rangs Benchable en connaissance générale, hallucinations et coding montrent qu’il n’occupe pas systématiquement le haut du classement, malgré des scores absolus élevés. Le benchmark Coding le situe plus bas que son Code Index, ce qui invite à le considérer comme un modèle économique polyvalent plutôt que comme une référence spécialisée en développement logiciel. Sa date de coupure des connaissances, fixée au 31 août 2025, limite les usages portant sur des événements ou informations postérieurs. Il convient surtout aux usages de production sensibles au coût, avec longs contextes, classification, synthèse, raisonnement général et code courant.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).