OpenAI

GPT-5.4 mini

GPT-5.4 mini est un LLM propriétaire d’OpenAI sorti le 17 mars 2026, avec des poids non ouverts et des connaissances arrêtées au 31 août 2025. Son trait le plus distinctif est l’équilibre entre une très grande fenêtre de contexte, fixée à 400 000 tokens, et un positionnement tarifaire…

Le modèle coûte 0,75 $ par million de tokens en entrée et 4,5 $ en sortie, soit 62% sous la moyenne des LLM similaires et environ 6,4 fois moins cher que les modèles frontière. À sa sortie, il se situait dans le top 32% des LLM de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	17 mars 2026
Connaissances jusqu'à	2025-08-31
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	40.0	22ᵉ / 136
Code Index	56.1	18ᵉ / 50
Agentic Index	30.2	15ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,0 %	113ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	87,2 %	28ᵉ / 111	epoch	✅ Mesuré
Benchable : Coding (Baseline)	87,0 %	135ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	83,6 %	36ᵉ / 132	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	83,0 %	144ᵉ / 217	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	79,2 %	15ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Mathematics	78,6 %	41ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	76,0 %	65ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	74,0 %	135ᵉ / 239	benchable	✅ Mesuré
LiveBench: Reasoning	72,5 %	34ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	71,6 %	39ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	71,5 %	39ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	70,9 %	16ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	67,5 %	31ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	60,3 %	31ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	51,2 %	19ᵉ / 31	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	50,0 %	16ᵉ / 64	epoch	✅ Mesuré
LiveBench: Agentic Coding	47,5 %	37ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	28,6 %	37ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	28,3 %	20ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	18,0 %	27ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	9,8 %	24ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	45ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	93,4 %	12ᵉ / 34	llm-stats	Auto-déclaré
GPQA	88,0 %	26ᵉ / 213	llm-stats	Auto-déclaré
OmniDocBench 1.5	87,4 %	11ᵉ / 13	llm-stats	Auto-déclaré
MMMU-Pro	76,6 %	22ᵉ / 60	llm-stats	Auto-déclaré
Graphwalks BFS <128k	76,3 %	4ᵉ / 10	llm-stats	Auto-déclaré
OSWorld-Verified	72,1 %	10ᵉ / 17	llm-stats	Auto-déclaré
Graphwalks parents <128k	71,5 %	4ᵉ / 10	llm-stats	Auto-déclaré
Terminal-Bench 2.0	60,0 %	19ᵉ / 48	llm-stats	Auto-déclaré
MCP Atlas	57,7 %	24ᵉ / 27	llm-stats	Auto-déclaré
SWE-Bench Pro	54,4 %	24ᵉ / 34	llm-stats	Auto-déclaré
Finance Agent v2	45,4 %	9ᵉ / 25	llm-stats	n.d.
Toolathlon	42,9 %	15ᵉ / 23	llm-stats	Auto-déclaré
GDPval-AA	39,7 %	17ᵉ / 33	llm-stats	n.d.
MRCR v2 (8-needle)	33,6 %	4ᵉ / 10	llm-stats	Auto-déclaré
Humanity's Last Exam	28,2 %	41ᵉ / 86	llm-stats	Auto-déclaré
Legal Agent Benchmark	0,0 %	8ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ GPT-5.4 mini40.0

Grok Build 0.1 061639.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

DeepSeek V4 Pro59.4

▶ GPT-5.4 mini56.1

Grok Build 0.1 061651.5

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1449	48ᵉ
Arena Code	1398	40ᵉ
Arena Vision	1256	23ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	0,75 $	4,5 $	n.d.
OpenAI	0,75 $	4,5 $	0,075 $

Prix en dollars US par million de tokens.

Sa tarification se situe 62 % en dessous de la moyenne des LLM similaires, et 6,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	4,87 $
Durée d'exécution — PinchBench	3 h 19 min
Indice valeur/coût — PinchBench	25,38
Coût moyen par benchmark — Benchable	0,03 $
Latence moyenne par benchmark — Benchable	1 min 23 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GPT-5.4 mini affiche ses meilleurs signaux sur Ethics, où il atteint le top 10, ainsi que sur les tâches de connaissance générale, de classification d’e-mails et de limitation des hallucinations, toutes placées à des niveaux élevés dans Benchable. Son résultat sur OTIS Mock AIME 2024-2025 indique aussi une bonne tenue sur des problèmes d’olympiades de mathématiques de niveau lycée. Le Code Index et l’Agentic Index le placent dans une zone compétitive de leurs classements respectifs, avec un profil plus solide que son prix ne le laisse supposer. La fenêtre de contexte de 400 000 tokens renforce son intérêt pour les traitements de documents longs, les bases de connaissances volumineuses et les workflows nécessitant beaucoup d’historique.

Limites et points d’attention. GPT-5.4 mini n’est pas un modèle ouvert, ses poids restent propriétaires. Ses rangs Benchable en connaissance générale, hallucinations et coding montrent qu’il n’occupe pas systématiquement le haut du classement, malgré des scores absolus élevés. Le benchmark Coding le situe plus bas que son Code Index, ce qui invite à le considérer comme un modèle économique polyvalent plutôt que comme une référence spécialisée en développement logiciel. Sa date de coupure des connaissances, fixée au 31 août 2025, limite les usages portant sur des événements ou informations postérieurs. Il convient surtout aux usages de production sensibles au coût, avec longs contextes, classification, synthèse, raisonnement général et code courant.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

GPT-5.4 mini

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast