OpenAI

GPT-5.4 nano

GPT-5.4 nano est un LLM propriétaire d’OpenAI, sorti le 17 mars 2026, avec des connaissances arrêtées au 31 août 2025. Son positionnement est clair : un modèle très économique, facturé 90% sous la moyenne des LLM similaires et environ 24,2 fois moins cher que les modèles frontière.

Le modèle se distingue par une fenêtre de contexte de 400 000 tokens, nettement orientée vers les entrées volumineuses. Ses résultats publics le placent davantage comme un modèle compact et rentable que comme une référence générale de très haut niveau, avec un profil plus solide en mathématiques et en code qu’en performance agentique.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	17 mars 2026
Connaissances jusqu'à	2025-08-31
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	38.2	29ᵉ / 136
Code Index	56.1	19ᵉ / 50
Agentic Index	27.5	21ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	97,0 %	195ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	96,0 %	197ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	95,0 %	186ᵉ / 250	benchable	✅ Mesuré
LiveBench: Mathematics	91,3 %	7ᵉ / 76	livebench	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	87,8 %	27ᵉ / 111	epoch	✅ Mesuré
LiveBench: Reasoning	81,1 %	16ᵉ / 76	livebench	✅ Mesuré
Epoch: GPQA diamond	78,5 %	46ᵉ / 132	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	74,0 %	163ᵉ / 217	benchable	✅ Mesuré
LiveBench: Coding	72,1 %	36ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	70,1 %	25ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	69,0 %	29ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Data Analysis	67,6 %	25ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	67,2 %	12ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	62,5 %	58ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	61,0 %	134ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	60,0 %	12ᵉ / 64	epoch	✅ Mesuré
LiveBench: Agentic Coding	49,1 %	34ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	44,9 %	23ᵉ / 31	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	44,0 %	199ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	39,5 %	217ᵉ / 248	benchable	✅ Mesuré
Epoch: Chess Puzzles	30,0 %	14ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	25,9 %	24ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	12,2 %	21ᵉ / 32	epoch	✅ Mesuré
Epoch: SimpleQA Verified	12,0 %	49ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	6,2 %	23ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	92,5 %	14ᵉ / 34	llm-stats	Auto-déclaré
GPQA	82,8 %	56ᵉ / 213	llm-stats	Auto-déclaré
OmniDocBench 1.5	75,8 %	12ᵉ / 13	llm-stats	Auto-déclaré
Graphwalks BFS <128k	73,4 %	5ᵉ / 10	llm-stats	Auto-déclaré
LiveBench	70,1 %	30ᵉ / 38	llm-stats	n.d.
MMMU-Pro	66,1 %	35ᵉ / 60	llm-stats	Auto-déclaré
MCP Atlas	56,1 %	26ᵉ / 27	llm-stats	Auto-déclaré
SWE-Bench Pro	52,4 %	29ᵉ / 34	llm-stats	Auto-déclaré
Graphwalks parents <128k	50,8 %	8ᵉ / 10	llm-stats	Auto-déclaré
Terminal-Bench 2.0	46,3 %	40ᵉ / 48	llm-stats	Auto-déclaré
OSWorld-Verified	39,0 %	17ᵉ / 17	llm-stats	Auto-déclaré
Finance Agent v2	38,2 %	16ᵉ / 25	llm-stats	n.d.
GDPval-AA	37,2 %	24ᵉ / 33	llm-stats	n.d.
Toolathlon	35,5 %	19ᵉ / 23	llm-stats	Auto-déclaré
MRCR v2 (8-needle)	33,1 %	5ᵉ / 10	llm-stats	Auto-déclaré
Humanity's Last Exam	24,3 %	46ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ GPT-5.4 nano38.2

Nemotron 3 Ultra 550B A…37.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

DeepSeek V4 Pro59.4

▶ GPT-5.4 nano56.1

Grok Build 0.1 061651.5

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1403	115ᵉ
Arena Vision	1204	56ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Azure	0,2 $	1,25 $	0,02 $
openai	0,2 $	1,25 $	n.d.
artificialanalysis	0,2 $	1,25 $	0,02 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	1,41 $
Durée d'exécution — PinchBench	3 h 57 min
Indice valeur/coût — PinchBench	99,37
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	1 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GPT-5.4 nano affiche son meilleur signal sur LiveBench: Mathematics (mathématiques), où il figure dans le top 10, et reste solide sur Epoch: OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée. Le Code Index le situe dans une zone compétitive parmi les modèles évalués, ce qui renforce son intérêt pour des tâches de programmation courantes à coût réduit. Sa grande fenêtre de contexte constitue aussi un atout concret pour analyser de longs documents ou de gros historiques textuels. Le tarif est l’un de ses arguments les plus nets : il appartient à une catégorie très économique, loin des coûts des modèles haut de gamme.

Limites et points d'attention. L’Intelligence Index place GPT-5.4 nano dans un rang intermédiaire, et l’Agentic Index indique des capacités plus limitées pour les tâches nécessitant planification, autonomie ou enchaînement d’actions. Les benchmarks Benchable affichent de bons pourcentages bruts, mais des classements souvent modestes, signe que ces tests ne suffisent pas à le distinguer nettement. À sa sortie, son résultat sur GPQA diamond le situait dans le top 44% des LLM de sa génération, un positionnement correct mais pas dominant. GPT-5.4 nano vise surtout les usages où le prix, le grand contexte et les mathématiques comptent davantage que la performance générale maximale.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

GPT-5.4 nano

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast