GPT-5.4 nano

GPT-5.4 nano est un LLM propriétaire d’OpenAI, sorti le 17 mars 2026, avec des connaissances arrêtées au 31 août 2025. Son positionnement est clair : un modèle très économique, facturé 90% sous la moyenne des LLM similaires et environ 24,2 fois moins cher que les modèles frontière.

GPT-5.4 nano est un LLM propriétaire d’OpenAI, sorti le 17 mars 2026, avec des connaissances arrêtées au 31 août 2025. Son positionnement est clair : un modèle très économique, facturé 90% sous la moyenne des LLM similaires et environ 24,2 fois moins cher que les modèles frontière.

Le modèle se distingue par une fenêtre de contexte de 400 000 tokens, nettement orientée vers les entrées volumineuses. Ses résultats publics le placent davantage comme un modèle compact et rentable que comme une référence générale de très haut niveau, avec un profil plus solide en mathématiques et en code qu’en performance agentique.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie17 mars 2026
Connaissances jusqu'à2025-08-31
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index38.229ᵉ / 136
Code Index56.119ᵉ / 50
Agentic Index27.521ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)97,0 %195ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)96,0 %197ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)95,0 %186ᵉ / 250benchable✅ Mesuré
LiveBench: Mathematics91,3 %7ᵉ / 76livebench✅ Mesuré
Epoch: OTIS Mock AIME 2024-202587,8 %27ᵉ / 111epoch✅ Mesuré
LiveBench: Reasoning81,1 %16ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond78,5 %46ᵉ / 132epoch✅ Mesuré
Benchable : Mathematics (Baseline)74,0 %163ᵉ / 217benchable✅ Mesuré
LiveBench: Coding72,1 %36ᵉ / 76livebench✅ Mesuré
LiveBench: Global average70,1 %25ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)69,0 %29ᵉ / 52pinchbench✅ Mesuré
LiveBench: Data Analysis67,6 %25ᵉ / 76livebench✅ Mesuré
LiveBench: IF67,2 %12ᵉ / 76livebench✅ Mesuré
LiveBench: Language62,5 %58ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)61,0 %134ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public60,0 %12ᵉ / 64epoch✅ Mesuré
LiveBench: Agentic Coding49,1 %34ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private44,9 %23ᵉ / 31epoch✅ Mesuré
Benchable : Reasoning (Baseline)44,0 %199ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)39,5 %217ᵉ / 248benchable✅ Mesuré
Epoch: Chess Puzzles30,0 %14ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private25,9 %24ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private12,2 %21ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified12,0 %49ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private6,2 %23ᵉ / 55epoch✅ Mesuré
Tau2 Telecom92,5 %14ᵉ / 34llm-statsAuto-déclaré
GPQA82,8 %56ᵉ / 213llm-statsAuto-déclaré
OmniDocBench 1.575,8 %12ᵉ / 13llm-statsAuto-déclaré
Graphwalks BFS <128k73,4 %5ᵉ / 10llm-statsAuto-déclaré
LiveBench70,1 %30ᵉ / 38llm-statsn.d.
MMMU-Pro66,1 %35ᵉ / 60llm-statsAuto-déclaré
MCP Atlas56,1 %26ᵉ / 27llm-statsAuto-déclaré
SWE-Bench Pro52,4 %29ᵉ / 34llm-statsAuto-déclaré
Graphwalks parents <128k50,8 %8ᵉ / 10llm-statsAuto-déclaré
Terminal-Bench 2.046,3 %40ᵉ / 48llm-statsAuto-déclaré
OSWorld-Verified39,0 %17ᵉ / 17llm-statsAuto-déclaré
Finance Agent v238,2 %16ᵉ / 25llm-statsn.d.
GDPval-AA37,2 %24ᵉ / 33llm-statsn.d.
Toolathlon35,5 %19ᵉ / 23llm-statsAuto-déclaré
MRCR v2 (8-needle)33,1 %5ᵉ / 10llm-statsAuto-déclaré
Humanity's Last Exam24,3 %46ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Grok Build 0.1 061639.8
▶ GPT-5.4 nano38.2
Nemotron 3 Ultra 550B A…37.8

Code Index

▶ GPT-5.4 nano56.1
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Text1403115ᵉ
Arena Vision120456ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Azure0,2 $1,25 $0,02 $
openai0,2 $1,25 $n.d.
artificialanalysis0,2 $1,25 $0,02 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)1,41 $
Durée d'exécution — PinchBench3 h 57 min
Indice valeur/coût — PinchBench99,37
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable1 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GPT-5.4 nano affiche son meilleur signal sur LiveBench: Mathematics (mathématiques), où il figure dans le top 10, et reste solide sur Epoch: OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée. Le Code Index le situe dans une zone compétitive parmi les modèles évalués, ce qui renforce son intérêt pour des tâches de programmation courantes à coût réduit. Sa grande fenêtre de contexte constitue aussi un atout concret pour analyser de longs documents ou de gros historiques textuels. Le tarif est l’un de ses arguments les plus nets : il appartient à une catégorie très économique, loin des coûts des modèles haut de gamme.

Limites et points d'attention. L’Intelligence Index place GPT-5.4 nano dans un rang intermédiaire, et l’Agentic Index indique des capacités plus limitées pour les tâches nécessitant planification, autonomie ou enchaînement d’actions. Les benchmarks Benchable affichent de bons pourcentages bruts, mais des classements souvent modestes, signe que ces tests ne suffisent pas à le distinguer nettement. À sa sortie, son résultat sur GPQA diamond le situait dans le top 44% des LLM de sa génération, un positionnement correct mais pas dominant. GPT-5.4 nano vise surtout les usages où le prix, le grand contexte et les mathématiques comptent davantage que la performance générale maximale.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).