OpenAI

GPT-5.4

GPT-5.4 est un LLM propriétaire d’OpenAI, sorti le 5 mars 2026, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, 1 050 000 tokens, et des classements de tête sur les grands indices d’évaluation généralistes, de code et d’usage agentique.

Le modèle se distingue aussi par l’ampleur déclarée de son entraînement : 3,8 × 10²⁶ FLOP, soit environ 105,6 millions d’heures-GPU H100, l’équivalent d’environ 49 000 GPU H100 pendant trois mois. Le coût estimé atteint ~366 millions de dollars, une valeur marquante même parmi les LLM haut de gamme.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	5 mars 2026
Multimodal	oui
Fenêtre de contexte	1 050 000 tokens (≈ 1,1 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	51.4	4ᵉ / 136
Code Index	71.1	4ᵉ / 50
Agentic Index	41.1	5ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	95,3 %	12ᵉ / 111	epoch	✅ Mesuré
LiveBench: Mathematics	94,1 %	3ᵉ / 76	livebench	✅ Mesuré
Epoch: GPQA diamond	93,3 %	5ᵉ / 132	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	90,0 %	85ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	89,0 %	114ᵉ / 217	benchable	✅ Mesuré
LiveBench: Reasoning	88,1 %	3ᵉ / 76	livebench	✅ Mesuré
Benchable : Coding (Baseline)	88,0 %	128ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	83,0 %	36ᵉ / 252	benchable	✅ Mesuré
LiveBench: Language	82,6 %	8ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	80,3 %	2ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	80,0 %	6ᵉ / 64	epoch	✅ Mesuré
LiveBench: Data Analysis	79,3 %	3ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	78,6 %	6ᵉ / 31	epoch	✅ Mesuré
LiveBench: Coding	77,5 %	18ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	76,9 %	8ᵉ / 32	epoch	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	75,7 %	18ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: IF	70,2 %	7ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	70,0 %	2ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	50,0 %	2ᵉ / 36	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	49,0 %	7ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	47,6 %	4ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	44,8 %	23ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	44,0 %	7ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	27,1 %	7ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	98,9 %	3ᵉ / 34	llm-stats	Auto-déclaré
GSM8k	97,0 %	4ᵉ / 47	llm-stats	Auto-déclaré
ARC-AGI	93,7 %	2ᵉ / 7	llm-stats	Auto-déclaré
Graphwalks BFS <128k	93,0 %	2ᵉ / 10	llm-stats	Auto-déclaré
GPQA	92,8 %	7ᵉ / 213	llm-stats	Auto-déclaré
MMLU	90,8 %	3ᵉ / 98	llm-stats	Auto-déclaré
CharXiv-D	90,0 %	5ᵉ / 16	llm-stats	Auto-déclaré
Graphwalks parents <128k	89,8 %	1ᵉ / 10	llm-stats	Auto-déclaré
OmniDocBench 1.5	89,1 %	7ᵉ / 13	llm-stats	Auto-déclaré
IFEval	88,2 %	26ᵉ / 65	llm-stats	Auto-déclaré
HumanEval	88,0 %	26ᵉ / 65	llm-stats	Auto-déclaré
MMMLU	85,1 %	33ᵉ / 49	llm-stats	Auto-déclaré
BrowseComp	82,7 %	12ᵉ / 51	llm-stats	Auto-déclaré
MMMU-Pro	81,2 %	5ᵉ / 60	llm-stats	Auto-déclaré
LiveBench	80,3 %	3ᵉ / 38	llm-stats	n.d.
MMMU	75,2 %	18ᵉ / 61	llm-stats	Auto-déclaré
Terminal-Bench 2.0	75,1 %	5ᵉ / 48	llm-stats	Auto-déclaré
OSWorld-Verified	75,0 %	7ᵉ / 17	llm-stats	Auto-déclaré
ARC-AGI v2	73,3 %	3ᵉ / 16	llm-stats	Auto-déclaré
COLLIE	72,3 %	5ᵉ / 10	llm-stats	Auto-déclaré
MathVista	72,3 %	10ᵉ / 38	llm-stats	Auto-déclaré
Multi-IF	70,8 %	15ᵉ / 20	llm-stats	Auto-déclaré
TAU-bench Retail	68,4 %	13ᵉ / 24	llm-stats	Auto-déclaré
MCP Atlas	67,2 %	18ᵉ / 27	llm-stats	Auto-déclaré
ComplexFuncBench	63,0 %	4ᵉ / 7	llm-stats	Auto-déclaré
SimpleQA	62,5 %	8ᵉ / 45	llm-stats	Auto-déclaré
SWE-Bench Pro	57,7 %	11ᵉ / 34	llm-stats	Auto-déclaré
Finance Agent	56,0 %	6ᵉ / 8	llm-stats	Auto-déclaré
CharXiv-R	55,4 %	35ᵉ / 42	llm-stats	Auto-déclaré
Toolathlon	54,6 %	4ᵉ / 23	llm-stats	Auto-déclaré
FrontierSWE	54,0 %	7ᵉ / 13	llm-stats	n.d.
Internal API instruction following (hard)	54,0 %	2ᵉ / 7	llm-stats	Auto-déclaré
TAU-bench Airline	50,0 %	10ᵉ / 22	llm-stats	Auto-déclaré
GDPval-AA	47,6 %	6ᵉ / 33	llm-stats	n.d.
FrontierMath	47,6 %	1ᵉ / 13	llm-stats	Auto-déclaré
Aider-Polyglot Edit	44,9 %	7ᵉ / 10	llm-stats	Auto-déclaré
Multi-Challenge	43,8 %	19ᵉ / 28	llm-stats	Auto-déclaré
Humanity's Last Exam	39,8 %	30ᵉ / 86	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	38,5 %	5ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Verified	38,0 %	93ᵉ / 100	llm-stats	Auto-déclaré
SWE-Lancer	37,3 %	2ᵉ / 4	llm-stats	Auto-déclaré
AIME 2024	36,7 %	50ᵉ / 52	llm-stats	Auto-déclaré
Graphwalks parents >128k	32,4 %	4ᵉ / 7	llm-stats	Auto-déclaré
Graphwalks BFS >128k	21,4 %	5ᵉ / 8	llm-stats	Auto-déclaré
SWE-Lancer (IC-Diamond subset)	17,4 %	4ᵉ / 6	llm-stats	Auto-déclaré
Legal Agent Benchmark	0,4 %	7ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

▶ GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Code Index

Claude Fable 576.5

▶ GPT-5.471.1

Gemini 3.5 Flash70.1

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1478	12ᵉ
Arena Document	1474	9ᵉ
Arena Text	1467	28ᵉ
Arena Code	1457	25ᵉ
Arena Code	1437	30ᵉ
Arena Image-to-Code	1435	16ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	2,5 $	15 $	n.d.
OpenAI	2,5 $	15 $	0,25 $
artificialanalysis	2,625 $	15,75 $	0,2625 $

Prix en dollars US par million de tokens.

Sa tarification se situe 28 % au-dessus de la moyenne des LLM similaires, et 1,8 fois moins cher que les modèles frontières (Claude Fable 5, Gemini 3.1 Pro Preview, Qwen3.7 Max).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	18,67 $
Durée d'exécution — PinchBench	4 h 32 min
Indice valeur/coût — PinchBench	8,51
Coût moyen par benchmark — Benchable	0,09 $
Latence moyenne par benchmark — Benchable	1 min 49 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,8 × 10²⁶ FLOP
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 366 010 628 $ (USD 2023)
Durée d'entraînement	3 000 h
Pays	United States of America

Notre analyse

Forces. GPT-5.4 se situe dans le haut du panier de sa génération : à sa sortie, il figurait dans le top 4% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses résultats le placent aussi dans le top 10 sur l’Intelligence Index, le Code Index et l’Agentic Index, ce qui indique un profil équilibré entre raisonnement général, programmation et tâches à enchaînements d’actions. Les scores Benchable au niveau maximal sur Hallucinations, General Knowledge et Ethics signalent une très forte tenue sur ces évaluations de base. Les mathématiques ressortent également comme un point fort, avec des résultats de premier plan sur LiveBench: Mathematics et un niveau élevé sur Epoch: OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques de niveau lycée.

Limites et points d'attention. GPT-5.4 reste un modèle propriétaire, sans accès aux poids, ce qui limite l’audit indépendant, l’hébergement autonome et les adaptations profondes. Son tarif est présenté comme dans la moyenne, mais il est aussi 28% au-dessus de la moyenne des LLM similaires, malgré un coût environ 1,8 fois inférieur à celui des modèles frontière. Les classements Arena sont solides, notamment en document, mais moins uniformément dominants que ses meilleurs benchmarks synthétiques. Le modèle convient surtout aux usages exigeant un LLM généraliste haut de gamme, avec contexte très long, bonnes performances en code, en raisonnement mathématique et en tâches agentiques.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).