GPT-5.4

GPT-5.4 est un LLM propriétaire d’OpenAI, sorti le 5 mars 2026, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, 1 050 000 tokens, et des classements de tête sur les grands indices d’évaluation généralistes, de code et d’usage agentique.

GPT-5.4 est un LLM propriétaire d’OpenAI, sorti le 5 mars 2026, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, 1 050 000 tokens, et des classements de tête sur les grands indices d’évaluation généralistes, de code et d’usage agentique.

Le modèle se distingue aussi par l’ampleur déclarée de son entraînement : 3,8 × 10²⁶ FLOP, soit environ 105,6 millions d’heures-GPU H100, l’équivalent d’environ 49 000 GPU H100 pendant trois mois. Le coût estimé atteint ~366 millions de dollars, une valeur marquante même parmi les LLM haut de gamme.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie5 mars 2026
Multimodaloui
Fenêtre de contexte1 050 000 tokens (≈ 1,1 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index51.44ᵉ / 136
Code Index71.14ᵉ / 50
Agentic Index41.15ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202595,3 %12ᵉ / 111epoch✅ Mesuré
LiveBench: Mathematics94,1 %3ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond93,3 %5ᵉ / 132epoch✅ Mesuré
Benchable : Reasoning (Baseline)90,0 %85ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)89,0 %114ᵉ / 217benchable✅ Mesuré
LiveBench: Reasoning88,1 %3ᵉ / 76livebench✅ Mesuré
Benchable : Coding (Baseline)88,0 %128ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)83,0 %36ᵉ / 252benchable✅ Mesuré
LiveBench: Language82,6 %8ᵉ / 76livebench✅ Mesuré
LiveBench: Global average80,3 %2ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public80,0 %6ᵉ / 64epoch✅ Mesuré
LiveBench: Data Analysis79,3 %3ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private78,6 %6ᵉ / 31epoch✅ Mesuré
LiveBench: Coding77,5 %18ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified76,9 %8ᵉ / 32epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)75,7 %18ᵉ / 52pinchbench✅ Mesuré
LiveBench: IF70,2 %7ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding70,0 %2ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public50,0 %2ᵉ / 36epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private49,0 %7ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private47,6 %4ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified44,8 %23ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles44,0 %7ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private27,1 %7ᵉ / 55epoch✅ Mesuré
Tau2 Telecom98,9 %3ᵉ / 34llm-statsAuto-déclaré
GSM8k97,0 %4ᵉ / 47llm-statsAuto-déclaré
ARC-AGI93,7 %2ᵉ / 7llm-statsAuto-déclaré
Graphwalks BFS <128k93,0 %2ᵉ / 10llm-statsAuto-déclaré
GPQA92,8 %7ᵉ / 213llm-statsAuto-déclaré
MMLU90,8 %3ᵉ / 98llm-statsAuto-déclaré
CharXiv-D90,0 %5ᵉ / 16llm-statsAuto-déclaré
Graphwalks parents <128k89,8 %1ᵉ / 10llm-statsAuto-déclaré
OmniDocBench 1.589,1 %7ᵉ / 13llm-statsAuto-déclaré
IFEval88,2 %26ᵉ / 65llm-statsAuto-déclaré
HumanEval88,0 %26ᵉ / 65llm-statsAuto-déclaré
MMMLU85,1 %33ᵉ / 49llm-statsAuto-déclaré
BrowseComp82,7 %12ᵉ / 51llm-statsAuto-déclaré
MMMU-Pro81,2 %5ᵉ / 60llm-statsAuto-déclaré
LiveBench80,3 %3ᵉ / 38llm-statsn.d.
MMMU75,2 %18ᵉ / 61llm-statsAuto-déclaré
Terminal-Bench 2.075,1 %5ᵉ / 48llm-statsAuto-déclaré
OSWorld-Verified75,0 %7ᵉ / 17llm-statsAuto-déclaré
ARC-AGI v273,3 %3ᵉ / 16llm-statsAuto-déclaré
COLLIE72,3 %5ᵉ / 10llm-statsAuto-déclaré
MathVista72,3 %10ᵉ / 38llm-statsAuto-déclaré
Multi-IF70,8 %15ᵉ / 20llm-statsAuto-déclaré
TAU-bench Retail68,4 %13ᵉ / 24llm-statsAuto-déclaré
MCP Atlas67,2 %18ᵉ / 27llm-statsAuto-déclaré
ComplexFuncBench63,0 %4ᵉ / 7llm-statsAuto-déclaré
SimpleQA62,5 %8ᵉ / 45llm-statsAuto-déclaré
SWE-Bench Pro57,7 %11ᵉ / 34llm-statsAuto-déclaré
Finance Agent56,0 %6ᵉ / 8llm-statsAuto-déclaré
CharXiv-R55,4 %35ᵉ / 42llm-statsAuto-déclaré
Toolathlon54,6 %4ᵉ / 23llm-statsAuto-déclaré
FrontierSWE54,0 %7ᵉ / 13llm-statsn.d.
Internal API instruction following (hard)54,0 %2ᵉ / 7llm-statsAuto-déclaré
TAU-bench Airline50,0 %10ᵉ / 22llm-statsAuto-déclaré
GDPval-AA47,6 %6ᵉ / 33llm-statsn.d.
FrontierMath47,6 %1ᵉ / 13llm-statsAuto-déclaré
Aider-Polyglot Edit44,9 %7ᵉ / 10llm-statsAuto-déclaré
Multi-Challenge43,8 %19ᵉ / 28llm-statsAuto-déclaré
Humanity's Last Exam39,8 %30ᵉ / 86llm-statsAuto-déclaré
OpenAI-MRCR: 2 needle 128k38,5 %5ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Verified38,0 %93ᵉ / 100llm-statsAuto-déclaré
SWE-Lancer37,3 %2ᵉ / 4llm-statsAuto-déclaré
AIME 202436,7 %50ᵉ / 52llm-statsAuto-déclaré
Graphwalks parents >128k32,4 %4ᵉ / 7llm-statsAuto-déclaré
Graphwalks BFS >128k21,4 %5ᵉ / 8llm-statsAuto-déclaré
SWE-Lancer (IC-Diamond subset)17,4 %4ᵉ / 6llm-statsAuto-déclaré
Legal Agent Benchmark0,4 %7ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ GPT-5.451.4

Code Index

▶ GPT-5.471.1

Classements Arena (Elo)

CatégorieEloRang
Arena Text147812ᵉ
Arena Document14749ᵉ
Arena Text146728ᵉ
Arena Code145725ᵉ
Arena Code143730ᵉ
Arena Image-to-Code143516ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai2,5 $15 $n.d.
OpenAI2,5 $15 $0,25 $
artificialanalysis2,625 $15,75 $0,2625 $

Prix en dollars US par million de tokens.

Sa tarification se situe 28 % au-dessus de la moyenne des LLM similaires, et 1,8 fois moins cher que les modèles frontières (Claude Fable 5, Gemini 3.1 Pro Preview, Qwen3.7 Max).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)18,67 $
Durée d'exécution — PinchBench4 h 32 min
Indice valeur/coût — PinchBench8,51
Coût moyen par benchmark — Benchable0,09 $
Latence moyenne par benchmark — Benchable1 min 49 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement3,8 × 10²⁶ FLOP
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 366 010 628 $ (USD 2023)
Durée d'entraînement3 000 h
PaysUnited States of America

Notre analyse

Forces. GPT-5.4 se situe dans le haut du panier de sa génération : à sa sortie, il figurait dans le top 4% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses résultats le placent aussi dans le top 10 sur l’Intelligence Index, le Code Index et l’Agentic Index, ce qui indique un profil équilibré entre raisonnement général, programmation et tâches à enchaînements d’actions. Les scores Benchable au niveau maximal sur Hallucinations, General Knowledge et Ethics signalent une très forte tenue sur ces évaluations de base. Les mathématiques ressortent également comme un point fort, avec des résultats de premier plan sur LiveBench: Mathematics et un niveau élevé sur Epoch: OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques de niveau lycée.

Limites et points d'attention. GPT-5.4 reste un modèle propriétaire, sans accès aux poids, ce qui limite l’audit indépendant, l’hébergement autonome et les adaptations profondes. Son tarif est présenté comme dans la moyenne, mais il est aussi 28% au-dessus de la moyenne des LLM similaires, malgré un coût environ 1,8 fois inférieur à celui des modèles frontière. Les classements Arena sont solides, notamment en document, mais moins uniformément dominants que ses meilleurs benchmarks synthétiques. Le modèle convient surtout aux usages exigeant un LLM généraliste haut de gamme, avec contexte très long, bonnes performances en code, en raisonnement mathématique et en tâches agentiques.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).