GPT-5.4
GPT-5.4 est un LLM propriétaire d’OpenAI, sorti le 5 mars 2026, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, 1 050 000 tokens, et des classements de tête sur les grands indices d’évaluation généralistes, de code et d’usage agentique.
GPT-5.4 est un LLM propriétaire d’OpenAI, sorti le 5 mars 2026, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, 1 050 000 tokens, et des classements de tête sur les grands indices d’évaluation généralistes, de code et d’usage agentique.
Le modèle se distingue aussi par l’ampleur déclarée de son entraînement : 3,8 × 10²⁶ FLOP, soit environ 105,6 millions d’heures-GPU H100, l’équivalent d’environ 49 000 GPU H100 pendant trois mois. Le coût estimé atteint ~366 millions de dollars, une valeur marquante même parmi les LLM haut de gamme.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 5 mars 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 050 000 tokens (≈ 1,1 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 51.4 | 4ᵉ / 136 |
| Code Index | 71.1 | 4ᵉ / 50 |
| Agentic Index | 41.1 | 5ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 95,3 % | 12ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 94,1 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 93,3 % | 5ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 90,0 % | 85ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 89,0 % | 114ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 88,1 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Coding (Baseline) | 88,0 % | 128ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 83,0 % | 36ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Language | 82,6 % | 8ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 80,3 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 80,0 % | 6ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Data Analysis | 79,3 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 78,6 % | 6ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Coding | 77,5 % | 18ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 76,9 % | 8ᵉ / 32 | epoch | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 75,7 % | 18ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: IF | 70,2 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 70,0 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 50,0 % | 2ᵉ / 36 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 49,0 % | 7ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 47,6 % | 4ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 44,8 % | 23ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 44,0 % | 7ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 27,1 % | 7ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 98,9 % | 3ᵉ / 34 | llm-stats | Auto-déclaré |
| GSM8k | 97,0 % | 4ᵉ / 47 | llm-stats | Auto-déclaré |
| ARC-AGI | 93,7 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 93,0 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| GPQA | 92,8 % | 7ᵉ / 213 | llm-stats | Auto-déclaré |
| MMLU | 90,8 % | 3ᵉ / 98 | llm-stats | Auto-déclaré |
| CharXiv-D | 90,0 % | 5ᵉ / 16 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 89,8 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| OmniDocBench 1.5 | 89,1 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| IFEval | 88,2 % | 26ᵉ / 65 | llm-stats | Auto-déclaré |
| HumanEval | 88,0 % | 26ᵉ / 65 | llm-stats | Auto-déclaré |
| MMMLU | 85,1 % | 33ᵉ / 49 | llm-stats | Auto-déclaré |
| BrowseComp | 82,7 % | 12ᵉ / 51 | llm-stats | Auto-déclaré |
| MMMU-Pro | 81,2 % | 5ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveBench | 80,3 % | 3ᵉ / 38 | llm-stats | n.d. |
| MMMU | 75,2 % | 18ᵉ / 61 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 75,1 % | 5ᵉ / 48 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 75,0 % | 7ᵉ / 17 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 73,3 % | 3ᵉ / 16 | llm-stats | Auto-déclaré |
| COLLIE | 72,3 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| MathVista | 72,3 % | 10ᵉ / 38 | llm-stats | Auto-déclaré |
| Multi-IF | 70,8 % | 15ᵉ / 20 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 68,4 % | 13ᵉ / 24 | llm-stats | Auto-déclaré |
| MCP Atlas | 67,2 % | 18ᵉ / 27 | llm-stats | Auto-déclaré |
| ComplexFuncBench | 63,0 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| SimpleQA | 62,5 % | 8ᵉ / 45 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 57,7 % | 11ᵉ / 34 | llm-stats | Auto-déclaré |
| Finance Agent | 56,0 % | 6ᵉ / 8 | llm-stats | Auto-déclaré |
| CharXiv-R | 55,4 % | 35ᵉ / 42 | llm-stats | Auto-déclaré |
| Toolathlon | 54,6 % | 4ᵉ / 23 | llm-stats | Auto-déclaré |
| FrontierSWE | 54,0 % | 7ᵉ / 13 | llm-stats | n.d. |
| Internal API instruction following (hard) | 54,0 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 50,0 % | 10ᵉ / 22 | llm-stats | Auto-déclaré |
| GDPval-AA | 47,6 % | 6ᵉ / 33 | llm-stats | n.d. |
| FrontierMath | 47,6 % | 1ᵉ / 13 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 44,9 % | 7ᵉ / 10 | llm-stats | Auto-déclaré |
| Multi-Challenge | 43,8 % | 19ᵉ / 28 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 39,8 % | 30ᵉ / 86 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 128k | 38,5 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 38,0 % | 93ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-Lancer | 37,3 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| AIME 2024 | 36,7 % | 50ᵉ / 52 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 32,4 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| Graphwalks BFS >128k | 21,4 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Lancer (IC-Diamond subset) | 17,4 % | 4ᵉ / 6 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 0,4 % | 7ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1478 | 12ᵉ |
| Arena Document | 1474 | 9ᵉ |
| Arena Text | 1467 | 28ᵉ |
| Arena Code | 1457 | 25ᵉ |
| Arena Code | 1437 | 30ᵉ |
| Arena Image-to-Code | 1435 | 16ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 2,5 $ | 15 $ | n.d. |
| OpenAI | 2,5 $ | 15 $ | 0,25 $ |
| artificialanalysis | 2,625 $ | 15,75 $ | 0,2625 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 28 % au-dessus de la moyenne des LLM similaires, et 1,8 fois moins cher que les modèles frontières (Claude Fable 5, Gemini 3.1 Pro Preview, Qwen3.7 Max).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 18,67 $ |
| Durée d'exécution — PinchBench | 4 h 32 min |
| Indice valeur/coût — PinchBench | 8,51 |
| Coût moyen par benchmark — Benchable | 0,09 $ |
| Latence moyenne par benchmark — Benchable | 1 min 49 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 3,8 × 10²⁶ FLOP |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 366 010 628 $ (USD 2023) |
| Durée d'entraînement | 3 000 h |
| Pays | United States of America |
Notre analyse
Forces. GPT-5.4 se situe dans le haut du panier de sa génération : à sa sortie, il figurait dans le top 4% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses résultats le placent aussi dans le top 10 sur l’Intelligence Index, le Code Index et l’Agentic Index, ce qui indique un profil équilibré entre raisonnement général, programmation et tâches à enchaînements d’actions. Les scores Benchable au niveau maximal sur Hallucinations, General Knowledge et Ethics signalent une très forte tenue sur ces évaluations de base. Les mathématiques ressortent également comme un point fort, avec des résultats de premier plan sur LiveBench: Mathematics et un niveau élevé sur Epoch: OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques de niveau lycée.
Limites et points d'attention. GPT-5.4 reste un modèle propriétaire, sans accès aux poids, ce qui limite l’audit indépendant, l’hébergement autonome et les adaptations profondes. Son tarif est présenté comme dans la moyenne, mais il est aussi 28% au-dessus de la moyenne des LLM similaires, malgré un coût environ 1,8 fois inférieur à celui des modèles frontière. Les classements Arena sont solides, notamment en document, mais moins uniformément dominants que ses meilleurs benchmarks synthétiques. Le modèle convient surtout aux usages exigeant un LLM généraliste haut de gamme, avec contexte très long, bonnes performances en code, en raisonnement mathématique et en tâches agentiques.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).