GPT-5.4 mini
GPT-5.4 mini est un LLM propriétaire d’OpenAI sorti le 17 mars 2026, avec des poids non ouverts et des connaissances arrêtées au 31 août 2025. Son trait le plus distinctif est l’équilibre entre une très grande fenêtre de contexte, fixée à 400 000 tokens, et un positionnement tarifaire…
GPT-5.4 mini est un LLM propriétaire d’OpenAI sorti le 17 mars 2026, avec des poids non ouverts et des connaissances arrêtées au 31 août 2025. Son trait le plus distinctif est l’équilibre entre une très grande fenêtre de contexte, fixée à 400 000 tokens, et un positionnement tarifaire très économique.
Le modèle coûte 0,75 $ par million de tokens en entrée et 4,5 $ en sortie, soit 62% sous la moyenne des LLM similaires et environ 6,4 fois moins cher que les modèles frontière. À sa sortie, il se situait dans le top 32% des LLM de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 mars 2026 |
| Connaissances jusqu'à | 2025-08-31 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 40.0 | 22ᵉ / 136 |
| Code Index | 56.1 | 18ᵉ / 50 |
| Agentic Index | 30.2 | 15ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 87,2 % | 28ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 87,0 % | 135ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 83,6 % | 36ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 83,0 % | 144ᵉ / 217 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 79,2 % | 15ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Mathematics | 78,6 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 76,0 % | 65ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 74,0 % | 135ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 72,5 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 71,6 % | 39ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 71,5 % | 39ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 70,9 % | 16ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 67,5 % | 31ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 60,3 % | 31ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 51,2 % | 19ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 50,0 % | 16ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 47,5 % | 37ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 28,6 % | 37ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 28,3 % | 20ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 18,0 % | 27ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 9,8 % | 24ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 45ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 93,4 % | 12ᵉ / 34 | llm-stats | Auto-déclaré |
| GPQA | 88,0 % | 26ᵉ / 213 | llm-stats | Auto-déclaré |
| OmniDocBench 1.5 | 87,4 % | 11ᵉ / 13 | llm-stats | Auto-déclaré |
| MMMU-Pro | 76,6 % | 22ᵉ / 60 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 76,3 % | 4ᵉ / 10 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 72,1 % | 10ᵉ / 17 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 71,5 % | 4ᵉ / 10 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 60,0 % | 19ᵉ / 48 | llm-stats | Auto-déclaré |
| MCP Atlas | 57,7 % | 24ᵉ / 27 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 54,4 % | 24ᵉ / 34 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 45,4 % | 9ᵉ / 25 | llm-stats | n.d. |
| Toolathlon | 42,9 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| GDPval-AA | 39,7 % | 17ᵉ / 33 | llm-stats | n.d. |
| MRCR v2 (8-needle) | 33,6 % | 4ᵉ / 10 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 28,2 % | 41ᵉ / 86 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 0,0 % | 8ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1449 | 48ᵉ |
| Arena Code | 1398 | 40ᵉ |
| Arena Vision | 1256 | 23ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 0,75 $ | 4,5 $ | n.d. |
| OpenAI | 0,75 $ | 4,5 $ | 0,075 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 62 % en dessous de la moyenne des LLM similaires, et 6,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 4,87 $ |
| Durée d'exécution — PinchBench | 3 h 19 min |
| Indice valeur/coût — PinchBench | 25,38 |
| Coût moyen par benchmark — Benchable | 0,03 $ |
| Latence moyenne par benchmark — Benchable | 1 min 23 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. GPT-5.4 mini affiche ses meilleurs signaux sur Ethics, où il atteint le top 10, ainsi que sur les tâches de connaissance générale, de classification d’e-mails et de limitation des hallucinations, toutes placées à des niveaux élevés dans Benchable. Son résultat sur OTIS Mock AIME 2024-2025 indique aussi une bonne tenue sur des problèmes d’olympiades de mathématiques de niveau lycée. Le Code Index et l’Agentic Index le placent dans une zone compétitive de leurs classements respectifs, avec un profil plus solide que son prix ne le laisse supposer. La fenêtre de contexte de 400 000 tokens renforce son intérêt pour les traitements de documents longs, les bases de connaissances volumineuses et les workflows nécessitant beaucoup d’historique.
Limites et points d’attention. GPT-5.4 mini n’est pas un modèle ouvert, ses poids restent propriétaires. Ses rangs Benchable en connaissance générale, hallucinations et coding montrent qu’il n’occupe pas systématiquement le haut du classement, malgré des scores absolus élevés. Le benchmark Coding le situe plus bas que son Code Index, ce qui invite à le considérer comme un modèle économique polyvalent plutôt que comme une référence spécialisée en développement logiciel. Sa date de coupure des connaissances, fixée au 31 août 2025, limite les usages portant sur des événements ou informations postérieurs. Il convient surtout aux usages de production sensibles au coût, avec longs contextes, classification, synthèse, raisonnement général et code courant.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).