GPT-5.4 nano
GPT-5.4 nano est un LLM propriétaire d’OpenAI, sorti le 17 mars 2026, avec des connaissances arrêtées au 31 août 2025. Son positionnement est clair : un modèle très économique, facturé 90% sous la moyenne des LLM similaires et environ 24,2 fois moins cher que les modèles frontière.
GPT-5.4 nano est un LLM propriétaire d’OpenAI, sorti le 17 mars 2026, avec des connaissances arrêtées au 31 août 2025. Son positionnement est clair : un modèle très économique, facturé 90% sous la moyenne des LLM similaires et environ 24,2 fois moins cher que les modèles frontière.
Le modèle se distingue par une fenêtre de contexte de 400 000 tokens, nettement orientée vers les entrées volumineuses. Ses résultats publics le placent davantage comme un modèle compact et rentable que comme une référence générale de très haut niveau, avec un profil plus solide en mathématiques et en code qu’en performance agentique.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 mars 2026 |
| Connaissances jusqu'à | 2025-08-31 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 38.2 | 29ᵉ / 136 |
| Code Index | 56.1 | 19ᵉ / 50 |
| Agentic Index | 27.5 | 21ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 97,0 % | 195ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 96,0 % | 197ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 95,0 % | 186ᵉ / 250 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 91,3 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 87,8 % | 27ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Reasoning | 81,1 % | 16ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 78,5 % | 46ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 74,0 % | 163ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Coding | 72,1 % | 36ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 70,1 % | 25ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 69,0 % | 29ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Data Analysis | 67,6 % | 25ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 67,2 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 62,5 % | 58ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 61,0 % | 134ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 60,0 % | 12ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 49,1 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 44,9 % | 23ᵉ / 31 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 44,0 % | 199ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 39,5 % | 217ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: Chess Puzzles | 30,0 % | 14ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 25,9 % | 24ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 12,2 % | 21ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 12,0 % | 49ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 6,2 % | 23ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 92,5 % | 14ᵉ / 34 | llm-stats | Auto-déclaré |
| GPQA | 82,8 % | 56ᵉ / 213 | llm-stats | Auto-déclaré |
| OmniDocBench 1.5 | 75,8 % | 12ᵉ / 13 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 73,4 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| LiveBench | 70,1 % | 30ᵉ / 38 | llm-stats | n.d. |
| MMMU-Pro | 66,1 % | 35ᵉ / 60 | llm-stats | Auto-déclaré |
| MCP Atlas | 56,1 % | 26ᵉ / 27 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 52,4 % | 29ᵉ / 34 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 50,8 % | 8ᵉ / 10 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 46,3 % | 40ᵉ / 48 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 39,0 % | 17ᵉ / 17 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 38,2 % | 16ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 37,2 % | 24ᵉ / 33 | llm-stats | n.d. |
| Toolathlon | 35,5 % | 19ᵉ / 23 | llm-stats | Auto-déclaré |
| MRCR v2 (8-needle) | 33,1 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 24,3 % | 46ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1403 | 115ᵉ |
| Arena Vision | 1204 | 56ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Azure | 0,2 $ | 1,25 $ | 0,02 $ |
| openai | 0,2 $ | 1,25 $ | n.d. |
| artificialanalysis | 0,2 $ | 1,25 $ | 0,02 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 1,41 $ |
| Durée d'exécution — PinchBench | 3 h 57 min |
| Indice valeur/coût — PinchBench | 99,37 |
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 1 min 24 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. GPT-5.4 nano affiche son meilleur signal sur LiveBench: Mathematics (mathématiques), où il figure dans le top 10, et reste solide sur Epoch: OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée. Le Code Index le situe dans une zone compétitive parmi les modèles évalués, ce qui renforce son intérêt pour des tâches de programmation courantes à coût réduit. Sa grande fenêtre de contexte constitue aussi un atout concret pour analyser de longs documents ou de gros historiques textuels. Le tarif est l’un de ses arguments les plus nets : il appartient à une catégorie très économique, loin des coûts des modèles haut de gamme.
Limites et points d'attention. L’Intelligence Index place GPT-5.4 nano dans un rang intermédiaire, et l’Agentic Index indique des capacités plus limitées pour les tâches nécessitant planification, autonomie ou enchaînement d’actions. Les benchmarks Benchable affichent de bons pourcentages bruts, mais des classements souvent modestes, signe que ces tests ne suffisent pas à le distinguer nettement. À sa sortie, son résultat sur GPQA diamond le situait dans le top 44% des LLM de sa génération, un positionnement correct mais pas dominant. GPT-5.4 nano vise surtout les usages où le prix, le grand contexte et les mathématiques comptent davantage que la performance générale maximale.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).