GPT-5
GPT-5 est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et une fenêtre de contexte très large de 400 000 tokens. Le modèle s’inscrit dans une génération récente de grands modèles généralistes, avec des connaissances arrêtées au 30 septembre 2024.
GPT-5 est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et une fenêtre de contexte très large de 400 000 tokens. Le modèle s’inscrit dans une génération récente de grands modèles généralistes, avec des connaissances arrêtées au 30 septembre 2024.
Son positionnement combine un entraînement massif, évalué à 6,6 × 10²⁵ FLOP, soit environ 18,3 millions d’heures-GPU H100, et une tarification économique. Son prix est indiqué comme inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 7 août 2025 |
| Connaissances jusqu'à | 2024-09-30 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 17.2 | 109ᵉ / 136 |
| Math Index | 31.7 | 42ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 98,1 % | 1ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,0 % | 92ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 91,4 % | 19ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 91,0 % | 12ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 86,2 % | 26ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SWE-Bench verified | 73,6 % | 19ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 70,0 % | 11ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 55,4 % | 17ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 50,6 % | 15ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 37,0 % | 10ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 32,4 % | 16ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 22,0 % | 17ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 12,5 % | 17ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| SWE-Lancer (IC-Diamond subset) | 100,0 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| COLLIE | 99,0 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 96,7 % | 9ᵉ / 34 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| AIME 2025 | 94,6 % | 20ᵉ / 108 | llm-stats | Auto-déclaré |
| HumanEval | 93,4 % | 4ᵉ / 65 | llm-stats | Auto-déclaré |
| HMMT 2025 | 93,3 % | 12ᵉ / 33 | llm-stats | Auto-déclaré |
| MMLU | 92,5 % | 1ᵉ / 98 | llm-stats | Auto-déclaré |
| BrowseComp Long Context 128k | 90,0 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 88,0 % | 1ᵉ / 22 | llm-stats | Auto-déclaré |
| VideoMME w sub. | 86,7 % | 4ᵉ / 9 | llm-stats | Auto-déclaré |
| GPQA | 85,7 % | 37ᵉ / 213 | llm-stats | Auto-déclaré |
| MATH | 84,7 % | 13ᵉ / 70 | llm-stats | Auto-déclaré |
| VideoMMMU | 84,6 % | 7ᵉ / 26 | llm-stats | Auto-déclaré |
| MMMU | 84,2 % | 4ᵉ / 61 | llm-stats | Auto-déclaré |
| CharXiv-R | 81,1 % | 14ᵉ / 42 | llm-stats | Auto-déclaré |
| Tau2 Retail | 81,1 % | 7ᵉ / 25 | llm-stats | Auto-déclaré |
| MMMU-Pro | 78,4 % | 15ᵉ / 60 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 78,3 % | 3ᵉ / 10 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 74,9 % | 31ᵉ / 100 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 73,3 % | 3ᵉ / 10 | llm-stats | Auto-déclaré |
| Multi-Challenge | 69,6 % | 4ᵉ / 28 | llm-stats | Auto-déclaré |
| ERQA | 65,7 % | 4ᵉ / 22 | llm-stats | Auto-déclaré |
| Internal API instruction following (hard) | 64,0 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| Tau2 Airline | 62,6 % | 10ᵉ / 22 | llm-stats | Auto-déclaré |
| BrowseComp | 54,9 % | 32ᵉ / 51 | llm-stats | Auto-déclaré |
| FrontierMath | 26,3 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 24,8 % | 45ᵉ / 86 | llm-stats | Auto-déclaré |
| HealthBench Hard | 1,6 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1434 | 69ᵉ |
| Arena Code | 1394 | 43ᵉ |
| Arena Vision | 1211 | 53ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Azure | 1,25 $ | 10 $ | 0,125 $ |
| artificialanalysis | 1,25 $ | 10 $ | 0,1275 $ |
| artificialanalysis | 1,25 $ | 10 $ | 0,13 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,35 $ |
| Latence moyenne par benchmark — Benchable | 10 min 56 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 6,6 × 10²⁵ FLOP |
| Pays | United States of America |
Notre analyse
Forces. GPT-5 se distingue surtout sur les évaluations de connaissances générales, d’éthique et de mathématiques avancées, où il apparaît dans le haut des classements disponibles. Sur Epoch: MATH level 5, il figure parmi les tout meilleurs modèles évalués, ce qui signale une forte capacité de résolution formelle. À sa sortie, il se situait aussi dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour replacer son niveau initial dans le contexte de 2025. Les résultats Benchable en raisonnement et en limitation des hallucinations sont également solides. Son tarif renforce son intérêt pratique, avec un positionnement économique et un coût annoncé environ 3,9 fois inférieur à celui des modèles frontière.
Limites et points d'attention. GPT-5 n’est pas un modèle ouvert, ce qui limite l’audit indépendant des poids, l’auto-hébergement et les adaptations profondes. Ses classements Arena en texte, code et vision restent moins dominants que ses meilleurs benchmarks académiques, ce qui suggère un écart entre performances mesurées et préférence utilisateur comparative. L’Intelligence Index le place aussi loin des tout premiers modèles du panel. Le modèle convient surtout aux usages généralistes à grand contexte, aux tâches de raisonnement et aux traitements où le coût par token compte fortement.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).