GPT-5

GPT-5 est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et une fenêtre de contexte très large de 400 000 tokens. Le modèle s’inscrit dans une génération récente de grands modèles généralistes, avec des connaissances arrêtées au 30 septembre 2024.

GPT-5 est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et une fenêtre de contexte très large de 400 000 tokens. Le modèle s’inscrit dans une génération récente de grands modèles généralistes, avec des connaissances arrêtées au 30 septembre 2024.

Son positionnement combine un entraînement massif, évalué à 6,6 × 10²⁵ FLOP, soit environ 18,3 millions d’heures-GPU H100, et une tarification économique. Son prix est indiqué comme inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie7 août 2025
Connaissances jusqu'à2024-09-30
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index17.2109ᵉ / 136
Math Index31.742ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Epoch: MATH level 598,1 %1ᵉ / 84epoch✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)93,0 %58ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202591,4 %19ᵉ / 111epoch✅ Mesuré
Benchable : Instruction Following (Baseline)91,0 %12ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond86,2 %26ᵉ / 132epoch✅ Mesuré
Epoch: SWE-Bench verified73,6 %19ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public70,0 %11ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private55,4 %17ᵉ / 31epoch✅ Mesuré
Epoch: SimpleQA Verified50,6 %15ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles37,0 %10ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private32,4 %16ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private22,0 %17ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private12,5 %17ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
SWE-Lancer (IC-Diamond subset)100,0 %1ᵉ / 6llm-statsAuto-déclaré
COLLIE99,0 %1ᵉ / 10llm-statsAuto-déclaré
Tau2 Telecom96,7 %9ᵉ / 34llm-statsAuto-déclaré
OpenAI-MRCR: 2 needle 128k95,2 %1ᵉ / 8llm-statsAuto-déclaré
AIME 202594,6 %20ᵉ / 108llm-statsAuto-déclaré
HumanEval93,4 %4ᵉ / 65llm-statsAuto-déclaré
HMMT 202593,3 %12ᵉ / 33llm-statsAuto-déclaré
MMLU92,5 %1ᵉ / 98llm-statsAuto-déclaré
BrowseComp Long Context 128k90,0 %2ᵉ / 4llm-statsAuto-déclaré
Aider-Polyglot88,0 %1ᵉ / 22llm-statsAuto-déclaré
VideoMME w sub.86,7 %4ᵉ / 9llm-statsAuto-déclaré
GPQA85,7 %37ᵉ / 213llm-statsAuto-déclaré
MATH84,7 %13ᵉ / 70llm-statsAuto-déclaré
VideoMMMU84,6 %7ᵉ / 26llm-statsAuto-déclaré
MMMU84,2 %4ᵉ / 61llm-statsAuto-déclaré
CharXiv-R81,1 %14ᵉ / 42llm-statsAuto-déclaré
Tau2 Retail81,1 %7ᵉ / 25llm-statsAuto-déclaré
MMMU-Pro78,4 %15ᵉ / 60llm-statsAuto-déclaré
Graphwalks BFS <128k78,3 %3ᵉ / 10llm-statsAuto-déclaré
SWE-Bench Verified74,9 %31ᵉ / 100llm-statsAuto-déclaré
Graphwalks parents <128k73,3 %3ᵉ / 10llm-statsAuto-déclaré
Multi-Challenge69,6 %4ᵉ / 28llm-statsAuto-déclaré
ERQA65,7 %4ᵉ / 22llm-statsAuto-déclaré
Internal API instruction following (hard)64,0 %1ᵉ / 7llm-statsAuto-déclaré
Tau2 Airline62,6 %10ᵉ / 22llm-statsAuto-déclaré
BrowseComp54,9 %32ᵉ / 51llm-statsAuto-déclaré
FrontierMath26,3 %7ᵉ / 13llm-statsAuto-déclaré
Humanity's Last Exam24,8 %45ᵉ / 86llm-statsAuto-déclaré
HealthBench Hard1,6 %6ᵉ / 6llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Nova 2.0 Pro Preview21.8
▶ GPT-517.2
Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ GPT-531.7
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text143469ᵉ
Arena Code139443ᵉ
Arena Vision121153ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Azure1,25 $10 $0,125 $
artificialanalysis1,25 $10 $0,1275 $
artificialanalysis1,25 $10 $0,13 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,35 $
Latence moyenne par benchmark — Benchable10 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement6,6 × 10²⁵ FLOP
PaysUnited States of America

Notre analyse

Forces. GPT-5 se distingue surtout sur les évaluations de connaissances générales, d’éthique et de mathématiques avancées, où il apparaît dans le haut des classements disponibles. Sur Epoch: MATH level 5, il figure parmi les tout meilleurs modèles évalués, ce qui signale une forte capacité de résolution formelle. À sa sortie, il se situait aussi dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour replacer son niveau initial dans le contexte de 2025. Les résultats Benchable en raisonnement et en limitation des hallucinations sont également solides. Son tarif renforce son intérêt pratique, avec un positionnement économique et un coût annoncé environ 3,9 fois inférieur à celui des modèles frontière.

Limites et points d'attention. GPT-5 n’est pas un modèle ouvert, ce qui limite l’audit indépendant des poids, l’auto-hébergement et les adaptations profondes. Ses classements Arena en texte, code et vision restent moins dominants que ses meilleurs benchmarks académiques, ce qui suggère un écart entre performances mesurées et préférence utilisateur comparative. L’Intelligence Index le place aussi loin des tout premiers modèles du panel. Le modèle convient surtout aux usages généralistes à grand contexte, aux tâches de raisonnement et aux traitements où le coût par token compte fortement.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).