OpenAI

GPT-5

GPT-5 est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et une fenêtre de contexte très large de 400 000 tokens. Le modèle s’inscrit dans une génération récente de grands modèles généralistes, avec des connaissances arrêtées au 30 septembre 2024.

Son positionnement combine un entraînement massif, évalué à 6,6 × 10²⁵ FLOP, soit environ 18,3 millions d’heures-GPU H100, et une tarification économique. Son prix est indiqué comme inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	7 août 2025
Connaissances jusqu'à	2024-09-30
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	17.2	109ᵉ / 136
Math Index	31.7	42ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Epoch: MATH level 5	98,1 %	1ᵉ / 84	epoch	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,0 %	92ᵉ / 217	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	91,4 %	19ᵉ / 111	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	91,0 %	12ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	86,2 %	26ᵉ / 132	epoch	✅ Mesuré
Epoch: SWE-Bench verified	73,6 %	19ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	70,0 %	11ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	55,4 %	17ᵉ / 31	epoch	✅ Mesuré
Epoch: SimpleQA Verified	50,6 %	15ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	37,0 %	10ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	32,4 %	16ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	22,0 %	17ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	12,5 %	17ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
SWE-Lancer (IC-Diamond subset)	100,0 %	1ᵉ / 6	llm-stats	Auto-déclaré
COLLIE	99,0 %	1ᵉ / 10	llm-stats	Auto-déclaré
Tau2 Telecom	96,7 %	9ᵉ / 34	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	95,2 %	1ᵉ / 8	llm-stats	Auto-déclaré
AIME 2025	94,6 %	20ᵉ / 108	llm-stats	Auto-déclaré
HumanEval	93,4 %	4ᵉ / 65	llm-stats	Auto-déclaré
HMMT 2025	93,3 %	12ᵉ / 33	llm-stats	Auto-déclaré
MMLU	92,5 %	1ᵉ / 98	llm-stats	Auto-déclaré
BrowseComp Long Context 128k	90,0 %	2ᵉ / 4	llm-stats	Auto-déclaré
Aider-Polyglot	88,0 %	1ᵉ / 22	llm-stats	Auto-déclaré
VideoMME w sub.	86,7 %	4ᵉ / 9	llm-stats	Auto-déclaré
GPQA	85,7 %	37ᵉ / 213	llm-stats	Auto-déclaré
MATH	84,7 %	13ᵉ / 70	llm-stats	Auto-déclaré
VideoMMMU	84,6 %	7ᵉ / 26	llm-stats	Auto-déclaré
MMMU	84,2 %	4ᵉ / 61	llm-stats	Auto-déclaré
CharXiv-R	81,1 %	14ᵉ / 42	llm-stats	Auto-déclaré
Tau2 Retail	81,1 %	7ᵉ / 25	llm-stats	Auto-déclaré
MMMU-Pro	78,4 %	15ᵉ / 60	llm-stats	Auto-déclaré
Graphwalks BFS <128k	78,3 %	3ᵉ / 10	llm-stats	Auto-déclaré
SWE-Bench Verified	74,9 %	31ᵉ / 100	llm-stats	Auto-déclaré
Graphwalks parents <128k	73,3 %	3ᵉ / 10	llm-stats	Auto-déclaré
Multi-Challenge	69,6 %	4ᵉ / 28	llm-stats	Auto-déclaré
ERQA	65,7 %	4ᵉ / 22	llm-stats	Auto-déclaré
Internal API instruction following (hard)	64,0 %	1ᵉ / 7	llm-stats	Auto-déclaré
Tau2 Airline	62,6 %	10ᵉ / 22	llm-stats	Auto-déclaré
BrowseComp	54,9 %	32ᵉ / 51	llm-stats	Auto-déclaré
FrontierMath	26,3 %	7ᵉ / 13	llm-stats	Auto-déclaré
Humanity's Last Exam	24,8 %	45ᵉ / 86	llm-stats	Auto-déclaré
HealthBench Hard	1,6 %	6ᵉ / 6	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ GPT-517.2

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ GPT-531.7

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1434	69ᵉ
Arena Code	1394	43ᵉ
Arena Vision	1211	53ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Azure	1,25 $	10 $	0,125 $
artificialanalysis	1,25 $	10 $	0,1275 $
artificialanalysis	1,25 $	10 $	0,13 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,35 $
Latence moyenne par benchmark — Benchable	10 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	6,6 × 10²⁵ FLOP
Pays	United States of America

Notre analyse

Forces. GPT-5 se distingue surtout sur les évaluations de connaissances générales, d’éthique et de mathématiques avancées, où il apparaît dans le haut des classements disponibles. Sur Epoch: MATH level 5, il figure parmi les tout meilleurs modèles évalués, ce qui signale une forte capacité de résolution formelle. À sa sortie, il se situait aussi dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour replacer son niveau initial dans le contexte de 2025. Les résultats Benchable en raisonnement et en limitation des hallucinations sont également solides. Son tarif renforce son intérêt pratique, avec un positionnement économique et un coût annoncé environ 3,9 fois inférieur à celui des modèles frontière.

Limites et points d'attention. GPT-5 n’est pas un modèle ouvert, ce qui limite l’audit indépendant des poids, l’auto-hébergement et les adaptations profondes. Ses classements Arena en texte, code et vision restent moins dominants que ses meilleurs benchmarks académiques, ce qui suggère un écart entre performances mesurées et préférence utilisateur comparative. L’Intelligence Index le place aussi loin des tout premiers modèles du panel. Le modèle convient surtout aux usages généralistes à grand contexte, aux tâches de raisonnement et aux traitements où le coût par token compte fortement.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).