OpenAI

GPT-5.2

GPT-5.2 est un LLM propriétaire d’OpenAI, publié le 11 décembre 2025, avec des poids non ouverts et des connaissances arrêtées au 25 août 2025. Il se distingue surtout par une très grande fenêtre de contexte de 400 000 tokens, un positionnement tarifaire économique et une performance de…

Le modèle combine un profil généraliste solide, des résultats particulièrement élevés en mathématiques et de bons scores sur plusieurs évaluations Benchable de base. Son prix se place 10% sous la moyenne des LLM similaires et environ 2,8 fois sous celui des modèles frontière, ce qui en fait une option orientée coût maîtrisé.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	11 décembre 2025
Connaissances jusqu'à	2025-08-25
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	38.0	32ᵉ / 136
Math Index	96.7	3ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	96,1 %	8ᵉ / 111	epoch	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
LiveBench: Mathematics	93,2 %	5ᵉ / 76	livebench	✅ Mesuré
Benchable : Mathematics (Baseline)	92,0 %	92ᵉ / 217	benchable	✅ Mesuré
Epoch: GPQA diamond	91,4 %	10ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	86,0 %	23ᵉ / 252	benchable	✅ Mesuré
LiveBench: Reasoning	83,2 %	11ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	79,8 %	12ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	78,2 %	8ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	76,1 %	20ᵉ / 76	livebench	✅ Mesuré
Benchable : Reasoning (Baseline)	76,0 %	131ᵉ / 239	benchable	✅ Mesuré
LiveBench: Global average	74,8 %	11ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	73,8 %	17ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	67,4 %	9ᵉ / 31	epoch	✅ Mesuré
LiveBench: IF	61,8 %	29ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	60,0 %	12ᵉ / 64	epoch	✅ Mesuré
LiveBench: Agentic Coding	51,7 %	24ᵉ / 76	livebench	✅ Mesuré
Epoch: Chess Puzzles	49,0 %	6ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	40,7 %	7ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	38,9 %	27ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	31,7 %	11ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	18,8 %	10ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2025	100,0 %	1ᵉ / 108	llm-stats	Auto-déclaré
HMMT 2025	99,4 %	2ᵉ / 33	llm-stats	Auto-déclaré
Tau2 Telecom	98,7 %	4ᵉ / 34	llm-stats	Auto-déclaré
Graphwalks BFS <128k	94,0 %	1ᵉ / 10	llm-stats	Auto-déclaré
GPQA	92,4 %	8ᵉ / 213	llm-stats	Auto-déclaré
BrowseComp Long Context 128k	92,0 %	1ᵉ / 4	llm-stats	Auto-déclaré
MMMLU	89,6 %	9ᵉ / 49	llm-stats	Auto-déclaré
Graphwalks parents <128k	89,0 %	2ᵉ / 10	llm-stats	Auto-déclaré
ScreenSpot Pro	86,3 %	2ᵉ / 23	llm-stats	Auto-déclaré
ARC-AGI	86,2 %	5ᵉ / 7	llm-stats	Auto-déclaré
VideoMMMU	85,9 %	4ᵉ / 26	llm-stats	Auto-déclaré
CharXiv-R	82,1 %	10ᵉ / 42	llm-stats	Auto-déclaré
Tau2 Retail	82,0 %	6ᵉ / 25	llm-stats	Auto-déclaré
SWE-Bench Verified	80,0 %	13ᵉ / 100	llm-stats	Auto-déclaré
MMMU-Pro	79,5 %	11ᵉ / 60	llm-stats	Auto-déclaré
LiveBench	74,8 %	16ᵉ / 38	llm-stats	n.d.
SWE-Lancer (IC-Diamond subset)	74,6 %	3ᵉ / 6	llm-stats	Auto-déclaré
BrowseComp	65,8 %	24ᵉ / 51	llm-stats	Auto-déclaré
MCP Atlas	60,6 %	23ᵉ / 27	llm-stats	Auto-déclaré
ARC-AGI v2	52,9 %	8ᵉ / 16	llm-stats	Auto-déclaré
Toolathlon	46,3 %	12ᵉ / 23	llm-stats	Auto-déclaré
FrontierMath	40,3 %	2ᵉ / 13	llm-stats	Auto-déclaré
Humanity's Last Exam	34,5 %	36ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ GPT-5.238.0

Nemotron 3 Ultra 550B A…37.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

▶ GPT-5.296.7

DeepSeek V3.292.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1437	63ᵉ
Arena Text	1435	67ᵉ
Arena Document	1405	26ᵉ
Arena Code	1405	39ᵉ
Arena Document	1401	29ᵉ
Arena Vision	1244	32ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	1,75 $	14 $	n.d.
OpenAI	1,75 $	14 $	0,175 $
artificialanalysis	1,75 $	14 $	0,9625 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,18 $
Latence moyenne par benchmark — Benchable	3 min 00 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	United States of America

Notre analyse

Forces. GPT-5.2 ressort très nettement sur les tâches de mathématiques: son Math Index le place dans le top 10, et Epoch: OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) confirme ce niveau élevé. Les évaluations Benchable en Hallucinations, General Knowledge et Ethics le classent aussi parmi les meilleurs modèles mesurés, signe d’un comportement très robuste sur ces tests de référence. Le benchmark Coding le situe près du haut du tableau, sans atteindre les tout premiers rangs. Sa fenêtre de contexte de 400 000 tokens constitue un atout concret pour les dossiers longs, les corpus volumineux et les analyses nécessitant beaucoup de contexte.

Limites et points d’attention. L’Intelligence Index place GPT-5.2 dans un rang honorable mais pas dominant, loin de ses performances les plus fortes en mathématiques. Les classements Arena text sont plus modestes, tandis que l’Arena document est meilleur sans atteindre les toutes premières places. L’Email Classification affiche un score élevé, mais son rang montre que la concurrence est dense sur cette tâche. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 25 août 2025. Profil d’usage: LLM économique pour raisonnement mathématique, connaissances générales, codage de base à avancé et traitement de longs contextes, lorsque le coût compte autant que la performance.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).