GPT-5.2

GPT-5.2 est un LLM propriétaire d’OpenAI, publié le 11 décembre 2025, avec des poids non ouverts et des connaissances arrêtées au 25 août 2025. Il se distingue surtout par une très grande fenêtre de contexte de 400 000 tokens, un positionnement tarifaire économique et une performance de…

GPT-5.2 est un LLM propriétaire d’OpenAI, publié le 11 décembre 2025, avec des poids non ouverts et des connaissances arrêtées au 25 août 2025. Il se distingue surtout par une très grande fenêtre de contexte de 400 000 tokens, un positionnement tarifaire économique et une performance de lancement située dans le top 3% de sa génération sur Epoch: GPQA diamond.

Le modèle combine un profil généraliste solide, des résultats particulièrement élevés en mathématiques et de bons scores sur plusieurs évaluations Benchable de base. Son prix se place 10% sous la moyenne des LLM similaires et environ 2,8 fois sous celui des modèles frontière, ce qui en fait une option orientée coût maîtrisé.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie11 décembre 2025
Connaissances jusqu'à2025-08-25
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index38.032ᵉ / 136
Math Index96.73ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202596,1 %8ᵉ / 111epoch✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
LiveBench: Mathematics93,2 %5ᵉ / 76livebench✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Epoch: GPQA diamond91,4 %10ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)86,0 %23ᵉ / 252benchable✅ Mesuré
LiveBench: Reasoning83,2 %11ᵉ / 76livebench✅ Mesuré
LiveBench: Language79,8 %12ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis78,2 %8ᵉ / 76livebench✅ Mesuré
LiveBench: Coding76,1 %20ᵉ / 76livebench✅ Mesuré
Benchable : Reasoning (Baseline)76,0 %131ᵉ / 239benchable✅ Mesuré
LiveBench: Global average74,8 %11ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified73,8 %17ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private67,4 %9ᵉ / 31epoch✅ Mesuré
LiveBench: IF61,8 %29ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public60,0 %12ᵉ / 64epoch✅ Mesuré
LiveBench: Agentic Coding51,7 %24ᵉ / 76livebench✅ Mesuré
Epoch: Chess Puzzles49,0 %6ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private40,7 %7ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified38,9 %27ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private31,7 %11ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private18,8 %10ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 2025100,0 %1ᵉ / 108llm-statsAuto-déclaré
HMMT 202599,4 %2ᵉ / 33llm-statsAuto-déclaré
Tau2 Telecom98,7 %4ᵉ / 34llm-statsAuto-déclaré
Graphwalks BFS <128k94,0 %1ᵉ / 10llm-statsAuto-déclaré
GPQA92,4 %8ᵉ / 213llm-statsAuto-déclaré
BrowseComp Long Context 128k92,0 %1ᵉ / 4llm-statsAuto-déclaré
MMMLU89,6 %9ᵉ / 49llm-statsAuto-déclaré
Graphwalks parents <128k89,0 %2ᵉ / 10llm-statsAuto-déclaré
ScreenSpot Pro86,3 %2ᵉ / 23llm-statsAuto-déclaré
ARC-AGI86,2 %5ᵉ / 7llm-statsAuto-déclaré
VideoMMMU85,9 %4ᵉ / 26llm-statsAuto-déclaré
CharXiv-R82,1 %10ᵉ / 42llm-statsAuto-déclaré
Tau2 Retail82,0 %6ᵉ / 25llm-statsAuto-déclaré
SWE-Bench Verified80,0 %13ᵉ / 100llm-statsAuto-déclaré
MMMU-Pro79,5 %11ᵉ / 60llm-statsAuto-déclaré
LiveBench74,8 %16ᵉ / 38llm-statsn.d.
SWE-Lancer (IC-Diamond subset)74,6 %3ᵉ / 6llm-statsAuto-déclaré
BrowseComp65,8 %24ᵉ / 51llm-statsAuto-déclaré
MCP Atlas60,6 %23ᵉ / 27llm-statsAuto-déclaré
ARC-AGI v252,9 %8ᵉ / 16llm-statsAuto-déclaré
Toolathlon46,3 %12ᵉ / 23llm-statsAuto-déclaré
FrontierMath40,3 %2ᵉ / 13llm-statsAuto-déclaré
Humanity's Last Exam34,5 %36ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Grok Build 0.1 061639.8
▶ GPT-5.238.0
Nemotron 3 Ultra 550B A…37.8

Math Index

gemini-3-flash97.0
▶ GPT-5.296.7
DeepSeek V3.292.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text143763ᵉ
Arena Text143567ᵉ
Arena Document140526ᵉ
Arena Code140539ᵉ
Arena Document140129ᵉ
Arena Vision124432ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai1,75 $14 $n.d.
OpenAI1,75 $14 $0,175 $
artificialanalysis1,75 $14 $0,9625 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,18 $
Latence moyenne par benchmark — Benchable3 min 00 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. GPT-5.2 ressort très nettement sur les tâches de mathématiques: son Math Index le place dans le top 10, et Epoch: OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) confirme ce niveau élevé. Les évaluations Benchable en Hallucinations, General Knowledge et Ethics le classent aussi parmi les meilleurs modèles mesurés, signe d’un comportement très robuste sur ces tests de référence. Le benchmark Coding le situe près du haut du tableau, sans atteindre les tout premiers rangs. Sa fenêtre de contexte de 400 000 tokens constitue un atout concret pour les dossiers longs, les corpus volumineux et les analyses nécessitant beaucoup de contexte.

Limites et points d’attention. L’Intelligence Index place GPT-5.2 dans un rang honorable mais pas dominant, loin de ses performances les plus fortes en mathématiques. Les classements Arena text sont plus modestes, tandis que l’Arena document est meilleur sans atteindre les toutes premières places. L’Email Classification affiche un score élevé, mais son rang montre que la concurrence est dense sur cette tâche. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 25 août 2025. Profil d’usage: LLM économique pour raisonnement mathématique, connaissances générales, codage de base à avancé et traitement de longs contextes, lorsque le coût compte autant que la performance.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).