GPT-5.2 Codex

GPT-5.2 Codex est un LLM propriétaire d’OpenAI, sorti le 14 janvier 2026 aux États-Unis, avec des poids non ouverts. Sa fiche le situe comme un modèle économique, facturé sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.

GPT-5.2 Codex est un LLM propriétaire d’OpenAI, sorti le 14 janvier 2026 aux États-Unis, avec des poids non ouverts. Sa fiche le situe comme un modèle économique, facturé sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.

Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et par un positionnement solide à sa sortie, dans le top 8% des LLM de sa génération sur LiveBench: Global average. Les données disponibles reposent sur 7 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie14 janvier 2026
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index40.119ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)94,0 %38ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)89,0 %14ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics88,8 %12ᵉ / 76livebench✅ Mesuré
LiveBench: Coding83,6 %1ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis78,2 %7ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning77,7 %23ᵉ / 76livebench✅ Mesuré
LiveBench: Global average74,3 %12ᵉ / 76livebench✅ Mesuré
LiveBench: Language73,7 %34ᵉ / 76livebench✅ Mesuré
LiveBench: IF66,4 %13ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding51,7 %24ᵉ / 76livebench✅ Mesuré
LiveBench74,3 %17ᵉ / 38llm-statsn.d.
Terminal-Bench 2.064,0 %17ᵉ / 48llm-statsAuto-déclaré
SWE-Bench Pro56,4 %18ᵉ / 34llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
▶ GPT-5.2 Codex40.1
Grok Build 0.1 061639.8

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ GPT-5.2 Codex100 %
Nemotron Nano 9B v298 %

Classements Arena (Elo)

CatégorieEloRang
Arena Code133564ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai1,75 $14 $n.d.
OpenAI1,75 $14 $0,175 $
artificialanalysis1,75 $14 $0,1775 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,12 $
Latence moyenne par benchmark — Benchable3 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. GPT-5.2 Codex affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations, aux connaissances générales et à l’éthique, où il apparaît dans le tout premier groupe des modèles testés. Son niveau reste également élevé en raisonnement et en mathématiques, deux catégories où il se place dans le haut du classement sans atteindre la première place. À sa sortie, son classement LiveBench le situait dans le haut du panier de sa génération, ce qui confirme un profil généraliste robuste. Son autre avantage concret tient au coût: le positionnement économique, inférieur à la moyenne des LLM comparables et environ 2,8 fois moins cher que les modèles frontière, renforce son intérêt pour des usages à volume élevé.

Limites et points d'attention. Les résultats sont moins marquants en Email Classification, où le modèle se situe davantage en milieu de tableau. Arena Code le place aussi loin des meilleurs systèmes spécialisés en code, malgré un score Elo établi, ce qui invite à ne pas le présenter comme une référence absolue sur cette dimension. L’Intelligence Index reste solide mais ne le place pas parmi les tout premiers modèles du classement global. La licence propriétaire limite l’audit indépendant des poids et l’auto-hébergement. Profil pertinent: applications généralistes nécessitant un grand contexte, de bons garde-fous mesurés et un coût contenu.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).