OpenAI

GPT-5.2 Codex

GPT-5.2 Codex est un LLM propriétaire d’OpenAI, sorti le 14 janvier 2026 aux États-Unis, avec des poids non ouverts. Sa fiche le situe comme un modèle économique, facturé sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.

Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et par un positionnement solide à sa sortie, dans le top 8% des LLM de sa génération sur LiveBench: Global average. Les données disponibles reposent sur 7 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	14 janvier 2026
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	40.1	19ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	89,0 %	14ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	88,8 %	12ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	83,6 %	1ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	78,2 %	7ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	77,7 %	23ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	74,3 %	12ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	73,7 %	34ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	66,4 %	13ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	51,7 %	24ᵉ / 76	livebench	✅ Mesuré
LiveBench	74,3 %	17ᵉ / 38	llm-stats	n.d.
Terminal-Bench 2.0	64,0 %	17ᵉ / 48	llm-stats	Auto-déclaré
SWE-Bench Pro	56,4 %	18ᵉ / 34	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ GPT-5.2 Codex40.1

Grok Build 0.1 061639.8

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ GPT-5.2 Codex100 %

Nemotron Nano 9B v298 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1335	64ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	1,75 $	14 $	n.d.
OpenAI	1,75 $	14 $	0,175 $
artificialanalysis	1,75 $	14 $	0,1775 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,12 $
Latence moyenne par benchmark — Benchable	3 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. GPT-5.2 Codex affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations, aux connaissances générales et à l’éthique, où il apparaît dans le tout premier groupe des modèles testés. Son niveau reste également élevé en raisonnement et en mathématiques, deux catégories où il se place dans le haut du classement sans atteindre la première place. À sa sortie, son classement LiveBench le situait dans le haut du panier de sa génération, ce qui confirme un profil généraliste robuste. Son autre avantage concret tient au coût: le positionnement économique, inférieur à la moyenne des LLM comparables et environ 2,8 fois moins cher que les modèles frontière, renforce son intérêt pour des usages à volume élevé.

Limites et points d'attention. Les résultats sont moins marquants en Email Classification, où le modèle se situe davantage en milieu de tableau. Arena Code le place aussi loin des meilleurs systèmes spécialisés en code, malgré un score Elo établi, ce qui invite à ne pas le présenter comme une référence absolue sur cette dimension. L’Intelligence Index reste solide mais ne le place pas parmi les tout premiers modèles du classement global. La licence propriétaire limite l’audit indépendant des poids et l’auto-hébergement. Profil pertinent: applications généralistes nécessitant un grand contexte, de bons garde-fous mesurés et un coût contenu.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).