GPT-5.3 Codex

GPT-5.3 Codex est un LLM propriétaire d’OpenAI, sorti le 5 février 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et un positionnement marqué sur les usages de code, tout en conservant un niveau élevé sur les tâches…

GPT-5.3 Codex est un LLM propriétaire d’OpenAI, sorti le 5 février 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et un positionnement marqué sur les usages de code, tout en conservant un niveau élevé sur les tâches généralistes.

À sa sortie, GPT-5.3 Codex se situait dans le top 16% des LLM de sa génération sur LiveBench: Global average. Son tarif est classé économique, environ 10% sous la moyenne des LLM similaires et près de 2,8 fois inférieur à celui des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie5 février 2026
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index44.311ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)88,0 %16ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics87,8 %14ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning80,2 %18ᵉ / 76livebench✅ Mesuré
LiveBench: Language80,1 %11ᵉ / 76livebench✅ Mesuré
LiveBench: Coding78,2 %13ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified74,8 %15ᵉ / 32epoch✅ Mesuré
LiveBench: Global average72,8 %17ᵉ / 76livebench✅ Mesuré
LiveBench: IF65,4 %15ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis62,7 %31ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding55,0 %15ᵉ / 76livebench✅ Mesuré
SWE-Lancer (IC-Diamond subset)81,4 %2ᵉ / 6llm-statsAuto-déclaré
Cybersecurity CTFs77,6 %1ᵉ / 3llm-statsAuto-déclaré
Terminal-Bench 2.077,3 %3ᵉ / 48llm-statsAuto-déclaré
LiveBench72,8 %23ᵉ / 38llm-statsn.d.
OSWorld-Verified64,7 %12ᵉ / 17llm-statsAuto-déclaré
SWE-Bench Pro56,8 %16ᵉ / 34llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
▶ GPT-5.3 Codex44.3
Grok Build 0.1 061639.8

Benchable : General Knowledge (Baseline)

GPT-5100 %
qwen3-235b-a22b-04-28100 %
▶ GPT-5.3 Codex100 %

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code144114ᵉ
Arena Code140738ᵉ
Arena Code137253ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai1,75 $14 $n.d.
OpenAI1,75 $14 $0,175 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,19 $
Latence moyenne par benchmark — Benchable4 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. GPT-5.3 Codex obtient un résultat de tout premier plan sur Benchable : General Knowledge (Baseline), ce qui indique une forte couverture des connaissances générales dans ce protocole. Son Intelligence Index le place dans le haut du classement, avec un rang proche des meilleurs modèles suivis. Les performances en Coding (Baseline) et en Reasoning (Baseline) sont également solides, ce qui confirme un profil adapté aux tâches de programmation et de raisonnement structuré. Les classements Arena montrent aussi une présence compétitive en image-to-code et en code, même si le modèle n’y occupe pas les toutes premières places. La fenêtre de contexte de 400 000 tokens constitue un atout concret pour traiter de longs dépôts, de vastes documents techniques ou des historiques étendus.

Limites et points d'attention. Les résultats Benchable en Ethics (Baseline), Hallucinations (Baseline) et Email Classification (Baseline) restent élevés en score brut, mais leurs rangs relatifs sont moins favorables que ceux obtenus en connaissance générale ou en code. Le modèle apparaît donc plus convaincant sur les tâches techniques et générales que sur certains classements applicatifs ou d’alignement. Sa licence propriétaire limite l’audit indépendant des poids et les déploiements nécessitant un contrôle complet de l’infrastructure. GPT-5.3 Codex convient surtout aux usages de développement logiciel, d’analyse de code, de raisonnement technique et de traitement de longs contextes, avec un coût inférieur à celui des modèles haut de gamme.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).