OpenAI

GPT-5.3 Codex

GPT-5.3 Codex est un LLM propriétaire d’OpenAI, sorti le 5 février 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et un positionnement marqué sur les usages de code, tout en conservant un niveau élevé sur les tâches…

À sa sortie, GPT-5.3 Codex se situait dans le top 16% des LLM de sa génération sur LiveBench: Global average. Son tarif est classé économique, environ 10% sous la moyenne des LLM similaires et près de 2,8 fois inférieur à celui des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	5 février 2026
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	44.3	11ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	88,0 %	16ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	87,8 %	14ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	80,2 %	18ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	80,1 %	11ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	78,2 %	13ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	74,8 %	15ᵉ / 32	epoch	✅ Mesuré
LiveBench: Global average	72,8 %	17ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	65,4 %	15ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	62,7 %	31ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	55,0 %	15ᵉ / 76	livebench	✅ Mesuré
SWE-Lancer (IC-Diamond subset)	81,4 %	2ᵉ / 6	llm-stats	Auto-déclaré
Cybersecurity CTFs	77,6 %	1ᵉ / 3	llm-stats	Auto-déclaré
Terminal-Bench 2.0	77,3 %	3ᵉ / 48	llm-stats	Auto-déclaré
LiveBench	72,8 %	23ᵉ / 38	llm-stats	n.d.
OSWorld-Verified	64,7 %	12ᵉ / 17	llm-stats	Auto-déclaré
SWE-Bench Pro	56,8 %	16ᵉ / 34	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ GPT-5.3 Codex44.3

Grok Build 0.1 061639.8

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ GPT-5.3 Codex100 %

DeepSeek R1 Distill Lla…100 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1441	14ᵉ
Arena Code	1407	38ᵉ
Arena Code	1372	53ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	1,75 $	14 $	n.d.
OpenAI	1,75 $	14 $	0,175 $

Prix en dollars US par million de tokens.

Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,19 $
Latence moyenne par benchmark — Benchable	4 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	United States of America

Notre analyse

Forces. GPT-5.3 Codex obtient un résultat de tout premier plan sur Benchable : General Knowledge (Baseline), ce qui indique une forte couverture des connaissances générales dans ce protocole. Son Intelligence Index le place dans le haut du classement, avec un rang proche des meilleurs modèles suivis. Les performances en Coding (Baseline) et en Reasoning (Baseline) sont également solides, ce qui confirme un profil adapté aux tâches de programmation et de raisonnement structuré. Les classements Arena montrent aussi une présence compétitive en image-to-code et en code, même si le modèle n’y occupe pas les toutes premières places. La fenêtre de contexte de 400 000 tokens constitue un atout concret pour traiter de longs dépôts, de vastes documents techniques ou des historiques étendus.

Limites et points d'attention. Les résultats Benchable en Ethics (Baseline), Hallucinations (Baseline) et Email Classification (Baseline) restent élevés en score brut, mais leurs rangs relatifs sont moins favorables que ceux obtenus en connaissance générale ou en code. Le modèle apparaît donc plus convaincant sur les tâches techniques et générales que sur certains classements applicatifs ou d’alignement. Sa licence propriétaire limite l’audit indépendant des poids et les déploiements nécessitant un contrôle complet de l’infrastructure. GPT-5.3 Codex convient surtout aux usages de développement logiciel, d’analyse de code, de raisonnement technique et de traitement de longs contextes, avec un coût inférieur à celui des modèles haut de gamme.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).