GPT-5.3 Codex
GPT-5.3 Codex est un LLM propriétaire d’OpenAI, sorti le 5 février 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et un positionnement marqué sur les usages de code, tout en conservant un niveau élevé sur les tâches…
GPT-5.3 Codex est un LLM propriétaire d’OpenAI, sorti le 5 février 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et un positionnement marqué sur les usages de code, tout en conservant un niveau élevé sur les tâches généralistes.
À sa sortie, GPT-5.3 Codex se situait dans le top 16% des LLM de sa génération sur LiveBench: Global average. Son tarif est classé économique, environ 10% sous la moyenne des LLM similaires et près de 2,8 fois inférieur à celui des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 5 février 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 44.3 | 11ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 88,0 % | 16ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 87,8 % | 14ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 80,2 % | 18ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 80,1 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 78,2 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 74,8 % | 15ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Global average | 72,8 % | 17ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 65,4 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 62,7 % | 31ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 55,0 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| SWE-Lancer (IC-Diamond subset) | 81,4 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| Cybersecurity CTFs | 77,6 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 77,3 % | 3ᵉ / 48 | llm-stats | Auto-déclaré |
| LiveBench | 72,8 % | 23ᵉ / 38 | llm-stats | n.d. |
| OSWorld-Verified | 64,7 % | 12ᵉ / 17 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 56,8 % | 16ᵉ / 34 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : General Knowledge (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1441 | 14ᵉ |
| Arena Code | 1407 | 38ᵉ |
| Arena Code | 1372 | 53ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 1,75 $ | 14 $ | n.d. |
| OpenAI | 1,75 $ | 14 $ | 0,175 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,19 $ |
| Latence moyenne par benchmark — Benchable | 4 min 19 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. GPT-5.3 Codex obtient un résultat de tout premier plan sur Benchable : General Knowledge (Baseline), ce qui indique une forte couverture des connaissances générales dans ce protocole. Son Intelligence Index le place dans le haut du classement, avec un rang proche des meilleurs modèles suivis. Les performances en Coding (Baseline) et en Reasoning (Baseline) sont également solides, ce qui confirme un profil adapté aux tâches de programmation et de raisonnement structuré. Les classements Arena montrent aussi une présence compétitive en image-to-code et en code, même si le modèle n’y occupe pas les toutes premières places. La fenêtre de contexte de 400 000 tokens constitue un atout concret pour traiter de longs dépôts, de vastes documents techniques ou des historiques étendus.
Limites et points d'attention. Les résultats Benchable en Ethics (Baseline), Hallucinations (Baseline) et Email Classification (Baseline) restent élevés en score brut, mais leurs rangs relatifs sont moins favorables que ceux obtenus en connaissance générale ou en code. Le modèle apparaît donc plus convaincant sur les tâches techniques et générales que sur certains classements applicatifs ou d’alignement. Sa licence propriétaire limite l’audit indépendant des poids et les déploiements nécessitant un contrôle complet de l’infrastructure. GPT-5.3 Codex convient surtout aux usages de développement logiciel, d’analyse de code, de raisonnement technique et de traitement de longs contextes, avec un coût inférieur à celui des modèles haut de gamme.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).