GPT-5.2 Codex
GPT-5.2 Codex est un LLM propriétaire d’OpenAI, sorti le 14 janvier 2026 aux États-Unis, avec des poids non ouverts. Sa fiche le situe comme un modèle économique, facturé sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.
GPT-5.2 Codex est un LLM propriétaire d’OpenAI, sorti le 14 janvier 2026 aux États-Unis, avec des poids non ouverts. Sa fiche le situe comme un modèle économique, facturé sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.
Le modèle se distingue par une très grande fenêtre de contexte de 400 000 tokens et par un positionnement solide à sa sortie, dans le top 8% des LLM de sa génération sur LiveBench: Global average. Les données disponibles reposent sur 7 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 14 janvier 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 40.1 | 19ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 89,0 % | 14ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 88,8 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 83,6 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 78,2 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 77,7 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 74,3 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 73,7 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 66,4 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 51,7 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench | 74,3 % | 17ᵉ / 38 | llm-stats | n.d. |
| Terminal-Bench 2.0 | 64,0 % | 17ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 56,4 % | 18ᵉ / 34 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Hallucinations (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1335 | 64ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 1,75 $ | 14 $ | n.d. |
| OpenAI | 1,75 $ | 14 $ | 0,175 $ |
| artificialanalysis | 1,75 $ | 14 $ | 0,1775 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,12 $ |
| Latence moyenne par benchmark — Benchable | 3 min 59 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. GPT-5.2 Codex affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations, aux connaissances générales et à l’éthique, où il apparaît dans le tout premier groupe des modèles testés. Son niveau reste également élevé en raisonnement et en mathématiques, deux catégories où il se place dans le haut du classement sans atteindre la première place. À sa sortie, son classement LiveBench le situait dans le haut du panier de sa génération, ce qui confirme un profil généraliste robuste. Son autre avantage concret tient au coût: le positionnement économique, inférieur à la moyenne des LLM comparables et environ 2,8 fois moins cher que les modèles frontière, renforce son intérêt pour des usages à volume élevé.
Limites et points d'attention. Les résultats sont moins marquants en Email Classification, où le modèle se situe davantage en milieu de tableau. Arena Code le place aussi loin des meilleurs systèmes spécialisés en code, malgré un score Elo établi, ce qui invite à ne pas le présenter comme une référence absolue sur cette dimension. L’Intelligence Index reste solide mais ne le place pas parmi les tout premiers modèles du classement global. La licence propriétaire limite l’audit indépendant des poids et l’auto-hébergement. Profil pertinent: applications généralistes nécessitant un grand contexte, de bons garde-fous mesurés et un coût contenu.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).