GPT-5.2
GPT-5.2 est un LLM propriétaire d’OpenAI, publié le 11 décembre 2025, avec des poids non ouverts et des connaissances arrêtées au 25 août 2025. Il se distingue surtout par une très grande fenêtre de contexte de 400 000 tokens, un positionnement tarifaire économique et une performance de…
GPT-5.2 est un LLM propriétaire d’OpenAI, publié le 11 décembre 2025, avec des poids non ouverts et des connaissances arrêtées au 25 août 2025. Il se distingue surtout par une très grande fenêtre de contexte de 400 000 tokens, un positionnement tarifaire économique et une performance de lancement située dans le top 3% de sa génération sur Epoch: GPQA diamond.
Le modèle combine un profil généraliste solide, des résultats particulièrement élevés en mathématiques et de bons scores sur plusieurs évaluations Benchable de base. Son prix se place 10% sous la moyenne des LLM similaires et environ 2,8 fois sous celui des modèles frontière, ce qui en fait une option orientée coût maîtrisé.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 11 décembre 2025 |
| Connaissances jusqu'à | 2025-08-25 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 38.0 | 32ᵉ / 136 |
| Math Index | 96.7 | 3ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 96,1 % | 8ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 93,2 % | 5ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,0 % | 92ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 91,4 % | 10ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 86,0 % | 23ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 83,2 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 79,8 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 78,2 % | 8ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 76,1 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 76,0 % | 131ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Global average | 74,8 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 73,8 % | 17ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 67,4 % | 9ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: IF | 61,8 % | 29ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 60,0 % | 12ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 51,7 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: Chess Puzzles | 49,0 % | 6ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 40,7 % | 7ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 38,9 % | 27ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 31,7 % | 11ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 18,8 % | 10ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 100,0 % | 1ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT 2025 | 99,4 % | 2ᵉ / 33 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 98,7 % | 4ᵉ / 34 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 94,0 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| GPQA | 92,4 % | 8ᵉ / 213 | llm-stats | Auto-déclaré |
| BrowseComp Long Context 128k | 92,0 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| MMMLU | 89,6 % | 9ᵉ / 49 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 89,0 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 86,3 % | 2ᵉ / 23 | llm-stats | Auto-déclaré |
| ARC-AGI | 86,2 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| VideoMMMU | 85,9 % | 4ᵉ / 26 | llm-stats | Auto-déclaré |
| CharXiv-R | 82,1 % | 10ᵉ / 42 | llm-stats | Auto-déclaré |
| Tau2 Retail | 82,0 % | 6ᵉ / 25 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,0 % | 13ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU-Pro | 79,5 % | 11ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveBench | 74,8 % | 16ᵉ / 38 | llm-stats | n.d. |
| SWE-Lancer (IC-Diamond subset) | 74,6 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| BrowseComp | 65,8 % | 24ᵉ / 51 | llm-stats | Auto-déclaré |
| MCP Atlas | 60,6 % | 23ᵉ / 27 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 52,9 % | 8ᵉ / 16 | llm-stats | Auto-déclaré |
| Toolathlon | 46,3 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| FrontierMath | 40,3 % | 2ᵉ / 13 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 34,5 % | 36ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1437 | 63ᵉ |
| Arena Text | 1435 | 67ᵉ |
| Arena Document | 1405 | 26ᵉ |
| Arena Code | 1405 | 39ᵉ |
| Arena Document | 1401 | 29ᵉ |
| Arena Vision | 1244 | 32ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 1,75 $ | 14 $ | n.d. |
| OpenAI | 1,75 $ | 14 $ | 0,175 $ |
| artificialanalysis | 1,75 $ | 14 $ | 0,9625 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,18 $ |
| Latence moyenne par benchmark — Benchable | 3 min 00 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. GPT-5.2 ressort très nettement sur les tâches de mathématiques: son Math Index le place dans le top 10, et Epoch: OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) confirme ce niveau élevé. Les évaluations Benchable en Hallucinations, General Knowledge et Ethics le classent aussi parmi les meilleurs modèles mesurés, signe d’un comportement très robuste sur ces tests de référence. Le benchmark Coding le situe près du haut du tableau, sans atteindre les tout premiers rangs. Sa fenêtre de contexte de 400 000 tokens constitue un atout concret pour les dossiers longs, les corpus volumineux et les analyses nécessitant beaucoup de contexte.
Limites et points d’attention. L’Intelligence Index place GPT-5.2 dans un rang honorable mais pas dominant, loin de ses performances les plus fortes en mathématiques. Les classements Arena text sont plus modestes, tandis que l’Arena document est meilleur sans atteindre les toutes premières places. L’Email Classification affiche un score élevé, mais son rang montre que la concurrence est dense sur cette tâche. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 25 août 2025. Profil d’usage: LLM économique pour raisonnement mathématique, connaissances générales, codage de base à avancé et traitement de longs contextes, lorsque le coût compte autant que la performance.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).