OpenAI: GPT-5.2 Chat
OpenAI: GPT-5.2 Chat est un LLM d’OpenAI sorti le 10 décembre 2025, positionné comme un modèle de chat récent à grand contexte. Sa fenêtre de 128 000 tokens le situe dans les modèles capables de traiter de longs échanges ou dossiers textuels sans découpage immédiat.
OpenAI: GPT-5.2 Chat est un LLM d’OpenAI sorti le 10 décembre 2025, positionné comme un modèle de chat récent à grand contexte. Sa fenêtre de 128 000 tokens le situe dans les modèles capables de traiter de longs échanges ou dossiers textuels sans découpage immédiat.
Son profil combine de très bons résultats Benchable sur les hallucinations et la connaissance générale avec un tarif économique. Le prix annoncé, 1,75 $ par million de tokens en entrée et 14 $ en sortie, se place 10% sous la moyenne des LLM similaires et environ 2,8 fois sous les modèles frontière, avec deux sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Date de sortie | 10 décembre 2025 |
| Multimodal | oui |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | file,image,text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 91,0 % | 12ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 78,0 % | 124ᵉ / 239 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 1,75 $ | 14 $ | 0,175 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 10 % en dessous de la moyenne des LLM similaires, et 2,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,17 $ |
| Latence moyenne par benchmark — Benchable | 3 min 55 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. OpenAI: GPT-5.2 Chat ressort particulièrement sur Benchable Hallucinations (Baseline) et General Knowledge (Baseline), où il figure dans le top 10 et atteint le meilleur niveau du classement disponible. Le modèle montre aussi un profil solide en Coding (Baseline), proche du top 10, ce qui indique une bonne aptitude aux tâches de programmation évaluées par ce benchmark. Mathematics (Baseline) reste élevé, même si le classement est moins dominant. Le tarif renforce son intérêt opérationnel : le modèle est classé économique, sous la moyenne des LLM comparables, avec un écart marqué face aux modèles haut de gamme.
Limites et points d'attention. Les résultats Ethics (Baseline) et Email Classification (Baseline) affichent de hauts scores absolus, mais leurs rangs sont nettement moins compétitifs que ceux observés en hallucinations ou en connaissance générale. Le positionnement en mathématiques, bon mais moins élitiste, suggère aussi une hiérarchie plus nuancée selon les tâches. Les faits disponibles ne documentent ni l’entraînement, ni les capacités multimodales, ni des fonctions agentiques, ce qui limite l’analyse aux benchmarks et au prix. Ce modèle convient surtout aux usages textuels généralistes, aux longues conversations, à la synthèse de documents et au code, lorsque le coût par token compte autant que la performance brute.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).