OpenAI

gpt-5-chat-2025-08-07

gpt-5-chat-2025-08-07 est un LLM d’OpenAI sorti le 7 août 2025, positionné sur le segment économique. Son intérêt tient à un profil équilibré : un prix inférieur à la moyenne des LLM similaires, un écart marqué face aux modèles frontière, et des résultats Benchable solides sur l’éthique,…

La fiche repose sur trois sources de données concordantes. Le modèle se distingue par un coût d’usage contenu, avec une entrée à 1,25 $ par million de tokens et une sortie à 10 $ par million de tokens, tout en conservant des performances compétitives sur plusieurs évaluations généralistes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Date de sortie	7 août 2025

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	92,0 %	140ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	75,0 %	68ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ gpt-5-chat-2025-08-07100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ gpt-5-chat-2025-08-07100 %

Llama 3.3 70B Instruct98 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1427	79ᵉ
Arena Vision	1225	44ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	1,25 $	10 $	0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,09 $
Latence moyenne par benchmark — Benchable	2 min 31 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gpt-5-chat-2025-08-07 obtient son meilleur signal sur Ethics (Baseline), où il atteint le top 10 et la première place du classement Benchable. General Knowledge (Baseline) affiche aussi un score maximal, signe d’une bonne couverture des questions factuelles courantes, même si le rang associé n’en fait pas le modèle dominant de cette catégorie. Coding (Baseline) le place dans une zone favorable du classement, ce qui indique une capacité crédible sur les tâches de programmation évaluées. Son positionnement tarifaire renforce cet intérêt : le modèle est annoncé 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.

Limites et points d'attention. Les résultats sont moins tranchants sur Hallucinations (Baseline), où le classement reste modeste malgré un score élevé, ce qui invite à traiter les réponses factuelles sensibles avec prudence. Instruction Following (Baseline) apparaît correct mais pas exemplaire, avec un rang qui ne le place pas parmi les tout premiers modèles. Les classements Arena text et Arena vision situent aussi gpt-5-chat-2025-08-07 en retrait des meilleurs systèmes évalués publiquement. Le modèle convient surtout aux usages généralistes à coût maîtrisé, notamment rédaction, classification d’e-mails, questions de connaissance générale et assistance au code non critique.

Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

gpt-5-chat-2025-08-07

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast