gpt-5-chat-2025-08-07

gpt-5-chat-2025-08-07 est un LLM d’OpenAI sorti le 7 août 2025, positionné sur le segment économique. Son intérêt tient à un profil équilibré : un prix inférieur à la moyenne des LLM similaires, un écart marqué face aux modèles frontière, et des résultats Benchable solides sur l’éthique,…

gpt-5-chat-2025-08-07 est un LLM d’OpenAI sorti le 7 août 2025, positionné sur le segment économique. Son intérêt tient à un profil équilibré : un prix inférieur à la moyenne des LLM similaires, un écart marqué face aux modèles frontière, et des résultats Benchable solides sur l’éthique, la connaissance générale et le code.

La fiche repose sur trois sources de données concordantes. Le modèle se distingue par un coût d’usage contenu, avec une entrée à 1,25 $ par million de tokens et une sortie à 10 $ par million de tokens, tout en conservant des performances compétitives sur plusieurs évaluations généralistes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
Date de sortie7 août 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)93,0 %58ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)92,0 %140ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)75,0 %68ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ gpt-5-chat-2025-08-07100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ gpt-5-chat-2025-08-07100 %
Llama 3.3 70B Instruct98 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text142779ᵉ
Arena Vision122544ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI1,25 $10 $0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,09 $
Latence moyenne par benchmark — Benchable2 min 31 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gpt-5-chat-2025-08-07 obtient son meilleur signal sur Ethics (Baseline), où il atteint le top 10 et la première place du classement Benchable. General Knowledge (Baseline) affiche aussi un score maximal, signe d’une bonne couverture des questions factuelles courantes, même si le rang associé n’en fait pas le modèle dominant de cette catégorie. Coding (Baseline) le place dans une zone favorable du classement, ce qui indique une capacité crédible sur les tâches de programmation évaluées. Son positionnement tarifaire renforce cet intérêt : le modèle est annoncé 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.

Limites et points d'attention. Les résultats sont moins tranchants sur Hallucinations (Baseline), où le classement reste modeste malgré un score élevé, ce qui invite à traiter les réponses factuelles sensibles avec prudence. Instruction Following (Baseline) apparaît correct mais pas exemplaire, avec un rang qui ne le place pas parmi les tout premiers modèles. Les classements Arena text et Arena vision situent aussi gpt-5-chat-2025-08-07 en retrait des meilleurs systèmes évalués publiquement. Le modèle convient surtout aux usages généralistes à coût maîtrisé, notamment rédaction, classification d’e-mails, questions de connaissance générale et assistance au code non critique.


Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).