gpt-5-chat-2025-08-07
gpt-5-chat-2025-08-07 est un LLM d’OpenAI sorti le 7 août 2025, positionné sur le segment économique. Son intérêt tient à un profil équilibré : un prix inférieur à la moyenne des LLM similaires, un écart marqué face aux modèles frontière, et des résultats Benchable solides sur l’éthique,…
gpt-5-chat-2025-08-07 est un LLM d’OpenAI sorti le 7 août 2025, positionné sur le segment économique. Son intérêt tient à un profil équilibré : un prix inférieur à la moyenne des LLM similaires, un écart marqué face aux modèles frontière, et des résultats Benchable solides sur l’éthique, la connaissance générale et le code.
La fiche repose sur trois sources de données concordantes. Le modèle se distingue par un coût d’usage contenu, avec une entrée à 1,25 $ par million de tokens et une sortie à 10 $ par million de tokens, tout en conservant des performances compétitives sur plusieurs évaluations généralistes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Date de sortie | 7 août 2025 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 92,0 % | 140ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 75,0 % | 68ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1427 | 79ᵉ |
| Arena Vision | 1225 | 44ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 1,25 $ | 10 $ | 0,125 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,09 $ |
| Latence moyenne par benchmark — Benchable | 2 min 31 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. gpt-5-chat-2025-08-07 obtient son meilleur signal sur Ethics (Baseline), où il atteint le top 10 et la première place du classement Benchable. General Knowledge (Baseline) affiche aussi un score maximal, signe d’une bonne couverture des questions factuelles courantes, même si le rang associé n’en fait pas le modèle dominant de cette catégorie. Coding (Baseline) le place dans une zone favorable du classement, ce qui indique une capacité crédible sur les tâches de programmation évaluées. Son positionnement tarifaire renforce cet intérêt : le modèle est annoncé 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.
Limites et points d'attention. Les résultats sont moins tranchants sur Hallucinations (Baseline), où le classement reste modeste malgré un score élevé, ce qui invite à traiter les réponses factuelles sensibles avec prudence. Instruction Following (Baseline) apparaît correct mais pas exemplaire, avec un rang qui ne le place pas parmi les tout premiers modèles. Les classements Arena text et Arena vision situent aussi gpt-5-chat-2025-08-07 en retrait des meilleurs systèmes évalués publiquement. Le modèle convient surtout aux usages généralistes à coût maîtrisé, notamment rédaction, classification d’e-mails, questions de connaissance générale et assistance au code non critique.
Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).