GPT-5 mini
GPT-5 mini est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et des connaissances arrêtées au 2024-05-30. Son positionnement combine une très grande fenêtre de contexte, 400 000 tokens, et un tarif très économique par rapport aux LLM similaires.
GPT-5 mini est un LLM propriétaire d’OpenAI, sorti le 7 août 2025, avec des poids non ouverts et des connaissances arrêtées au 2024-05-30. Son positionnement combine une très grande fenêtre de contexte, 400 000 tokens, et un tarif très économique par rapport aux LLM similaires.
À sa sortie, GPT-5 mini se situait dans le top 22% de sa génération sur Epoch: GPQA diamond. Le modèle ressort surtout par ses résultats en mathématiques, en connaissances générales et sur le benchmark Hallucinations (Baseline), tout en restant nettement moins cher que les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 7 août 2025 |
| Connaissances jusqu'à | 2024-05-30 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 30.9 | 60ᵉ / 136 |
| Math Index | 85.0 | 13ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 97,8 % | 2ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 86,7 % | 29ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 82,2 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 75,5 % | 29ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 75,0 % | 55ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 75,0 % | 68ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 68,3 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 68,2 % | 53ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 65,9 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 65,3 % | 16ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 64,7 % | 26ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Data Analysis | 55,2 % | 40ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 46,7 % | 21ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 46,7 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 40,0 % | 20ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 27,2 % | 22ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 21,0 % | 45ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 12,2 % | 21ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 6,2 % | 23ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 91,1 % | 38ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT 2025 | 87,8 % | 20ᵉ / 33 | llm-stats | Auto-déclaré |
| GPQA | 82,3 % | 61ᵉ / 213 | llm-stats | Auto-déclaré |
| FrontierMath | 22,1 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 16,7 % | 61ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1390 | 132ᵉ |
| Arena Vision | 1181 | 69ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 0,25 $ | 2 $ | n.d. |
| OpenAI | 0,25 $ | 2 $ | 0,025 $ |
| artificialanalysis | 0,25 $ | 2 $ | 0,03 $ |
| artificialanalysis | 0,25 $ | 2 $ | 0,025 $ |
| artificialanalysis | 0,25 $ | 2 $ | 0,0275 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,09 $ |
| Latence moyenne par benchmark — Benchable | 8 min 15 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. GPT-5 mini affiche un profil solide sur les tâches de raisonnement mathématique, avec un résultat de tout premier plan sur Epoch: MATH level 5 et un Math Index placé dans le haut du classement. Les benchmarks Benchable General Knowledge (Baseline) et Hallucinations (Baseline) le classent aussi parmi les meilleurs, ce qui signale de bonnes performances sur les connaissances générales et la réduction des réponses erronées dans ce cadre d’évaluation. Sa fenêtre de contexte de 400 000 tokens constitue un autre point distinctif, utile pour traiter de longs documents ou de larges historiques textuels. Son coût, 87% sous la moyenne des LLM similaires et environ 19.3 fois inférieur à celui des modèles frontière, renforce son intérêt pour les usages à fort volume.
Limites et points d'attention. Le niveau global reste plus contrasté que ses meilleurs scores ne le suggèrent: l’Intelligence Index le place en milieu de tableau, tandis que Benchable Ethics (Baseline) et Email Classification (Baseline) affichent des rangs modestes malgré des pourcentages élevés. Les classements Arena text et Arena vision ne le situent pas parmi les modèles les plus compétitifs en préférence utilisateur. Les poids fermés limitent l’audit indépendant et l’auto-hébergement. La coupure des connaissances au 2024-05-30 impose aussi une vigilance sur les faits récents. GPT-5 mini convient surtout aux usages économiques à grande échelle, aux traitements de longs contextes et aux tâches où les mathématiques et les connaissances générales priment sur la performance de pointe absolue.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).