GPT-4o mini
GPT-4o mini est un LLM propriétaire d’OpenAI, lancé le 18 juillet 2024, avec des poids non ouverts et une origine américaine. Son positionnement central est économique : ses tarifs d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et loin des prix des…
GPT-4o mini est un LLM propriétaire d’OpenAI, lancé le 18 juillet 2024, avec des poids non ouverts et une origine américaine. Son positionnement central est économique : ses tarifs d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et loin des prix des modèles frontière.
Avec environ deux ans d’ancienneté, GPT-4o mini appartient déjà à une génération ancienne à l’échelle de l’IA. À sa sortie, il se situait dans le top 38% des LLM de sa période sur GPQA diamond, avec une fenêtre de contexte longue et des connaissances arrêtées au 1er octobre 2023.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 18 juillet 2024 |
| Connaissances jusqu'à | 2023-10-01 |
| Multimodal | oui |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 6.9 | 133ᵉ / 136 |
| Math Index | 14.7 | 49ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 87,0 % | 135ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 76,0 % | 187ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 71,0 % | 165ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 60,5 % | 140ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 56,0 % | 173ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 52,6 % | 45ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 37,7 % | 105ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 6,9 % | 85ᵉ / 111 | epoch | ✅ Mesuré |
| HumanEval | 87,2 % | 28ᵉ / 65 | llm-stats | Auto-déclaré |
| MGSM | 87,0 % | 12ᵉ / 30 | llm-stats | Auto-déclaré |
| MMLU | 82,0 % | 48ᵉ / 98 | llm-stats | Auto-déclaré |
| DROP | 79,7 % | 12ᵉ / 29 | llm-stats | Auto-déclaré |
| MATH | 70,2 % | 37ᵉ / 70 | llm-stats | Auto-déclaré |
| MMMU | 59,4 % | 43ᵉ / 61 | llm-stats | Auto-déclaré |
| MathVista | 56,7 % | 29ᵉ / 38 | llm-stats | Auto-déclaré |
| GPQA | 40,2 % | 185ᵉ / 213 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 8,7 % | 100ᵉ / 100 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1098 | 101ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Azure | 0,15 $ | 0,6 $ | 0,075 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 2 min 09 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. GPT-4o mini ressort surtout par son rapport coût-volume : sa tarification très économique, 92% sous la moyenne des LLM similaires et environ 32.2 fois inférieure à celle des modèles frontière, en faisait un candidat attractif pour les usages nombreux ou répétitifs à sa période. Ses meilleurs résultats Benchable concernent Ethics (Baseline), où il atteint le top 10, ainsi que General Knowledge (Baseline) et Email Classification (Baseline), deux tâches où ses scores restent élevés dans les données disponibles. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs contenus dans un modèle compact et peu coûteux.
Limites et points d'attention. GPT-4o mini est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent retiré du catalogue de l’éditeur. Son Intelligence Index le place en bas de classement, et son Math Index reste faible face aux modèles comparés. Les résultats Benchable confirment ce profil : Coding (Baseline) est au milieu-bas du tableau, Mathematics (Baseline) est nettement moins compétitif, et Hallucinations (Baseline) signale un risque de fiabilité à surveiller. Son évaluation Arena vision reste également éloignée des meilleurs modèles mesurés.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).