o4-mini
o4-mini est un LLM propriétaire d’OpenAI, publié le 16 avril 2025 avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération très datée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.
o4-mini est un LLM propriétaire d’OpenAI, publié le 16 avril 2025 avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération très datée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.
Le modèle se distingue par une grande fenêtre de contexte de 200 000 tokens, un positionnement tarifaire très économique et des connaissances arrêtées au 31 mai 2024. Son prix se situe nettement sous la moyenne des LLM similaires et reste environ 4,4 fois inférieur à celui des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 16 avril 2025 |
| Connaissances jusqu'à | 2024-05-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 25.6 | 78ᵉ / 136 |
| Math Index | 90.7 | 9ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 97,8 % | 3ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 81,7 % | 42ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 79,6 % | 44ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 71,0 % | 82ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 62,0 % | 202ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 36,1 % | 25ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 30,0 % | 25ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 26,0 % | 17ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 24,8 % | 25ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 23,9 % | 41ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 6,2 % | 23ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 4,9 % | 25ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2024 | 93,4 % | 2ᵉ / 52 | llm-stats | Auto-déclaré |
| AIME 2025 | 92,7 % | 30ᵉ / 108 | llm-stats | Auto-déclaré |
| MathVista | 84,3 % | 4ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 81,6 % | 11ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 81,4 % | 65ᵉ / 213 | llm-stats | Auto-déclaré |
| CharXiv-R | 72,0 % | 26ᵉ / 42 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 71,8 % | 9ᵉ / 24 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 68,9 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 68,1 % | 62ᵉ / 100 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 58,2 % | 4ᵉ / 10 | llm-stats | Auto-déclaré |
| BrowseComp | 51,5 % | 34ᵉ / 51 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 49,2 % | 13ᵉ / 22 | llm-stats | Auto-déclaré |
| Multi-Challenge | 43,0 % | 20ᵉ / 28 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 14,7 % | 66ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1390 | 133ᵉ |
| Arena Vision | 1201 | 58ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 1,1 $ | 4,4 $ | 0,275 $ |
| artificialanalysis | 1,1 $ | 4,4 $ | 0,28 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 44 % en dessous de la moyenne des LLM similaires, et 4,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,23 $ |
| Latence moyenne par benchmark — Benchable | 12 min 17 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. o4-mini ressort surtout par ses résultats en mathématiques et en raisonnement. Il figure dans le top 10 sur Epoch: MATH level 5, un test centré sur des problèmes mathématiques difficiles, et conserve une place très solide sur les évaluations Benchable liées au raisonnement. À sa sortie, il appartenait aussi au top 6% de sa génération sur Epoch: GPQA diamond, ce qui le situait dans le haut du panier des LLM de sa période. Son résultat maximal en General Knowledge (Baseline) confirme une bonne couverture des connaissances générales dans le cadre de ce benchmark. Son autre avantage concret est économique, avec une tarification très inférieure à la moyenne des modèles comparables.
Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de classement, loin des meilleurs modèles globaux évalués. Les classements Arena en texte et en vision restent modestes, ce qui signale une compétitivité limitée dans les préférences utilisateur et les tâches multimodales. Le benchmark Ethics (Baseline) affiche un score élevé mais un rang faible, signe que beaucoup d’autres modèles font mieux sur cette mesure. Surtout, son âge est un facteur central : environ un an représente une longue période dans l’IA générative, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Il est aussi souvent retiré du catalogue de l’éditeur dans ce type de cycle produit.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).