o4-mini

o4-mini est un LLM propriétaire d’OpenAI, publié le 16 avril 2025 avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération très datée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.

o4-mini est un LLM propriétaire d’OpenAI, publié le 16 avril 2025 avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération très datée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.

Le modèle se distingue par une grande fenêtre de contexte de 200 000 tokens, un positionnement tarifaire très économique et des connaissances arrêtées au 31 mai 2024. Son prix se situe nettement sous la moyenne des LLM similaires et reste environ 4,4 fois inférieur à celui des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie16 avril 2025
Connaissances jusqu'à2024-05-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index25.678ᵉ / 136
Math Index90.79ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Epoch: MATH level 597,8 %3ᵉ / 84epoch✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)93,0 %58ᵉ / 248benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202581,7 %42ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond79,6 %44ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)71,0 %82ᵉ / 252benchable✅ Mesuré
Benchable : Hallucinations (Baseline)62,0 %202ᵉ / 229benchable✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private36,1 %25ᵉ / 31epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public30,0 %25ᵉ / 64epoch✅ Mesuré
Epoch: Chess Puzzles26,0 %17ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private24,8 %25ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified23,9 %41ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private6,2 %23ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private4,9 %25ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202493,4 %2ᵉ / 52llm-statsAuto-déclaré
AIME 202592,7 %30ᵉ / 108llm-statsAuto-déclaré
MathVista84,3 %4ᵉ / 38llm-statsAuto-déclaré
MMMU81,6 %11ᵉ / 61llm-statsAuto-déclaré
GPQA81,4 %65ᵉ / 213llm-statsAuto-déclaré
CharXiv-R72,0 %26ᵉ / 42llm-statsAuto-déclaré
TAU-bench Retail71,8 %9ᵉ / 24llm-statsAuto-déclaré
Aider-Polyglot68,9 %7ᵉ / 22llm-statsAuto-déclaré
SWE-Bench Verified68,1 %62ᵉ / 100llm-statsAuto-déclaré
Aider-Polyglot Edit58,2 %4ᵉ / 10llm-statsAuto-déclaré
BrowseComp51,5 %34ᵉ / 51llm-statsAuto-déclaré
TAU-bench Airline49,2 %13ᵉ / 22llm-statsAuto-déclaré
Multi-Challenge43,0 %20ᵉ / 28llm-statsAuto-déclaré
Humanity's Last Exam14,7 %66ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ o4-mini25.6
Nova 2.0 Pro Preview21.8

Math Index

gemini-3-flash97.0
DeepSeek V3.292.0
▶ o4-mini90.7
Nova 2.0 Pro Preview89.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text1390133ᵉ
Arena Vision120158ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI1,1 $4,4 $0,275 $
artificialanalysis1,1 $4,4 $0,28 $

Prix en dollars US par million de tokens.

Sa tarification se situe 44 % en dessous de la moyenne des LLM similaires, et 4,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,23 $
Latence moyenne par benchmark — Benchable12 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. o4-mini ressort surtout par ses résultats en mathématiques et en raisonnement. Il figure dans le top 10 sur Epoch: MATH level 5, un test centré sur des problèmes mathématiques difficiles, et conserve une place très solide sur les évaluations Benchable liées au raisonnement. À sa sortie, il appartenait aussi au top 6% de sa génération sur Epoch: GPQA diamond, ce qui le situait dans le haut du panier des LLM de sa période. Son résultat maximal en General Knowledge (Baseline) confirme une bonne couverture des connaissances générales dans le cadre de ce benchmark. Son autre avantage concret est économique, avec une tarification très inférieure à la moyenne des modèles comparables.

Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de classement, loin des meilleurs modèles globaux évalués. Les classements Arena en texte et en vision restent modestes, ce qui signale une compétitivité limitée dans les préférences utilisateur et les tâches multimodales. Le benchmark Ethics (Baseline) affiche un score élevé mais un rang faible, signe que beaucoup d’autres modèles font mieux sur cette mesure. Surtout, son âge est un facteur central : environ un an représente une longue période dans l’IA générative, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Il est aussi souvent retiré du catalogue de l’éditeur dans ce type de cycle produit.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).