OpenAI

o4-mini

o4-mini est un LLM propriétaire d’OpenAI, publié le 16 avril 2025 avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération très datée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.

Le modèle se distingue par une grande fenêtre de contexte de 200 000 tokens, un positionnement tarifaire très économique et des connaissances arrêtées au 31 mai 2024. Son prix se situe nettement sous la moyenne des LLM similaires et reste environ 4,4 fois inférieur à celui des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	16 avril 2025
Connaissances jusqu'à	2024-05-31
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	25.6	78ᵉ / 136
Math Index	90.7	9ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Epoch: MATH level 5	97,8 %	3ᵉ / 84	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	81,7 %	42ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	79,6 %	44ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	71,0 %	82ᵉ / 252	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	62,0 %	202ᵉ / 229	benchable	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	36,1 %	25ᵉ / 31	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	30,0 %	25ᵉ / 64	epoch	✅ Mesuré
Epoch: Chess Puzzles	26,0 %	17ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	24,8 %	25ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	23,9 %	41ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	6,2 %	23ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	4,9 %	25ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2024	93,4 %	2ᵉ / 52	llm-stats	Auto-déclaré
AIME 2025	92,7 %	30ᵉ / 108	llm-stats	Auto-déclaré
MathVista	84,3 %	4ᵉ / 38	llm-stats	Auto-déclaré
MMMU	81,6 %	11ᵉ / 61	llm-stats	Auto-déclaré
GPQA	81,4 %	65ᵉ / 213	llm-stats	Auto-déclaré
CharXiv-R	72,0 %	26ᵉ / 42	llm-stats	Auto-déclaré
TAU-bench Retail	71,8 %	9ᵉ / 24	llm-stats	Auto-déclaré
Aider-Polyglot	68,9 %	7ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	68,1 %	62ᵉ / 100	llm-stats	Auto-déclaré
Aider-Polyglot Edit	58,2 %	4ᵉ / 10	llm-stats	Auto-déclaré
BrowseComp	51,5 %	34ᵉ / 51	llm-stats	Auto-déclaré
TAU-bench Airline	49,2 %	13ᵉ / 22	llm-stats	Auto-déclaré
Multi-Challenge	43,0 %	20ᵉ / 28	llm-stats	Auto-déclaré
Humanity's Last Exam	14,7 %	66ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ o4-mini25.6

Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

▶ o4-mini90.7

Nova 2.0 Pro Preview89.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1390	133ᵉ
Arena Vision	1201	58ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	1,1 $	4,4 $	0,275 $
artificialanalysis	1,1 $	4,4 $	0,28 $

Prix en dollars US par million de tokens.

Sa tarification se situe 44 % en dessous de la moyenne des LLM similaires, et 4,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,23 $
Latence moyenne par benchmark — Benchable	12 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. o4-mini ressort surtout par ses résultats en mathématiques et en raisonnement. Il figure dans le top 10 sur Epoch: MATH level 5, un test centré sur des problèmes mathématiques difficiles, et conserve une place très solide sur les évaluations Benchable liées au raisonnement. À sa sortie, il appartenait aussi au top 6% de sa génération sur Epoch: GPQA diamond, ce qui le situait dans le haut du panier des LLM de sa période. Son résultat maximal en General Knowledge (Baseline) confirme une bonne couverture des connaissances générales dans le cadre de ce benchmark. Son autre avantage concret est économique, avec une tarification très inférieure à la moyenne des modèles comparables.

Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de classement, loin des meilleurs modèles globaux évalués. Les classements Arena en texte et en vision restent modestes, ce qui signale une compétitivité limitée dans les préférences utilisateur et les tâches multimodales. Le benchmark Ethics (Baseline) affiche un score élevé mais un rang faible, signe que beaucoup d’autres modèles font mieux sur cette mesure. Surtout, son âge est un facteur central : environ un an représente une longue période dans l’IA générative, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Il est aussi souvent retiré du catalogue de l’éditeur dans ce type de cycle produit.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

o4-mini

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast