OpenAI

o3-mini

o3-mini est un LLM propriétaire d’OpenAI, sorti le 30 janvier 2025, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : le modèle doit surtout être lu comme une référence de sa période, probablement dépassée par les modèles plus récents…

Son positionnement combinait faible coût, grande fenêtre de contexte et résultats solides en raisonnement. La fenêtre de 200 000 tokens le plaçait sur des usages longs, tandis que son tarif très économique, inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière, en faisait une option orientée efficacité-coût.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	30 janvier 2025
Connaissances jusqu'à	2023-09-30
Multimodal	non
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	19.0	104ᵉ / 136
Code Index	42.1	33ᵉ / 50

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	96,5 %	8ᵉ / 84	epoch	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,0 %	92ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	90,0 %	111ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	77,0 %	48ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	76,9 %	47ᵉ / 111	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	62,0 %	128ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	40,0 %	20ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	18,6 %	30ᵉ / 31	epoch	✅ Mesuré
Epoch: Chess Puzzles	17,0 %	30ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	12,4 %	36ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	0,0 %	31ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
COLLIE	98,7 %	2ᵉ / 10	llm-stats	Auto-déclaré
MATH	97,9 %	1ᵉ / 70	llm-stats	Auto-déclaré
IFEval	93,9 %	5ᵉ / 65	llm-stats	Auto-déclaré
MGSM	92,0 %	2ᵉ / 30	llm-stats	Auto-déclaré
AIME 2024	87,3 %	12ᵉ / 52	llm-stats	Auto-déclaré
MMLU	86,9 %	25ᵉ / 98	llm-stats	Auto-déclaré
LiveBench	84,6 %	1ᵉ / 38	llm-stats	Auto-déclaré
Multilingual MMLU	80,7 %	1ᵉ / 5	llm-stats	Auto-déclaré
Multi-IF	79,5 %	2ᵉ / 20	llm-stats	Auto-déclaré
GPQA	77,2 %	84ᵉ / 213	llm-stats	Auto-déclaré
Aider-Polyglot	66,7 %	9ᵉ / 22	llm-stats	Auto-déclaré
Aider-Polyglot Edit	60,4 %	3ᵉ / 10	llm-stats	Auto-déclaré
Graphwalks parents <128k	58,3 %	6ᵉ / 10	llm-stats	Auto-déclaré
TAU-bench Retail	57,6 %	20ᵉ / 24	llm-stats	Auto-déclaré
Graphwalks BFS <128k	51,0 %	8ᵉ / 10	llm-stats	Auto-déclaré
Internal API instruction following (hard)	50,0 %	3ᵉ / 7	llm-stats	Auto-déclaré
SWE-Bench Verified	49,3 %	84ᵉ / 100	llm-stats	Auto-déclaré
Multi-Challenge	39,9 %	22ᵉ / 28	llm-stats	Auto-déclaré
TAU-bench Airline	32,4 %	20ᵉ / 22	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	18,7 %	8ᵉ / 8	llm-stats	Auto-déclaré
SWE-Lancer	18,0 %	4ᵉ / 4	llm-stats	Auto-déclaré
ComplexFuncBench	17,6 %	6ᵉ / 7	llm-stats	Auto-déclaré
SimpleQA	15,0 %	36ᵉ / 45	llm-stats	Auto-déclaré
FrontierMath	9,2 %	11ᵉ / 13	llm-stats	Auto-déclaré
SWE-Lancer (IC-Diamond subset)	7,4 %	6ᵉ / 6	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ o3-mini19.0

Llama 4 Maverick14.3

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ o3-mini42.1

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1363	160ᵉ
Arena Text	1348	176ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	1,1 $	4,4 $	0,55 $

Prix en dollars US par million de tokens.

Sa tarification se situe 44 % en dessous de la moyenne des LLM similaires, et 4,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,22 $
Latence moyenne par benchmark — Benchable	12 min 45 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. À sa sortie, o3-mini figurait dans le haut du panier de sa génération : son classement top 3% sur GPQA diamond parmi les LLM de la même période le situe comme un modèle compétitif sur les tâches de raisonnement exigeantes. Les résultats Benchable en General Knowledge et Reasoning atteignent le tout premier rang des corpus évalués, ce qui confirme un profil solide sur les questions générales et les enchaînements logiques. MATH level 5 le place aussi dans le top 10, signalant une bonne tenue sur les problèmes mathématiques difficiles. Sa fenêtre de contexte de 200 000 tokens constituait un autre atout concret pour traiter de longs documents ou de longues conversations. Le tarif reste l’un de ses marqueurs les plus nets : o3-mini est très économique, 44% sous la moyenne des LLM similaires et environ 4,4 fois moins cher que les modèles frontière.

Limites et points d'attention. Le modèle est ancien à l’échelle du marché IA : ses performances sont aujourd’hui largement dépassées par des générations plus récentes, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Son Intelligence Index le place loin des meilleurs modèles du panel, malgré de bons résultats ciblés en raisonnement. Le Code Index reste seulement intermédiaire dans un ensemble plus restreint, ce qui invite à le situer comme modèle de raisonnement général plutôt que comme référence de développement logiciel. Les classements Arena text sont bas dans le tableau, signe d’une préférence utilisateur limitée face à des concurrents plus récents ou plus complets. Les résultats en Ethics, Email Classification et Hallucinations sont corrects mais sans avantage distinctif majeur.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).