o3
o3 est un LLM propriétaire d’OpenAI, sorti le 16 avril 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : la fiche doit surtout le lire comme un modèle de sa génération, plutôt que comme une référence actuelle.
o3 est un LLM propriétaire d’OpenAI, sorti le 16 avril 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : la fiche doit surtout le lire comme un modèle de sa génération, plutôt que comme une référence actuelle.
Le modèle se distingue par un profil très orienté raisonnement et mathématiques, avec une grande fenêtre de contexte de 200 000 tokens et des connaissances arrêtées au 31 mai 2024. Son tarif le place dans une catégorie économique, proche de la moyenne des LLM similaires et nettement sous les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 16 avril 2025 |
| Connaissances jusqu'à | 2024-05-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 30.4 | 61ᵉ / 136 |
| Math Index | 88.3 | 11ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 97,8 % | 4ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 83,9 % | 39ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 81,8 % | 41ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SWE-Bench verified | 62,3 % | 27ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 53,0 % | 14ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 18,7 % | 32ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 10,0 % | 31ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 39ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| COLLIE | 98,4 % | 3ᵉ / 10 | llm-stats | Auto-déclaré |
| AIME 2024 | 91,6 % | 6ᵉ / 52 | llm-stats | Auto-déclaré |
| ARC-AGI | 88,0 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| MathVista | 86,8 % | 3ᵉ / 38 | llm-stats | Auto-déclaré |
| AIME 2025 | 86,4 % | 53ᵉ / 108 | llm-stats | Auto-déclaré |
| GPQA | 83,3 % | 54ᵉ / 213 | llm-stats | Auto-déclaré |
| VideoMMMU | 83,3 % | 13ᵉ / 26 | llm-stats | Auto-déclaré |
| MMMU | 82,9 % | 6ᵉ / 61 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 81,3 % | 3ᵉ / 22 | llm-stats | Auto-déclaré |
| Tau2 Retail | 80,2 % | 8ᵉ / 25 | llm-stats | Auto-déclaré |
| CharXiv-R | 78,6 % | 18ᵉ / 42 | llm-stats | Auto-déclaré |
| MMMU-Pro | 76,4 % | 23ᵉ / 60 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 69,1 % | 61ᵉ / 100 | llm-stats | Auto-déclaré |
| Tau2 Airline | 64,8 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| ERQA | 64,0 % | 8ᵉ / 22 | llm-stats | Auto-déclaré |
| Tau-bench | 63,0 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
| Multi-Challenge | 60,4 % | 10ᵉ / 28 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 58,2 % | 29ᵉ / 34 | llm-stats | Auto-déclaré |
| BrowseComp | 49,7 % | 37ᵉ / 51 | llm-stats | Auto-déclaré |
| FrontierMath | 15,8 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 14,7 % | 66ᵉ / 86 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 6,5 % | 15ᵉ / 16 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1431 | 75ᵉ |
| Arena Vision | 1217 | 49ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 2 $ | 8 $ | 0,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,19 $ |
| Latence moyenne par benchmark — Benchable | 7 min 49 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. o3 a surtout marqué par ses résultats en raisonnement formel. À sa sortie, il figurait dans le haut du panier de sa génération sur GPQA diamond (questions scientifiques niveau doctorat), avec un classement dans le top 4% des LLM comparables de la même période. Ses meilleurs signaux viennent aussi de Reasoning (Baseline), où il atteint le tout premier rang, et de MATH level 5, où il reste dans le top 10. Le Math Index confirme ce positionnement : o3 est nettement plus convaincant sur les tâches mathématiques structurées que sur les classements généralistes. Sa fenêtre de contexte très large renforce son intérêt historique pour l’analyse de longs documents ou de grands ensembles d’éléments à raisonner.
Limites et points d'attention. o3 est désormais un modèle ancien à l’échelle du secteur, probablement dépassé par les générations plus récentes et souvent retiré des catalogues actifs de l’éditeur. Son Intelligence Index le place seulement en milieu de classement, signe d’un modèle spécialisé plutôt que dominant partout. Les résultats sur SWE-Bench verified (résolution de vrais bugs logiciels GitHub) sont faibles au sein du panel mesuré, et SimpleQA Verified (questions factuelles vérifiables) reste plus modéré que ses performances en mathématiques. Les classements Arena text et vision ne le positionnent pas parmi les modèles les plus compétitifs. Sa licence propriétaire limite aussi l’audit et la réutilisation des poids.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).