o3

o3 est un LLM propriétaire d’OpenAI, sorti le 16 avril 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : la fiche doit surtout le lire comme un modèle de sa génération, plutôt que comme une référence actuelle.

o3 est un LLM propriétaire d’OpenAI, sorti le 16 avril 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : la fiche doit surtout le lire comme un modèle de sa génération, plutôt que comme une référence actuelle.

Le modèle se distingue par un profil très orienté raisonnement et mathématiques, avec une grande fenêtre de contexte de 200 000 tokens et des connaissances arrêtées au 31 mai 2024. Son tarif le place dans une catégorie économique, proche de la moyenne des LLM similaires et nettement sous les modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie16 avril 2025
Connaissances jusqu'à2024-05-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index30.461ᵉ / 136
Math Index88.311ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Epoch: MATH level 597,8 %4ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202583,9 %39ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond81,8 %41ᵉ / 132epoch✅ Mesuré
Epoch: SWE-Bench verified62,3 %27ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified53,0 %14ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private18,7 %32ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public10,0 %31ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %39ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
COLLIE98,4 %3ᵉ / 10llm-statsAuto-déclaré
AIME 202491,6 %6ᵉ / 52llm-statsAuto-déclaré
ARC-AGI88,0 %4ᵉ / 7llm-statsAuto-déclaré
MathVista86,8 %3ᵉ / 38llm-statsAuto-déclaré
AIME 202586,4 %53ᵉ / 108llm-statsAuto-déclaré
GPQA83,3 %54ᵉ / 213llm-statsAuto-déclaré
VideoMMMU83,3 %13ᵉ / 26llm-statsAuto-déclaré
MMMU82,9 %6ᵉ / 61llm-statsAuto-déclaré
Aider-Polyglot81,3 %3ᵉ / 22llm-statsAuto-déclaré
Tau2 Retail80,2 %8ᵉ / 25llm-statsAuto-déclaré
CharXiv-R78,6 %18ᵉ / 42llm-statsAuto-déclaré
MMMU-Pro76,4 %23ᵉ / 60llm-statsAuto-déclaré
SWE-Bench Verified69,1 %61ᵉ / 100llm-statsAuto-déclaré
Tau2 Airline64,8 %7ᵉ / 22llm-statsAuto-déclaré
ERQA64,0 %8ᵉ / 22llm-statsAuto-déclaré
Tau-bench63,0 %6ᵉ / 6llm-statsAuto-déclaré
Multi-Challenge60,4 %10ᵉ / 28llm-statsAuto-déclaré
Tau2 Telecom58,2 %29ᵉ / 34llm-statsAuto-déclaré
BrowseComp49,7 %37ᵉ / 51llm-statsAuto-déclaré
FrontierMath15,8 %9ᵉ / 13llm-statsAuto-déclaré
Humanity's Last Exam14,7 %66ᵉ / 86llm-statsAuto-déclaré
ARC-AGI v26,5 %15ᵉ / 16llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ o330.4

Math Index

gemini-3-flash97.0
DeepSeek V3.292.0
Nova 2.0 Pro Preview89.0
▶ o388.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text143175ᵉ
Arena Vision121749ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI2 $8 $0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,19 $
Latence moyenne par benchmark — Benchable7 min 49 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. o3 a surtout marqué par ses résultats en raisonnement formel. À sa sortie, il figurait dans le haut du panier de sa génération sur GPQA diamond (questions scientifiques niveau doctorat), avec un classement dans le top 4% des LLM comparables de la même période. Ses meilleurs signaux viennent aussi de Reasoning (Baseline), où il atteint le tout premier rang, et de MATH level 5, où il reste dans le top 10. Le Math Index confirme ce positionnement : o3 est nettement plus convaincant sur les tâches mathématiques structurées que sur les classements généralistes. Sa fenêtre de contexte très large renforce son intérêt historique pour l’analyse de longs documents ou de grands ensembles d’éléments à raisonner.

Limites et points d'attention. o3 est désormais un modèle ancien à l’échelle du secteur, probablement dépassé par les générations plus récentes et souvent retiré des catalogues actifs de l’éditeur. Son Intelligence Index le place seulement en milieu de classement, signe d’un modèle spécialisé plutôt que dominant partout. Les résultats sur SWE-Bench verified (résolution de vrais bugs logiciels GitHub) sont faibles au sein du panel mesuré, et SimpleQA Verified (questions factuelles vérifiables) reste plus modéré que ses performances en mathématiques. Les classements Arena text et vision ne le positionnent pas parmi les modèles les plus compétitifs. Sa licence propriétaire limite aussi l’audit et la réutilisation des poids.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).