OpenAI

o1

o1 est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. À l’échelle de l’IA, son ancienneté d’environ deux ans est déjà importante, ce qui le situe d’abord comme un modèle marquant de sa période plutôt que…

À sa sortie, o1 figurait dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un signal fort sur les tâches de raisonnement avancé. Son positionnement était premium, avec des tarifs nettement supérieurs à la moyenne des LLM similaires et aux modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	17 décembre 2024
Connaissances jusqu'à	2023-10-31
Multimodal	non
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	23.4	88ᵉ / 136
Code Index	39.7	35ᵉ / 50

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,8 %	63ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	94,7 %	12ᵉ / 84	epoch	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	87,0 %	124ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	77,0 %	58ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	76,8 %	49ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	73,3 %	48ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	9,3 %	39ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
GSM8k	97,1 %	3ᵉ / 47	llm-stats	Auto-déclaré
MATH	96,4 %	2ᵉ / 70	llm-stats	Auto-déclaré
MMLU	91,8 %	2ᵉ / 98	llm-stats	Auto-déclaré
MGSM	89,3 %	9ᵉ / 30	llm-stats	Auto-déclaré
HumanEval	88,1 %	24ᵉ / 65	llm-stats	Auto-déclaré
MMMLU	87,7 %	19ᵉ / 49	llm-stats	Auto-déclaré
GPQA	78,0 %	81ᵉ / 213	llm-stats	Auto-déclaré
MMMU	77,6 %	17ᵉ / 61	llm-stats	Auto-déclaré
AIME 2024	74,3 %	34ᵉ / 52	llm-stats	Auto-déclaré
MathVista	71,8 %	12ᵉ / 38	llm-stats	Auto-déclaré
TAU-bench Retail	70,8 %	10ᵉ / 24	llm-stats	Auto-déclaré
LiveBench	67,0 %	33ᵉ / 38	llm-stats	Auto-déclaré
TAU-bench Airline	50,0 %	10ᵉ / 22	llm-stats	Auto-déclaré
SimpleQA	47,0 %	17ᵉ / 45	llm-stats	Auto-déclaré
SWE-Bench Verified	41,0 %	90ᵉ / 100	llm-stats	Auto-déclaré
FrontierMath	5,5 %	13ᵉ / 13	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ o123.4

Nova 2.0 Pro Preview21.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ o139.7

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1402	117ᵉ
Arena Vision	1193	62ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	15 $	60 $	7,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	3,67 $
Latence moyenne par benchmark — Benchable	15 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. o1 se distingue surtout par le raisonnement. Il atteint le sommet du benchmark Benchable Reasoning (Baseline), qui évalue la résolution de problèmes structurés, et reste très bien placé sur Epoch: MATH level 5, centré sur des problèmes mathématiques difficiles. À sa sortie, il appartenait clairement au haut du panier de sa génération sur GPQA diamond, un benchmark associé à des questions scientifiques exigeantes. Les résultats élevés en General Knowledge, Hallucinations et Email Classification indiquent aussi un modèle solide sur les tâches générales, avec une bonne fiabilité relative dans les évaluations disponibles. Sa grande fenêtre de contexte renforce son intérêt historique pour l’analyse de longs contenus.

Limites et points d'attention. o1 est aujourd’hui un modèle ancien dans un secteur où les générations se renouvellent vite. Ses performances globales, notamment son Intelligence Index en milieu de classement et son classement Arena text éloigné des premiers rangs, indiquent un modèle probablement dépassé face aux références actuelles. Le Code Index le place aussi dans une zone moins favorable que ses meilleurs résultats en raisonnement. Son plafond de connaissances s’arrête au 2023-10-31. Le coût constitue une autre limite nette : l’entrée à 15 $ par million de tokens et la sortie à 60 $ par million le placent 670% au-dessus de la moyenne des LLM similaires, et environ 3,1 fois plus cher que les modèles frontière. Un modèle de cet âge est en outre souvent retiré du catalogue de son éditeur.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

o1

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast