o1

o1 est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. À l’échelle de l’IA, son ancienneté d’environ deux ans est déjà importante, ce qui le situe d’abord comme un modèle marquant de sa période plutôt que…

o1 est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. À l’échelle de l’IA, son ancienneté d’environ deux ans est déjà importante, ce qui le situe d’abord comme un modèle marquant de sa période plutôt que comme une référence actuelle.

À sa sortie, o1 figurait dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un signal fort sur les tâches de raisonnement avancé. Son positionnement était premium, avec des tarifs nettement supérieurs à la moyenne des LLM similaires et aux modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie17 décembre 2024
Connaissances jusqu'à2023-10-31
Multimodalnon
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index23.488ᵉ / 136
Code Index39.735ᵉ / 50

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,8 %63ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Epoch: MATH level 594,7 %12ᵉ / 84epoch✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)87,0 %124ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)77,0 %58ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond76,8 %49ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202573,3 %48ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private9,3 %39ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
GSM8k97,1 %3ᵉ / 47llm-statsAuto-déclaré
MATH96,4 %2ᵉ / 70llm-statsAuto-déclaré
MMLU91,8 %2ᵉ / 98llm-statsAuto-déclaré
MGSM89,3 %9ᵉ / 30llm-statsAuto-déclaré
HumanEval88,1 %24ᵉ / 65llm-statsAuto-déclaré
MMMLU87,7 %19ᵉ / 49llm-statsAuto-déclaré
GPQA78,0 %81ᵉ / 213llm-statsAuto-déclaré
MMMU77,6 %17ᵉ / 61llm-statsAuto-déclaré
AIME 202474,3 %34ᵉ / 52llm-statsAuto-déclaré
MathVista71,8 %12ᵉ / 38llm-statsAuto-déclaré
TAU-bench Retail70,8 %10ᵉ / 24llm-statsAuto-déclaré
LiveBench67,0 %33ᵉ / 38llm-statsAuto-déclaré
TAU-bench Airline50,0 %10ᵉ / 22llm-statsAuto-déclaré
SimpleQA47,0 %17ᵉ / 45llm-statsAuto-déclaré
SWE-Bench Verified41,0 %90ᵉ / 100llm-statsAuto-déclaré
FrontierMath5,5 %13ᵉ / 13llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ o123.4
Nova 2.0 Pro Preview21.8

Code Index

▶ o139.7
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text1402117ᵉ
Arena Vision119362ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI15 $60 $7,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable3,67 $
Latence moyenne par benchmark — Benchable15 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. o1 se distingue surtout par le raisonnement. Il atteint le sommet du benchmark Benchable Reasoning (Baseline), qui évalue la résolution de problèmes structurés, et reste très bien placé sur Epoch: MATH level 5, centré sur des problèmes mathématiques difficiles. À sa sortie, il appartenait clairement au haut du panier de sa génération sur GPQA diamond, un benchmark associé à des questions scientifiques exigeantes. Les résultats élevés en General Knowledge, Hallucinations et Email Classification indiquent aussi un modèle solide sur les tâches générales, avec une bonne fiabilité relative dans les évaluations disponibles. Sa grande fenêtre de contexte renforce son intérêt historique pour l’analyse de longs contenus.

Limites et points d'attention. o1 est aujourd’hui un modèle ancien dans un secteur où les générations se renouvellent vite. Ses performances globales, notamment son Intelligence Index en milieu de classement et son classement Arena text éloigné des premiers rangs, indiquent un modèle probablement dépassé face aux références actuelles. Le Code Index le place aussi dans une zone moins favorable que ses meilleurs résultats en raisonnement. Son plafond de connaissances s’arrête au 2023-10-31. Le coût constitue une autre limite nette : l’entrée à 15 $ par million de tokens et la sortie à 60 $ par million le placent 670% au-dessus de la moyenne des LLM similaires, et environ 3,1 fois plus cher que les modèles frontière. Un modèle de cet âge est en outre souvent retiré du catalogue de son éditeur.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).