o1
o1 est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. À l’échelle de l’IA, son ancienneté d’environ deux ans est déjà importante, ce qui le situe d’abord comme un modèle marquant de sa période plutôt que…
o1 est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. À l’échelle de l’IA, son ancienneté d’environ deux ans est déjà importante, ce qui le situe d’abord comme un modèle marquant de sa période plutôt que comme une référence actuelle.
À sa sortie, o1 figurait dans le top 2% des LLM de sa génération sur Epoch: GPQA diamond, un signal fort sur les tâches de raisonnement avancé. Son positionnement était premium, avec des tarifs nettement supérieurs à la moyenne des LLM similaires et aux modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 décembre 2024 |
| Connaissances jusqu'à | 2023-10-31 |
| Multimodal | non |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 23.4 | 88ᵉ / 136 |
| Code Index | 39.7 | 35ᵉ / 50 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,8 % | 63ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 94,7 % | 12ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 87,0 % | 124ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 77,0 % | 58ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 76,8 % | 49ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 73,3 % | 48ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 9,3 % | 39ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| GSM8k | 97,1 % | 3ᵉ / 47 | llm-stats | Auto-déclaré |
| MATH | 96,4 % | 2ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU | 91,8 % | 2ᵉ / 98 | llm-stats | Auto-déclaré |
| MGSM | 89,3 % | 9ᵉ / 30 | llm-stats | Auto-déclaré |
| HumanEval | 88,1 % | 24ᵉ / 65 | llm-stats | Auto-déclaré |
| MMMLU | 87,7 % | 19ᵉ / 49 | llm-stats | Auto-déclaré |
| GPQA | 78,0 % | 81ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMU | 77,6 % | 17ᵉ / 61 | llm-stats | Auto-déclaré |
| AIME 2024 | 74,3 % | 34ᵉ / 52 | llm-stats | Auto-déclaré |
| MathVista | 71,8 % | 12ᵉ / 38 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 70,8 % | 10ᵉ / 24 | llm-stats | Auto-déclaré |
| LiveBench | 67,0 % | 33ᵉ / 38 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 50,0 % | 10ᵉ / 22 | llm-stats | Auto-déclaré |
| SimpleQA | 47,0 % | 17ᵉ / 45 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 41,0 % | 90ᵉ / 100 | llm-stats | Auto-déclaré |
| FrontierMath | 5,5 % | 13ᵉ / 13 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1402 | 117ᵉ |
| Arena Vision | 1193 | 62ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 15 $ | 60 $ | 7,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 3,67 $ |
| Latence moyenne par benchmark — Benchable | 15 min 21 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. o1 se distingue surtout par le raisonnement. Il atteint le sommet du benchmark Benchable Reasoning (Baseline), qui évalue la résolution de problèmes structurés, et reste très bien placé sur Epoch: MATH level 5, centré sur des problèmes mathématiques difficiles. À sa sortie, il appartenait clairement au haut du panier de sa génération sur GPQA diamond, un benchmark associé à des questions scientifiques exigeantes. Les résultats élevés en General Knowledge, Hallucinations et Email Classification indiquent aussi un modèle solide sur les tâches générales, avec une bonne fiabilité relative dans les évaluations disponibles. Sa grande fenêtre de contexte renforce son intérêt historique pour l’analyse de longs contenus.
Limites et points d'attention. o1 est aujourd’hui un modèle ancien dans un secteur où les générations se renouvellent vite. Ses performances globales, notamment son Intelligence Index en milieu de classement et son classement Arena text éloigné des premiers rangs, indiquent un modèle probablement dépassé face aux références actuelles. Le Code Index le place aussi dans une zone moins favorable que ses meilleurs résultats en raisonnement. Son plafond de connaissances s’arrête au 2023-10-31. Le coût constitue une autre limite nette : l’entrée à 15 $ par million de tokens et la sortie à 60 $ par million le placent 670% au-dessus de la moyenne des LLM similaires, et environ 3,1 fois plus cher que les modèles frontière. Un modèle de cet âge est en outre souvent retiré du catalogue de son éditeur.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).