o1-pro
o1-pro est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts. Son profil est celui d’un modèle premium de sa génération, conçu autour d’une grande fenêtre de contexte de 200 000 tokens et d’un positionnement tarifaire très élevé.
o1-pro est un LLM propriétaire d’OpenAI, sorti le 17 décembre 2024, avec des poids non ouverts. Son profil est celui d’un modèle premium de sa génération, conçu autour d’une grande fenêtre de contexte de 200 000 tokens et d’un positionnement tarifaire très élevé.
Avec environ deux ans d’ancienneté, o1-pro appartient déjà à une période longue à l’échelle de l’IA. À sa sortie, il se situait dans le haut du panier sur GPQA, parmi les 4% meilleurs LLM de sa période, mais ses connaissances s’arrêtent au 30 septembre 2023.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 décembre 2024 |
| Connaissances jusqu'à | 2023-09-30 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image,file → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 84,0 % | 31ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 75,0 % | 195ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 68,0 % | 222ᵉ / 248 | benchable | ✅ Mesuré |
| AIME 2024 | 86,0 % | 15ᵉ / 52 | llm-stats | Auto-déclaré |
| GPQA | 79,0 % | 78ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Instruction Following (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 150 $ | 600 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 7596 % au-dessus de la moyenne des LLM similaires, et 31 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 35,61 $ |
| Latence moyenne par benchmark — Benchable | 1 h 18 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. o1-pro se distingue surtout par ses résultats solides en Email Classification (Baseline), où il apparaît dans une zone haute du classement, et par un bon niveau en Instruction Following (Baseline), qui mesure la capacité à respecter des consignes. À sa sortie, son positionnement sur GPQA le plaçait parmi les meilleurs LLM de sa génération, ce qui en faisait un modèle notable pour les tâches de raisonnement évaluées à cette période. Sa fenêtre de contexte de 200 000 tokens reste aussi un élément structurant de son profil, adaptée aux entrées longues et aux documents volumineux.
Limites et points d'attention. o1-pro est un modèle ancien dans un secteur où les cycles de remplacement sont rapides. Ses performances sont aujourd’hui largement dépassées par des modèles plus récents, et ce type de modèle est souvent retiré du catalogue de son éditeur avec le temps. Ses résultats Benchable sont faibles en Coding (Baseline) et surtout en Ethics (Baseline), où il se situe dans le bas du classement. Le coût constitue un autre frein majeur : ses tarifs d’entrée et de sortie le placent très au-dessus de la moyenne des LLM similaires, avec un niveau environ 31 fois supérieur à celui des modèles frontière.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).