o1-preview
o1-preview est un LLM propriétaire d'OpenAI, publié le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Son âge, environ deux ans, est très long à l'échelle de l'IA générative : la fiche doit donc le lire comme un modèle de sa génération, non…
o1-preview est un LLM propriétaire d'OpenAI, publié le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Son âge, environ deux ans, est très long à l'échelle de l'IA générative : la fiche doit donc le lire comme un modèle de sa génération, non comme une référence actuelle.
À sa sortie, o1-preview se distinguait surtout par son niveau en raisonnement scientifique et mathématique, avec une place dans le top 13% des LLM contemporains sur GPQA diamond. Son positionnement était premium, avec un coût nettement supérieur à la moyenne des LLM similaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 12 septembre 2024 |
| Connaissances jusqu'à | 2023-10-31 |
| Multimodal | non |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 17.0 | 110ᵉ / 136 |
| Code Index | 34.0 | 40ᵉ / 50 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 81,6 % | 25ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 50,3 % | 79ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 31,1 % | 67ᵉ / 111 | epoch | ✅ Mesuré |
| MGSM | 90,8 % | 5ᵉ / 30 | llm-stats | Auto-déclaré |
| MMLU | 90,8 % | 3ᵉ / 98 | llm-stats | Auto-déclaré |
| MATH | 85,5 % | 12ᵉ / 70 | llm-stats | Auto-déclaré |
| GPQA | 73,3 % | 99ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveBench | 52,3 % | 34ᵉ / 38 | llm-stats | Auto-déclaré |
| SimpleQA | 42,4 % | 20ᵉ / 45 | llm-stats | Auto-déclaré |
| AIME 2024 | 42,0 % | 48ᵉ / 52 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 41,3 % | 89ᵉ / 100 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1388 | 135ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 16,5 $ | 66 $ | 8,25 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 747 % au-dessus de la moyenne des LLM similaires, et 3,4 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. o1-preview a surtout marqué sa période par ses résultats en raisonnement. Sur MATH level 5, il se situe dans une zone solide pour les problèmes mathématiques exigeants, et son classement initial sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, le plaçait dans le haut du panier de sa génération. La fenêtre de contexte de 128 000 tokens renforçait aussi son intérêt pour l'analyse de documents longs, au moins dans le cadre des modèles disponibles à sa sortie. Son origine OpenAI et sa couverture par 5 sources concordantes donnent également une base de comparaison relativement stable.
Limites et points d'attention. o1-preview est aujourd'hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent retiré du catalogue de l'éditeur. Ses classements globaux sont faibles dans les relevés actuels, notamment sur l'Intelligence Index et l'Arena text, tandis que le Code Index le place en bas de tableau parmi les modèles évalués. Sa limite de connaissances au 31 octobre 2023 restreint aussi son actualité. Le tarif reste un point dur : il relève du premium, à 747% au-dessus de la moyenne des LLM similaires et environ 3,4 fois plus cher que des modèles frontière.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.