o1-preview

o1-preview est un LLM propriétaire d'OpenAI, publié le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Son âge, environ deux ans, est très long à l'échelle de l'IA générative : la fiche doit donc le lire comme un modèle de sa génération, non…

o1-preview est un LLM propriétaire d'OpenAI, publié le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Son âge, environ deux ans, est très long à l'échelle de l'IA générative : la fiche doit donc le lire comme un modèle de sa génération, non comme une référence actuelle.

À sa sortie, o1-preview se distinguait surtout par son niveau en raisonnement scientifique et mathématique, avec une place dans le top 13% des LLM contemporains sur GPQA diamond. Son positionnement était premium, avec un coût nettement supérieur à la moyenne des LLM similaires.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie12 septembre 2024
Connaissances jusqu'à2023-10-31
Multimodalnon
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index17.0110ᵉ / 136
Code Index34.040ᵉ / 50

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 581,6 %25ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond50,3 %79ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202531,1 %67ᵉ / 111epoch✅ Mesuré
MGSM90,8 %5ᵉ / 30llm-statsAuto-déclaré
MMLU90,8 %3ᵉ / 98llm-statsAuto-déclaré
MATH85,5 %12ᵉ / 70llm-statsAuto-déclaré
GPQA73,3 %99ᵉ / 213llm-statsAuto-déclaré
LiveBench52,3 %34ᵉ / 38llm-statsAuto-déclaré
SimpleQA42,4 %20ᵉ / 45llm-statsAuto-déclaré
AIME 202442,0 %48ᵉ / 52llm-statsAuto-déclaré
SWE-Bench Verified41,3 %89ᵉ / 100llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nova 2.0 Pro Preview21.8
▶ o1-preview17.0

Code Index

▶ o1-preview34.0
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text1388135ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
artificialanalysis16,5 $66 $8,25 $

Prix en dollars US par million de tokens.

Sa tarification se situe 747 % au-dessus de la moyenne des LLM similaires, et 3,4 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. o1-preview a surtout marqué sa période par ses résultats en raisonnement. Sur MATH level 5, il se situe dans une zone solide pour les problèmes mathématiques exigeants, et son classement initial sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, le plaçait dans le haut du panier de sa génération. La fenêtre de contexte de 128 000 tokens renforçait aussi son intérêt pour l'analyse de documents longs, au moins dans le cadre des modèles disponibles à sa sortie. Son origine OpenAI et sa couverture par 5 sources concordantes donnent également une base de comparaison relativement stable.

Limites et points d'attention. o1-preview est aujourd'hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent retiré du catalogue de l'éditeur. Ses classements globaux sont faibles dans les relevés actuels, notamment sur l'Intelligence Index et l'Arena text, tandis que le Code Index le place en bas de tableau parmi les modèles évalués. Sa limite de connaissances au 31 octobre 2023 restreint aussi son actualité. Le tarif reste un point dur : il relève du premium, à 747% au-dessus de la moyenne des LLM similaires et environ 3,4 fois plus cher que des modèles frontière.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.