o1-mini

o1-mini est un LLM propriétaire d’OpenAI, sorti le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Près de deux ans d’ancienneté représentent un écart très long à l’échelle de l’IA, ce qui le situe surtout comme un modèle de sa génération…

o1-mini est un LLM propriétaire d’OpenAI, sorti le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Près de deux ans d’ancienneté représentent un écart très long à l’échelle de l’IA, ce qui le situe surtout comme un modèle de sa génération plutôt que comme une référence actuelle.

Son profil est celui d’un modèle compact orienté raisonnement, particulièrement visible à sa sortie sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses connaissances s’arrêtent au 31 octobre 2023, ce qui limite son intérêt pour les sujets postérieurs.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie12 septembre 2024
Connaissances jusqu'à2023-10-31
Multimodalnon
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 589,2 %16ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond62,4 %67ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202546,9 %61ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private1,7 %56ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
HumanEval92,4 %7ᵉ / 65llm-statsAuto-déclaré
MATH-50090,0 %27ᵉ / 31llm-statsAuto-déclaré
MMLU85,2 %39ᵉ / 98llm-statsAuto-déclaré
GPQA60,0 %140ᵉ / 213llm-statsAuto-déclaré
Cybersecurity CTFs28,7 %3ᵉ / 3llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
▶ o1-mini89 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ o1-mini62 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1337191ᵉ

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. À sa sortie, o1-mini figurait dans le top 2% des LLM de sa période sur GPQA diamond, ce qui indique un niveau alors très compétitif sur des questions scientifiques difficiles. Son résultat sur MATH level 5 le place aussi dans le haut du tableau pour le raisonnement mathématique scolaire avancé. La fenêtre de contexte de 128 000 tokens constitue un autre atout concret, utile pour traiter de longs documents ou conserver davantage d’éléments dans une même requête. La couverture par 4 sources de données concordantes renforce la fiabilité des informations disponibles sur ses performances publiques.

Limites et points d'attention. o1-mini est désormais un modèle ancien dans un marché où les générations se remplacent rapidement, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il est souvent retiré du catalogue de l’éditeur à ce stade de son cycle de vie. Ses résultats sur FrontierMath montrent une très forte limite face aux mathématiques de recherche très difficiles, avec un score nul sur la version publique et quasi nul sur la version privée. Son classement Arena text reste éloigné des premières places, ce qui suggère une qualité perçue inférieure aux meilleurs modèles conversationnels. La licence propriétaire empêche l’audit direct des poids et limite les usages nécessitant un contrôle complet du modèle.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.