OpenAI

o1-mini

o1-mini est un LLM propriétaire d’OpenAI, sorti le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Près de deux ans d’ancienneté représentent un écart très long à l’échelle de l’IA, ce qui le situe surtout comme un modèle de sa génération…

Son profil est celui d’un modèle compact orienté raisonnement, particulièrement visible à sa sortie sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses connaissances s’arrêtent au 31 octobre 2023, ce qui limite son intérêt pour les sujets postérieurs.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	12 septembre 2024
Connaissances jusqu'à	2023-10-31
Multimodal	non
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	89,2 %	16ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	62,4 %	67ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	46,9 %	61ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	1,7 %	56ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
HumanEval	92,4 %	7ᵉ / 65	llm-stats	Auto-déclaré
MATH-500	90,0 %	27ᵉ / 31	llm-stats	Auto-déclaré
MMLU	85,2 %	39ᵉ / 98	llm-stats	Auto-déclaré
GPQA	60,0 %	140ᵉ / 213	llm-stats	Auto-déclaré
Cybersecurity CTFs	28,7 %	3ᵉ / 3	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Grok-3 Mini91 %

▶ o1-mini89 %

Gemini 2.0 Flash82 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Grok 4.3 Beta89 %

▶ o1-mini62 %

Mistral Medium…60 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1337	191ᵉ

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. À sa sortie, o1-mini figurait dans le top 2% des LLM de sa période sur GPQA diamond, ce qui indique un niveau alors très compétitif sur des questions scientifiques difficiles. Son résultat sur MATH level 5 le place aussi dans le haut du tableau pour le raisonnement mathématique scolaire avancé. La fenêtre de contexte de 128 000 tokens constitue un autre atout concret, utile pour traiter de longs documents ou conserver davantage d’éléments dans une même requête. La couverture par 4 sources de données concordantes renforce la fiabilité des informations disponibles sur ses performances publiques.

Limites et points d'attention. o1-mini est désormais un modèle ancien dans un marché où les générations se remplacent rapidement, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il est souvent retiré du catalogue de l’éditeur à ce stade de son cycle de vie. Ses résultats sur FrontierMath montrent une très forte limite face aux mathématiques de recherche très difficiles, avec un score nul sur la version publique et quasi nul sur la version privée. Son classement Arena text reste éloigné des premières places, ce qui suggère une qualité perçue inférieure aux meilleurs modèles conversationnels. La licence propriétaire empêche l’audit direct des poids et limite les usages nécessitant un contrôle complet du modèle.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

o1-mini

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast