o1-mini
o1-mini est un LLM propriétaire d’OpenAI, sorti le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Près de deux ans d’ancienneté représentent un écart très long à l’échelle de l’IA, ce qui le situe surtout comme un modèle de sa génération…
o1-mini est un LLM propriétaire d’OpenAI, sorti le 12 septembre 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. Près de deux ans d’ancienneté représentent un écart très long à l’échelle de l’IA, ce qui le situe surtout comme un modèle de sa génération plutôt que comme une référence actuelle.
Son profil est celui d’un modèle compact orienté raisonnement, particulièrement visible à sa sortie sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses connaissances s’arrêtent au 31 octobre 2023, ce qui limite son intérêt pour les sujets postérieurs.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 12 septembre 2024 |
| Connaissances jusqu'à | 2023-10-31 |
| Multimodal | non |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 89,2 % | 16ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 62,4 % | 67ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 46,9 % | 61ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 1,7 % | 56ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| HumanEval | 92,4 % | 7ᵉ / 65 | llm-stats | Auto-déclaré |
| MATH-500 | 90,0 % | 27ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU | 85,2 % | 39ᵉ / 98 | llm-stats | Auto-déclaré |
| GPQA | 60,0 % | 140ᵉ / 213 | llm-stats | Auto-déclaré |
| Cybersecurity CTFs | 28,7 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1337 | 191ᵉ |
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. À sa sortie, o1-mini figurait dans le top 2% des LLM de sa période sur GPQA diamond, ce qui indique un niveau alors très compétitif sur des questions scientifiques difficiles. Son résultat sur MATH level 5 le place aussi dans le haut du tableau pour le raisonnement mathématique scolaire avancé. La fenêtre de contexte de 128 000 tokens constitue un autre atout concret, utile pour traiter de longs documents ou conserver davantage d’éléments dans une même requête. La couverture par 4 sources de données concordantes renforce la fiabilité des informations disponibles sur ses performances publiques.
Limites et points d'attention. o1-mini est désormais un modèle ancien dans un marché où les générations se remplacent rapidement, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il est souvent retiré du catalogue de l’éditeur à ce stade de son cycle de vie. Ses résultats sur FrontierMath montrent une très forte limite face aux mathématiques de recherche très difficiles, avec un score nul sur la version publique et quasi nul sur la version privée. Son classement Arena text reste éloigné des premières places, ce qui suggère une qualité perçue inférieure aux meilleurs modèles conversationnels. La licence propriétaire empêche l’audit direct des poids et limite les usages nécessitant un contrôle complet du modèle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.