DeepSeek-R1
DeepSeek-R1 est un LLM open-weights publié par DeepSeek le 28 mai 2025 sous licence MIT, avec usage commercial autorisé. Issu de Chine, il appartient déjà à une génération ancienne à l'échelle de l'IA, environ un an d'ancienneté, ce qui impose de le lire face aux modèles de sa période…
DeepSeek-R1 est un LLM open-weights publié par DeepSeek le 28 mai 2025 sous licence MIT, avec usage commercial autorisé. Issu de Chine, il appartient déjà à une génération ancienne à l'échelle de l'IA, environ un an d'ancienneté, ce qui impose de le lire face aux modèles de sa période plutôt qu'aux meilleurs systèmes actuels.
Son profil reste singulier par son très grand format, 671 milliards de paramètres dont 37 milliards actifs, et par une fenêtre de contexte de 163 840 tokens. L'effort d'entraînement est marquant: 3,5 × 10²⁴ FLOP, soit environ 972 000 heures-GPU H100, pour un coût estimé à ~6,8 millions de dollars (USD 2023).
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 28 mai 2025 |
| Multimodal | non |
| Paramètres | 671 milliards |
| Paramètres actifs | 37 milliards |
| Fenêtre de contexte | 163 840 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 20.1 | 99ᵉ / 136 |
| Math Index | 76.0 | 18ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Instruction Following (Baseline) | 100,0 % | 1ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 96,6 % | 7ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,5 % | 166ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 96,0 % | 202ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 76,3 % | 50ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 66,4 % | 55ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 27,4 % | 39ᵉ / 52 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 2,4 % | 205ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 0,0 % | 232ᵉ / 239 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1398 | 122ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 1,35 $ | 4,2 $ | 1,35 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 31 % en dessous de la moyenne des LLM similaires, et 3,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,07 $ |
| Latence moyenne par benchmark — Benchable | 23 min 31 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 3,5 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 1,5 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 6 770 000 $ (USD 2023) |
| Pays | China |
Notre analyse
Forces. À sa sortie, DeepSeek-R1 se plaçait dans le haut du panier de sa génération, avec un classement top 12% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses meilleurs signaux viennent du suivi d'instructions et de la classification d'emails sur Benchable, où il apparaît en top 10, ainsi que de MATH level 5 sur Epoch, également en top 10. Le Math Index confirme ce profil solide sur les tâches mathématiques. La licence MIT, les poids ouverts et le positionnement économique renforcent son intérêt historique: le tarif se situe 31% sous la moyenne des LLM similaires et environ 3,6 fois sous celui des modèles frontière.
Limites et points d'attention. DeepSeek-R1 accuse désormais son âge: environ un an représente un cycle très long pour les LLM, et ses performances sont aujourd'hui largement dépassées par les modèles plus récents. Son Intelligence Index le situe loin des premières places, tandis que General Knowledge, Ethics, Hallucinations et Arena text relèvent plutôt du milieu ou de la seconde moitié des classements disponibles. Il n'est souvent plus proposé par l'éditeur dans les catalogues actuels. Le point qui reste le plus marquant est l'ampleur documentée de l'entraînement, avec l'équivalent d'environ 450 GPU H100 tournant trois mois et un coût estimé à ~6,8 millions de dollars (USD 2023).
Sources des données : LLM-Stats (llm-stats.com) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).