DeepSeek

DeepSeek-R1

DeepSeek-R1 est un LLM open-weights publié par DeepSeek le 28 mai 2025 sous licence MIT, avec usage commercial autorisé. Issu de Chine, il appartient déjà à une génération ancienne à l'échelle de l'IA, environ un an d'ancienneté, ce qui impose de le lire face aux modèles de sa période…

Son profil reste singulier par son très grand format, 671 milliards de paramètres dont 37 milliards actifs, et par une fenêtre de contexte de 163 840 tokens. L'effort d'entraînement est marquant: 3,5 × 10²⁴ FLOP, soit environ 972 000 heures-GPU H100, pour un coût estimé à ~6,8 millions de dollars (USD 2023).

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	28 mai 2025
Multimodal	non
Paramètres	671 milliards
Paramètres actifs	37 milliards
Fenêtre de contexte	163 840 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	20.1	99ᵉ / 136
Math Index	76.0	18ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Instruction Following (Baseline)	100,0 %	1ᵉ / 252	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	96,6 %	7ᵉ / 84	epoch	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,5 %	166ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	96,0 %	202ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	76,3 %	50ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	66,4 %	55ᵉ / 111	epoch	✅ Mesuré
Epoch: SimpleQA Verified	27,4 %	39ᵉ / 52	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	2,4 %	205ᵉ / 217	benchable	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ DeepSeek-R120.1

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Claude Haiku 4.583.7

▶ DeepSeek-R176.0

Qwen3-235B-A22B-Instruc…71.7

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1398	122ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
artificialanalysis	1,35 $	4,2 $	1,35 $

Prix en dollars US par million de tokens.

Sa tarification se situe 31 % en dessous de la moyenne des LLM similaires, et 3,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,07 $
Latence moyenne par benchmark — Benchable	23 min 31 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,5 × 10²⁴ FLOP
Taille du jeu d'entraînement	1,5 × 10¹³
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 6 770 000 $ (USD 2023)
Pays	China

Notre analyse

Forces. À sa sortie, DeepSeek-R1 se plaçait dans le haut du panier de sa génération, avec un classement top 12% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses meilleurs signaux viennent du suivi d'instructions et de la classification d'emails sur Benchable, où il apparaît en top 10, ainsi que de MATH level 5 sur Epoch, également en top 10. Le Math Index confirme ce profil solide sur les tâches mathématiques. La licence MIT, les poids ouverts et le positionnement économique renforcent son intérêt historique: le tarif se situe 31% sous la moyenne des LLM similaires et environ 3,6 fois sous celui des modèles frontière.

Limites et points d'attention. DeepSeek-R1 accuse désormais son âge: environ un an représente un cycle très long pour les LLM, et ses performances sont aujourd'hui largement dépassées par les modèles plus récents. Son Intelligence Index le situe loin des premières places, tandis que General Knowledge, Ethics, Hallucinations et Arena text relèvent plutôt du milieu ou de la seconde moitié des classements disponibles. Il n'est souvent plus proposé par l'éditeur dans les catalogues actuels. Le point qui reste le plus marquant est l'ampleur documentée de l'entraînement, avec l'équivalent d'environ 450 GPU H100 tournant trois mois et un coût estimé à ~6,8 millions de dollars (USD 2023).

Sources des données : LLM-Stats (llm-stats.com) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).