DeepSeek V4 Pro
DeepSeek V4 Pro est un LLM chinois publié par DeepSeek le 24 avril 2026. Il se distingue par une fenêtre de contexte d’environ 1,0 M de tokens, un format massif de 1600 milliards de paramètres et un positionnement tarifaire très économique, avec un prix annoncé 78% sous la moyenne des…
DeepSeek V4 Pro est un LLM chinois publié par DeepSeek le 24 avril 2026. Il se distingue par une fenêtre de contexte d’environ 1,0 M de tokens, un format massif de 1600 milliards de paramètres et un positionnement tarifaire très économique, avec un prix annoncé 78% sous la moyenne des LLM similaires.
Son entraînement revendique 9,7 × 10²⁴ FLOP, soit environ 2,7 millions d’heures-GPU H100, l’équivalent d’environ 1 200 GPU H100 tournant trois mois. À sa sortie, il se situait dans le top 18% de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Date de sortie | 24 avril 2026 |
| Paramètres | 1600 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 44.3 | 10ᵉ / 136 |
| Code Index | 59.4 | 13ᵉ / 50 |
| Agentic Index | 36.4 | 8ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,5 % | 142ᵉ / 250 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 96,7 % | 6ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 96,0 % | 202ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,5 % | 23ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,4 % | 41ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 93,1 % | 139ᵉ / 229 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 90,7 % | 9ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 89,6 % | 16ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Reasoning | 82,7 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 80,0 % | 48ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Language | 78,1 % | 16ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 77,6 % | 6ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Data Analysis | 74,5 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 73,6 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 70,0 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 62,4 % | 26ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 57,0 % | 11ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 56,7 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 45,3 % | 22ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 20,0 % | 22ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 2,4 % | 27ᵉ / 32 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1458 | 24ᵉ |
| Arena Text | 1457 | 38ᵉ |
| Arena Text | 1457 | 39ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 0,435 $ | 0,87 $ | 0,0036 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 10 min 21 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 9,7 × 10²⁴ FLOP |
| Pays | China |
Notre analyse
Forces. DeepSeek V4 Pro ressort comme un modèle généraliste solide, particulièrement bien placé sur l’Intelligence Index et l’Agentic Index, tous deux dans le top 10. Ses meilleurs résultats Benchable concernent l’Email Classification et le Reasoning, où il atteint le premier rang, ce qui signale une forte fiabilité sur des tâches structurées et de raisonnement standardisé. Le score très élevé sur OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée, confirme un bon niveau en résolution mathématique. Le Coding Baseline est également élevé, même si le classement Arena Code le situe plus bas que les meilleurs modèles de code. Le prix constitue un autre point fort net, avec un tarif très inférieur aux modèles frontière et aux LLM comparables.
Limites et points d'attention. Les résultats sont plus contrastés en General Knowledge et en Ethics, deux Benchable où les pourcentages restent élevés mais les rangs indiquent une position nettement moins compétitive. Les classements Arena Text et Arena Code placent aussi le modèle hors du tout premier groupe en préférence utilisateur, malgré de bons indices synthétiques. Sa très grande taille, 1600 milliards de paramètres, peut impliquer des contraintes d’intégration selon les modalités d’accès retenues. Profil d’usage: raisonnement, traitement de longs contextes, tâches agentiques et cas où le coût par token compte fortement.
Sources des données : Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).