DeepSeek V4 Flash
DeepSeek V4 Flash est un LLM de DeepSeek, sorti le 24 avril 2026, avec un positionnement très économique et une fenêtre de contexte d’environ 1,0 M de tokens. Le modèle combine 284 milliards de paramètres avec un tarif très inférieur à celui des LLM similaires, ce qui en fait une…
DeepSeek V4 Flash est un LLM de DeepSeek, sorti le 24 avril 2026, avec un positionnement très économique et une fenêtre de contexte d’environ 1,0 M de tokens. Le modèle combine 284 milliards de paramètres avec un tarif très inférieur à celui des LLM similaires, ce qui en fait une proposition orientée volume.
Son entraînement est l’un des éléments marquants de la fiche, avec 2,5 × 10²⁴ FLOP, soit environ 693 000 heures-GPU H100, l’équivalent d’environ 320 GPU H100 mobilisés pendant trois mois. À sa sortie, il se situait dans le top 39% des LLM de sa génération sur LiveBench: Global average.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Date de sortie | 24 avril 2026 |
| Paramètres | 284 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 28.7 | 70ᵉ / 136 |
| Code Index | 56.2 | 17ᵉ / 50 |
| Agentic Index | 31.1 | 10ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 92,0 % | 140ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 84,0 % | 31ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 79,6 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 70,6 % | 37ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 70,1 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 69,2 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 68,0 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 67,2 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 63,1 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 50,0 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1437 | 64ᵉ |
| Arena Text | 1435 | 66ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 0,14 $ | 0,28 $ | 0,0028 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 34,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 11 min 37 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 2,5 × 10²⁴ FLOP |
| Pays | China |
Notre analyse
Forces. DeepSeek V4 Flash ressort surtout par son rapport performance-prix. Sa tarification est 93% inférieure à la moyenne des LLM similaires et environ 34,5 fois moins chère que les modèles frontière, ce qui renforce son intérêt pour les traitements à grande échelle. Côté performances, le modèle atteint le plus haut niveau sur Benchable Reasoning (Baseline) et Benchable Ethics (Baseline), avec un positionnement top 10 sur ces deux tâches. Il affiche aussi de bons résultats en Coding (Baseline), Mathematics (Baseline) et Email Classification (Baseline). Son Code Index le place dans le haut du classement, tandis que son Agentic Index atteint le top 10, un signal favorable pour les usages impliquant enchaînement d’actions, structuration de tâches et assistance au développement.
Limites et points d’attention. Le profil est moins dominant sur les mesures généralistes. L’Intelligence Index reste en milieu de tableau et les deux mesures Arena text le situent loin des tout premiers modèles conversationnels. Le résultat Benchable General Knowledge (Baseline) est élevé en score brut, mais son rang relatif montre une concurrence dense sur les connaissances générales. Le modèle n’apparaît donc pas comme un leader global, plutôt comme un LLM très compétitif sur le raisonnement, l’éthique, le code et l’agentique, avec un prix fortement agressif. Le modèle cible surtout les usages à fort volume de texte, de code et de classification où le coût par token compte autant que la performance.
Sources des données : Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).