DeepSeek-V4-Flash-Max

DeepSeek-V4-Flash-Max est un LLM open-weights publié par DeepSeek le 23 avril 2026 sous licence MIT, avec usage commercial autorisé. Son positionnement combine un très grand format, 284 milliards de paramètres, et une fenêtre de contexte d’environ 1,0 M de tokens.

DeepSeek-V4-Flash-Max est un LLM open-weights publié par DeepSeek le 23 avril 2026 sous licence MIT, avec usage commercial autorisé. Son positionnement combine un très grand format, 284 milliards de paramètres, et une fenêtre de contexte d’environ 1,0 M de tokens.

Le modèle se distingue surtout par un tarif très économique, annoncé 95% sous la moyenne des LLM similaires et environ 53,7 fois inférieur aux modèles frontière. Cette combinaison entre contexte massif, licence permissive et coût bas en fait un modèle notable dans la génération de LLM sortie au printemps 2026.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie23 avril 2026
Multimodalnon
Paramètres284 milliards
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
PinchBench : agentique (OpenClaw, 147 tâches)81,7 %10ᵉ / 52pinchbench✅ Mesuré
CodeForces100,0 %1ᵉ / 16llm-statsAuto-déclaré
HMMT Feb 2694,8 %3ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench91,6 %2ᵉ / 72llm-statsAuto-déclaré
IMO-AnswerBench88,4 %5ᵉ / 18llm-statsAuto-déclaré
GPQA88,1 %23ᵉ / 213llm-statsAuto-déclaré
MMLU-Pro86,2 %11ᵉ / 125llm-statsAuto-déclaré
MathArena Apex85,7 %2ᵉ / 6llm-statsAuto-déclaré
SWE-Bench Verified79,0 %15ᵉ / 100llm-statsAuto-déclaré
CSimpleQA78,9 %4ᵉ / 7llm-statsAuto-déclaré
MRCR 1M78,7 %2ᵉ / 3llm-statsAuto-déclaré
SWE-bench Multilingual73,3 %10ᵉ / 32llm-statsAuto-déclaré
BrowseComp73,2 %21ᵉ / 51llm-statsAuto-déclaré
MCP Atlas69,0 %16ᵉ / 27llm-statsAuto-déclaré
Terminal-Bench 2.056,9 %26ᵉ / 48llm-statsAuto-déclaré
SWE-Bench Pro52,6 %28ᵉ / 34llm-statsAuto-déclaré
Toolathlon47,8 %11ᵉ / 23llm-statsAuto-déclaré
Humanity's Last Exam45,1 %23ᵉ / 86llm-statsAuto-déclaré
GDPval-AA40,1 %15ᵉ / 33llm-statsn.d.
SimpleQA34,1 %23ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %
Nemotron 3 Ultra90 %
Grok Build 0.189 %
▶ DeepSeek-V4-Flash-Max82 %
Gemini 3.1 Pro Preview81 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Wafer0,09 $0,18 $0,02 $
deepinfra0,1 $0,2 $n.d.
deepseek0,14 $0,28 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)1,44 $
Durée d'exécution — PinchBench4 h 41 min
Indice valeur/coût — PinchBench103,71

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. DeepSeek-V4-Flash-Max se place dans le top 10 de PinchBench agentique (OpenClaw, 147 tâches), un benchmark centré sur l’exécution de tâches par agent. Ce résultat indique un niveau solide sur les scénarios où un modèle doit enchaîner des actions, suivre des consignes et gérer des tâches structurées. À sa sortie, il figurait aussi dans le top 12% de sa génération sur GPQA, ce qui le situe dans le haut du panier des LLM contemporains sur ce test. Sa fenêtre de contexte d’environ 1,0 M de tokens renforce son intérêt pour l’analyse de longs documents, de bases textuelles volumineuses ou de conversations étendues. La licence MIT et le tarif très bas ajoutent un avantage concret pour les déploiements commerciaux sensibles aux coûts.

Limites et points d’attention. Les données vérifiées disponibles restent limitées à 3 sources concordantes et ne documentent pas d’autres dimensions clés comme le code, les mathématiques avancées, le multimodal, la sûreté ou les langues couvertes. Le modèle compte 284 milliards de paramètres, ce qui en fait un LLM de grande taille malgré son positionnement tarifaire économique. Les performances connues le placent favorablement à sa sortie, mais uniquement sur les mesures citées, sans garantie sur des usages non couverts par les benchmarks fournis. Modèle adapté aux projets recherchant un LLM open-weights à très long contexte, économique, et déjà compétitif sur les tâches agentiques documentées.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).