DeepSeek

DeepSeek-V4-Flash-Max

DeepSeek-V4-Flash-Max est un LLM open-weights publié par DeepSeek le 23 avril 2026 sous licence MIT, avec usage commercial autorisé. Son positionnement combine un très grand format, 284 milliards de paramètres, et une fenêtre de contexte d’environ 1,0 M de tokens.

Le modèle se distingue surtout par un tarif très économique, annoncé 95% sous la moyenne des LLM similaires et environ 53,7 fois inférieur aux modèles frontière. Cette combinaison entre contexte massif, licence permissive et coût bas en fait un modèle notable dans la génération de LLM sortie au printemps 2026.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	23 avril 2026
Multimodal	non
Paramètres	284 milliards
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
PinchBench : agentique (OpenClaw, 147 tâches)	81,7 %	10ᵉ / 52	pinchbench	✅ Mesuré
CodeForces	100,0 %	1ᵉ / 16	llm-stats	Auto-déclaré
HMMT Feb 26	94,8 %	3ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench	91,6 %	2ᵉ / 72	llm-stats	Auto-déclaré
IMO-AnswerBench	88,4 %	5ᵉ / 18	llm-stats	Auto-déclaré
GPQA	88,1 %	23ᵉ / 213	llm-stats	Auto-déclaré
MMLU-Pro	86,2 %	11ᵉ / 125	llm-stats	Auto-déclaré
MathArena Apex	85,7 %	2ᵉ / 6	llm-stats	Auto-déclaré
SWE-Bench Verified	79,0 %	15ᵉ / 100	llm-stats	Auto-déclaré
CSimpleQA	78,9 %	4ᵉ / 7	llm-stats	Auto-déclaré
MRCR 1M	78,7 %	2ᵉ / 3	llm-stats	Auto-déclaré
SWE-bench Multilingual	73,3 %	10ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp	73,2 %	21ᵉ / 51	llm-stats	Auto-déclaré
MCP Atlas	69,0 %	16ᵉ / 27	llm-stats	Auto-déclaré
Terminal-Bench 2.0	56,9 %	26ᵉ / 48	llm-stats	Auto-déclaré
SWE-Bench Pro	52,6 %	28ᵉ / 34	llm-stats	Auto-déclaré
Toolathlon	47,8 %	11ᵉ / 23	llm-stats	Auto-déclaré
Humanity's Last Exam	45,1 %	23ᵉ / 86	llm-stats	Auto-déclaré
GDPval-AA	40,1 %	15ᵉ / 33	llm-stats	n.d.
SimpleQA	34,1 %	23ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %

Claude Opus 4.891 %

Nemotron 3 Ultra90 %

Grok Build 0.189 %

▶ DeepSeek-V4-Flash-Max82 %

Gemini 3.1 Pro Preview81 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Wafer	0,09 $	0,18 $	0,02 $
deepinfra	0,1 $	0,2 $	n.d.
deepseek	0,14 $	0,28 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	1,44 $
Durée d'exécution — PinchBench	4 h 41 min
Indice valeur/coût — PinchBench	103,71

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. DeepSeek-V4-Flash-Max se place dans le top 10 de PinchBench agentique (OpenClaw, 147 tâches), un benchmark centré sur l’exécution de tâches par agent. Ce résultat indique un niveau solide sur les scénarios où un modèle doit enchaîner des actions, suivre des consignes et gérer des tâches structurées. À sa sortie, il figurait aussi dans le top 12% de sa génération sur GPQA, ce qui le situe dans le haut du panier des LLM contemporains sur ce test. Sa fenêtre de contexte d’environ 1,0 M de tokens renforce son intérêt pour l’analyse de longs documents, de bases textuelles volumineuses ou de conversations étendues. La licence MIT et le tarif très bas ajoutent un avantage concret pour les déploiements commerciaux sensibles aux coûts.

Limites et points d’attention. Les données vérifiées disponibles restent limitées à 3 sources concordantes et ne documentent pas d’autres dimensions clés comme le code, les mathématiques avancées, le multimodal, la sûreté ou les langues couvertes. Le modèle compte 284 milliards de paramètres, ce qui en fait un LLM de grande taille malgré son positionnement tarifaire économique. Les performances connues le placent favorablement à sa sortie, mais uniquement sur les mesures citées, sans garantie sur des usages non couverts par les benchmarks fournis. Modèle adapté aux projets recherchant un LLM open-weights à très long contexte, économique, et déjà compétitif sur les tâches agentiques documentées.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).

DeepSeek-V4-Flash-Max

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast