DeepSeek-V4-Flash-Max
DeepSeek-V4-Flash-Max est un LLM open-weights publié par DeepSeek le 23 avril 2026 sous licence MIT, avec usage commercial autorisé. Son positionnement combine un très grand format, 284 milliards de paramètres, et une fenêtre de contexte d’environ 1,0 M de tokens.
DeepSeek-V4-Flash-Max est un LLM open-weights publié par DeepSeek le 23 avril 2026 sous licence MIT, avec usage commercial autorisé. Son positionnement combine un très grand format, 284 milliards de paramètres, et une fenêtre de contexte d’environ 1,0 M de tokens.
Le modèle se distingue surtout par un tarif très économique, annoncé 95% sous la moyenne des LLM similaires et environ 53,7 fois inférieur aux modèles frontière. Cette combinaison entre contexte massif, licence permissive et coût bas en fait un modèle notable dans la génération de LLM sortie au printemps 2026.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 23 avril 2026 |
| Multimodal | non |
| Paramètres | 284 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| PinchBench : agentique (OpenClaw, 147 tâches) | 81,7 % | 10ᵉ / 52 | pinchbench | ✅ Mesuré |
| CodeForces | 100,0 % | 1ᵉ / 16 | llm-stats | Auto-déclaré |
| HMMT Feb 26 | 94,8 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveCodeBench | 91,6 % | 2ᵉ / 72 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 88,4 % | 5ᵉ / 18 | llm-stats | Auto-déclaré |
| GPQA | 88,1 % | 23ᵉ / 213 | llm-stats | Auto-déclaré |
| MMLU-Pro | 86,2 % | 11ᵉ / 125 | llm-stats | Auto-déclaré |
| MathArena Apex | 85,7 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 79,0 % | 15ᵉ / 100 | llm-stats | Auto-déclaré |
| CSimpleQA | 78,9 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| MRCR 1M | 78,7 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 73,3 % | 10ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp | 73,2 % | 21ᵉ / 51 | llm-stats | Auto-déclaré |
| MCP Atlas | 69,0 % | 16ᵉ / 27 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 56,9 % | 26ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 52,6 % | 28ᵉ / 34 | llm-stats | Auto-déclaré |
| Toolathlon | 47,8 % | 11ᵉ / 23 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 45,1 % | 23ᵉ / 86 | llm-stats | Auto-déclaré |
| GDPval-AA | 40,1 % | 15ᵉ / 33 | llm-stats | n.d. |
| SimpleQA | 34,1 % | 23ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
PinchBench : agentique (OpenClaw, 147 tâches)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Wafer | 0,09 $ | 0,18 $ | 0,02 $ |
| deepinfra | 0,1 $ | 0,2 $ | n.d. |
| deepseek | 0,14 $ | 0,28 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 1,44 $ |
| Durée d'exécution — PinchBench | 4 h 41 min |
| Indice valeur/coût — PinchBench | 103,71 |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. DeepSeek-V4-Flash-Max se place dans le top 10 de PinchBench agentique (OpenClaw, 147 tâches), un benchmark centré sur l’exécution de tâches par agent. Ce résultat indique un niveau solide sur les scénarios où un modèle doit enchaîner des actions, suivre des consignes et gérer des tâches structurées. À sa sortie, il figurait aussi dans le top 12% de sa génération sur GPQA, ce qui le situe dans le haut du panier des LLM contemporains sur ce test. Sa fenêtre de contexte d’environ 1,0 M de tokens renforce son intérêt pour l’analyse de longs documents, de bases textuelles volumineuses ou de conversations étendues. La licence MIT et le tarif très bas ajoutent un avantage concret pour les déploiements commerciaux sensibles aux coûts.
Limites et points d’attention. Les données vérifiées disponibles restent limitées à 3 sources concordantes et ne documentent pas d’autres dimensions clés comme le code, les mathématiques avancées, le multimodal, la sûreté ou les langues couvertes. Le modèle compte 284 milliards de paramètres, ce qui en fait un LLM de grande taille malgré son positionnement tarifaire économique. Les performances connues le placent favorablement à sa sortie, mais uniquement sur les mesures citées, sans garantie sur des usages non couverts par les benchmarks fournis. Modèle adapté aux projets recherchant un LLM open-weights à très long contexte, économique, et déjà compétitif sur les tâches agentiques documentées.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).