DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max est un LLM open-weights de DeepSeek, publié le 23 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte, autour de 1,0 M de tokens, et par une taille annoncée de 1600 milliards de paramètres.
DeepSeek-V4-Pro-Max est un LLM open-weights de DeepSeek, publié le 23 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte, autour de 1,0 M de tokens, et par une taille annoncée de 1600 milliards de paramètres.
Son positionnement le plus net est économique : sa tarification est indiquée 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que celle des modèles frontière. À sa sortie, il se situait dans le top 8% de sa génération sur GPQA, ce qui le place haut pour les tâches de raisonnement évaluées par ce benchmark.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 23 avril 2026 |
| Multimodal | non |
| Paramètres | 1600 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| PinchBench : agentique (OpenClaw, 147 tâches) | 61,1 % | 36ᵉ / 52 | pinchbench | ✅ Mesuré |
| CodeForces | 100,0 % | 1ᵉ / 16 | llm-stats | Auto-déclaré |
| HMMT Feb 26 | 95,2 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveCodeBench | 93,5 % | 1ᵉ / 72 | llm-stats | Auto-déclaré |
| MathArena Apex | 90,2 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| GPQA | 90,1 % | 17ᵉ / 213 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 89,8 % | 4ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Pro | 87,5 % | 6ᵉ / 125 | llm-stats | Auto-déclaré |
| CSimpleQA | 84,4 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| MRCR 1M | 83,5 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| BrowseComp | 83,4 % | 11ᵉ / 51 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,6 % | 7ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 76,2 % | 7ᵉ / 32 | llm-stats | Auto-déclaré |
| MCP Atlas | 73,6 % | 12ᵉ / 27 | llm-stats | Auto-déclaré |
| LiveBench | 73,6 % | 20ᵉ / 38 | llm-stats | n.d. |
| Terminal-Bench 2.0 | 67,9 % | 13ᵉ / 48 | llm-stats | Auto-déclaré |
| SimpleQA | 57,9 % | 9ᵉ / 45 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 55,4 % | 21ᵉ / 34 | llm-stats | Auto-déclaré |
| Toolathlon | 51,8 % | 5ᵉ / 23 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 48,2 % | 19ᵉ / 86 | llm-stats | Auto-déclaré |
| GDPval-AA | 44,4 % | 11ᵉ / 33 | llm-stats | n.d. |
| FrontierSWE | 29,0 % | 10ᵉ / 13 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
PinchBench : agentique (OpenClaw, 147 tâches)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepSeek | 0,435 $ | 0,87 $ | 0,003625 $ |
| novita | 1,6 $ | 3,2 $ | n.d. |
| deepinfra | 1,74 $ | 3,48 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 0,58 $ |
| Durée d'exécution — PinchBench | 6 h 15 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. DeepSeek-V4-Pro-Max combine trois atouts rares dans une même fiche : des poids ouverts sous licence MIT, une fenêtre de contexte très étendue et un prix très bas pour sa catégorie. Le classement GPQA le situe, à sa sortie, dans le haut du panier des LLM de la même période, ce qui indique une bonne tenue sur des questions exigeantes de raisonnement et de connaissances. La couverture par 3 sources de données concordantes renforce aussi la lisibilité de son positionnement, notamment sur le prix et les caractéristiques principales. L’intérêt du modèle est donc d’offrir un grand modèle ouvert, exploitable commercialement, avec un coût d’usage nettement inférieur aux modèles haut de gamme.
Limites et points d'attention. Son résultat sur PinchBench agentique, basé sur OpenClaw et 147 tâches, le place plutôt en retrait dans ce classement, avec un rang situé dans la seconde moitié du panel. Le modèle paraît donc moins convaincant pour les usages agentiques complexes que pour le raisonnement général mesuré par GPQA. Sa très grande taille peut aussi impliquer des contraintes d’hébergement ou d’inférence, même si aucun détail matériel n’est fourni dans les données disponibles. DeepSeek-V4-Pro-Max vise surtout les déploiements où le coût, l’ouverture des poids, le contexte long et la licence commerciale pèsent davantage que le meilleur niveau agentique disponible.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).