DeepSeek-V4-Pro-Max

DeepSeek-V4-Pro-Max est un LLM open-weights de DeepSeek, publié le 23 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte, autour de 1,0 M de tokens, et par une taille annoncée de 1600 milliards de paramètres.

DeepSeek-V4-Pro-Max est un LLM open-weights de DeepSeek, publié le 23 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte, autour de 1,0 M de tokens, et par une taille annoncée de 1600 milliards de paramètres.

Son positionnement le plus net est économique : sa tarification est indiquée 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que celle des modèles frontière. À sa sortie, il se situait dans le top 8% de sa génération sur GPQA, ce qui le place haut pour les tâches de raisonnement évaluées par ce benchmark.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie23 avril 2026
Multimodalnon
Paramètres1600 milliards
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
PinchBench : agentique (OpenClaw, 147 tâches)61,1 %36ᵉ / 52pinchbench✅ Mesuré
CodeForces100,0 %1ᵉ / 16llm-statsAuto-déclaré
HMMT Feb 2695,2 %2ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench93,5 %1ᵉ / 72llm-statsAuto-déclaré
MathArena Apex90,2 %1ᵉ / 6llm-statsAuto-déclaré
GPQA90,1 %17ᵉ / 213llm-statsAuto-déclaré
IMO-AnswerBench89,8 %4ᵉ / 18llm-statsAuto-déclaré
MMLU-Pro87,5 %6ᵉ / 125llm-statsAuto-déclaré
CSimpleQA84,4 %1ᵉ / 7llm-statsAuto-déclaré
MRCR 1M83,5 %1ᵉ / 3llm-statsAuto-déclaré
BrowseComp83,4 %11ᵉ / 51llm-statsAuto-déclaré
SWE-Bench Verified80,6 %7ᵉ / 100llm-statsAuto-déclaré
SWE-bench Multilingual76,2 %7ᵉ / 32llm-statsAuto-déclaré
MCP Atlas73,6 %12ᵉ / 27llm-statsAuto-déclaré
LiveBench73,6 %20ᵉ / 38llm-statsn.d.
Terminal-Bench 2.067,9 %13ᵉ / 48llm-statsAuto-déclaré
SimpleQA57,9 %9ᵉ / 45llm-statsAuto-déclaré
SWE-Bench Pro55,4 %21ᵉ / 34llm-statsAuto-déclaré
Toolathlon51,8 %5ᵉ / 23llm-statsAuto-déclaré
Humanity's Last Exam48,2 %19ᵉ / 86llm-statsAuto-déclaré
GDPval-AA44,4 %11ᵉ / 33llm-statsn.d.
FrontierSWE29,0 %10ᵉ / 13llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %
Nemotron 3 Ultra90 %
Devstral 2 251269 %
▶ DeepSeek-V4-Pro-Max61 %
nova-2-lite-v138 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepSeek0,435 $0,87 $0,003625 $
novita1,6 $3,2 $n.d.
deepinfra1,74 $3,48 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)0,58 $
Durée d'exécution — PinchBench6 h 15 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. DeepSeek-V4-Pro-Max combine trois atouts rares dans une même fiche : des poids ouverts sous licence MIT, une fenêtre de contexte très étendue et un prix très bas pour sa catégorie. Le classement GPQA le situe, à sa sortie, dans le haut du panier des LLM de la même période, ce qui indique une bonne tenue sur des questions exigeantes de raisonnement et de connaissances. La couverture par 3 sources de données concordantes renforce aussi la lisibilité de son positionnement, notamment sur le prix et les caractéristiques principales. L’intérêt du modèle est donc d’offrir un grand modèle ouvert, exploitable commercialement, avec un coût d’usage nettement inférieur aux modèles haut de gamme.

Limites et points d'attention. Son résultat sur PinchBench agentique, basé sur OpenClaw et 147 tâches, le place plutôt en retrait dans ce classement, avec un rang situé dans la seconde moitié du panel. Le modèle paraît donc moins convaincant pour les usages agentiques complexes que pour le raisonnement général mesuré par GPQA. Sa très grande taille peut aussi impliquer des contraintes d’hébergement ou d’inférence, même si aucun détail matériel n’est fourni dans les données disponibles. DeepSeek-V4-Pro-Max vise surtout les déploiements où le coût, l’ouverture des poids, le contexte long et la licence commerciale pèsent davantage que le meilleur niveau agentique disponible.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).