DeepSeek

DeepSeek-V4-Pro-Max

DeepSeek-V4-Pro-Max est un LLM open-weights de DeepSeek, publié le 23 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte, autour de 1,0 M de tokens, et par une taille annoncée de 1600 milliards de paramètres.

Son positionnement le plus net est économique : sa tarification est indiquée 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que celle des modèles frontière. À sa sortie, il se situait dans le top 8% de sa génération sur GPQA, ce qui le place haut pour les tâches de raisonnement évaluées par ce benchmark.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	23 avril 2026
Multimodal	non
Paramètres	1600 milliards
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
PinchBench : agentique (OpenClaw, 147 tâches)	61,1 %	36ᵉ / 52	pinchbench	✅ Mesuré
CodeForces	100,0 %	1ᵉ / 16	llm-stats	Auto-déclaré
HMMT Feb 26	95,2 %	2ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench	93,5 %	1ᵉ / 72	llm-stats	Auto-déclaré
MathArena Apex	90,2 %	1ᵉ / 6	llm-stats	Auto-déclaré
GPQA	90,1 %	17ᵉ / 213	llm-stats	Auto-déclaré
IMO-AnswerBench	89,8 %	4ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Pro	87,5 %	6ᵉ / 125	llm-stats	Auto-déclaré
CSimpleQA	84,4 %	1ᵉ / 7	llm-stats	Auto-déclaré
MRCR 1M	83,5 %	1ᵉ / 3	llm-stats	Auto-déclaré
BrowseComp	83,4 %	11ᵉ / 51	llm-stats	Auto-déclaré
SWE-Bench Verified	80,6 %	7ᵉ / 100	llm-stats	Auto-déclaré
SWE-bench Multilingual	76,2 %	7ᵉ / 32	llm-stats	Auto-déclaré
MCP Atlas	73,6 %	12ᵉ / 27	llm-stats	Auto-déclaré
LiveBench	73,6 %	20ᵉ / 38	llm-stats	n.d.
Terminal-Bench 2.0	67,9 %	13ᵉ / 48	llm-stats	Auto-déclaré
SimpleQA	57,9 %	9ᵉ / 45	llm-stats	Auto-déclaré
SWE-Bench Pro	55,4 %	21ᵉ / 34	llm-stats	Auto-déclaré
Toolathlon	51,8 %	5ᵉ / 23	llm-stats	Auto-déclaré
Humanity's Last Exam	48,2 %	19ᵉ / 86	llm-stats	Auto-déclaré
GDPval-AA	44,4 %	11ᵉ / 33	llm-stats	n.d.
FrontierSWE	29,0 %	10ᵉ / 13	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %

Claude Opus 4.891 %

Nemotron 3 Ultra90 %

Devstral 2 251269 %

▶ DeepSeek-V4-Pro-Max61 %

nova-2-lite-v138 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepSeek	0,435 $	0,87 $	0,003625 $
novita	1,6 $	3,2 $	n.d.
deepinfra	1,74 $	3,48 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	0,58 $
Durée d'exécution — PinchBench	6 h 15 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. DeepSeek-V4-Pro-Max combine trois atouts rares dans une même fiche : des poids ouverts sous licence MIT, une fenêtre de contexte très étendue et un prix très bas pour sa catégorie. Le classement GPQA le situe, à sa sortie, dans le haut du panier des LLM de la même période, ce qui indique une bonne tenue sur des questions exigeantes de raisonnement et de connaissances. La couverture par 3 sources de données concordantes renforce aussi la lisibilité de son positionnement, notamment sur le prix et les caractéristiques principales. L’intérêt du modèle est donc d’offrir un grand modèle ouvert, exploitable commercialement, avec un coût d’usage nettement inférieur aux modèles haut de gamme.

Limites et points d'attention. Son résultat sur PinchBench agentique, basé sur OpenClaw et 147 tâches, le place plutôt en retrait dans ce classement, avec un rang situé dans la seconde moitié du panel. Le modèle paraît donc moins convaincant pour les usages agentiques complexes que pour le raisonnement général mesuré par GPQA. Sa très grande taille peut aussi impliquer des contraintes d’hébergement ou d’inférence, même si aucun détail matériel n’est fourni dans les données disponibles. DeepSeek-V4-Pro-Max vise surtout les déploiements où le coût, l’ouverture des poids, le contexte long et la licence commerciale pèsent davantage que le meilleur niveau agentique disponible.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).

DeepSeek-V4-Pro-Max

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast