DeepSeek

DeepSeek-V3

DeepSeek-V3 est un LLM de DeepSeek sorti le 24 mars 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : il doit être lu comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.

Le modèle se distingue par un format massif, avec 671 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 2024-07-31. Son entraînement reste marquant : 3,3 × 10²⁴ FLOP, soit environ 917 000 heures-GPU H100, pour un coût estimé à ~5,4 millions de dollars.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT + Model License (Commercial use allowed) (poids non ouverts)
Date de sortie	24 mars 2025
Connaissances jusqu'à	2024-07-31
Multimodal	non
Paramètres	671 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	75,5 %	28ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	67,6 %	60ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	37,8 %	64ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	1,7 %	56ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
DROP	91,6 %	1ᵉ / 29	llm-stats	Auto-déclaré
CLUEWSC	90,9 %	2ᵉ / 3	llm-stats	Auto-déclaré
MATH-500	90,2 %	26ᵉ / 31	llm-stats	Auto-déclaré
MMLU-Redux	89,1 %	27ᵉ / 48	llm-stats	Auto-déclaré
MMLU	88,5 %	17ᵉ / 98	llm-stats	Auto-déclaré
C-Eval	86,5 %	12ᵉ / 18	llm-stats	Auto-déclaré
IFEval	86,1 %	36ᵉ / 65	llm-stats	Auto-déclaré
Aider-Polyglot Edit	79,7 %	1ᵉ / 10	llm-stats	Auto-déclaré
MMLU-Pro	75,9 %	66ᵉ / 125	llm-stats	Auto-déclaré
CSimpleQA	64,8 %	7ᵉ / 7	llm-stats	Auto-déclaré
GPQA	59,1 %	141ᵉ / 213	llm-stats	Auto-déclaré
Aider-Polyglot	49,6 %	17ᵉ / 22	llm-stats	Auto-déclaré
LongBench v2	48,7 %	13ᵉ / 15	llm-stats	Auto-déclaré
CNMO 2024	43,2 %	3ᵉ / 3	llm-stats	Auto-déclaré
SWE-Bench Verified	42,0 %	88ᵉ / 100	llm-stats	Auto-déclaré
AIME 2024	39,2 %	49ᵉ / 52	llm-stats	Auto-déclaré
LiveCodeBench	37,6 %	50ᵉ / 72	llm-stats	Auto-déclaré
SimpleQA	24,9 %	28ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Mistral Medium…82 %

▶ DeepSeek-V376 %

Llama 4 Maverick73 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Grok 4.3 Beta89 %

▶ DeepSeek-V368 %

Mistral Medium…60 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1358	164ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
StreamLake	0,2002 $	0,8001 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,3 × 10²⁴ FLOP
Taille du jeu d'entraînement	1,5 × 10¹³
Coût d'entraînement estimé	≈ 5 390 000 $ (USD 2023)
Matériel	NVIDIA H800 SXM5
Nombre de puces	2 048
Puissance électrique	2 818 135 W
Pays	China

Notre analyse

Forces. À sa sortie, DeepSeek-V3 figurait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats en MATH level 5 indiquent aussi une bonne tenue sur les problèmes mathématiques structurés, même si le modèle ne dominait pas le classement. Son autre force nette est économique : son tarif est très bas pour un LLM comparable, environ 90% sous la moyenne des modèles similaires et ~24,1 fois moins cher que les modèles frontière. La licence autorise l’usage commercial, même si les poids ne sont pas ouverts.

Limites et points d’attention. DeepSeek-V3 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles récents, et il est souvent moins pertinent comme référence opérationnelle actuelle. Son rang Arena text le place loin des meilleurs modèles conversationnels évalués, tandis que FrontierMath montre une faiblesse nette sur les mathématiques de recherche très difficiles. OTIS Mock AIME indique aussi des résultats limités sur les olympiades de mathématiques de niveau lycée. La date de connaissances, arrêtée au 2024-07-31, impose en plus une limite temporelle claire. L’élément qui reste le plus instructif est l’échelle de l’effort d’entraînement, avec l’équivalent d’environ 420 GPU H100 tournant trois mois et ~5,4 millions de dollars de coût estimé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

DeepSeek-V3

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast