DeepSeek-V3

DeepSeek-V3 est un LLM de DeepSeek sorti le 24 mars 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : il doit être lu comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.

DeepSeek-V3 est un LLM de DeepSeek sorti le 24 mars 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : il doit être lu comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.

Le modèle se distingue par un format massif, avec 671 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 2024-07-31. Son entraînement reste marquant : 3,3 × 10²⁴ FLOP, soit environ 917 000 heures-GPU H100, pour un coût estimé à ~5,4 millions de dollars.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
LicenceMIT + Model License (Commercial use allowed) (poids non ouverts)
Date de sortie24 mars 2025
Connaissances jusqu'à2024-07-31
Multimodalnon
Paramètres671 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 575,5 %28ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond67,6 %60ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202537,8 %64ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private1,7 %56ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
DROP91,6 %1ᵉ / 29llm-statsAuto-déclaré
CLUEWSC90,9 %2ᵉ / 3llm-statsAuto-déclaré
MATH-50090,2 %26ᵉ / 31llm-statsAuto-déclaré
MMLU-Redux89,1 %27ᵉ / 48llm-statsAuto-déclaré
MMLU88,5 %17ᵉ / 98llm-statsAuto-déclaré
C-Eval86,5 %12ᵉ / 18llm-statsAuto-déclaré
IFEval86,1 %36ᵉ / 65llm-statsAuto-déclaré
Aider-Polyglot Edit79,7 %1ᵉ / 10llm-statsAuto-déclaré
MMLU-Pro75,9 %66ᵉ / 125llm-statsAuto-déclaré
CSimpleQA64,8 %7ᵉ / 7llm-statsAuto-déclaré
GPQA59,1 %141ᵉ / 213llm-statsAuto-déclaré
Aider-Polyglot49,6 %17ᵉ / 22llm-statsAuto-déclaré
LongBench v248,7 %13ᵉ / 15llm-statsAuto-déclaré
CNMO 202443,2 %3ᵉ / 3llm-statsAuto-déclaré
SWE-Bench Verified42,0 %88ᵉ / 100llm-statsAuto-déclaré
AIME 202439,2 %49ᵉ / 52llm-statsAuto-déclaré
LiveCodeBench37,6 %50ᵉ / 72llm-statsAuto-déclaré
SimpleQA24,9 %28ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Mistral Medium…82 %
▶ DeepSeek-V376 %
Llama 4 Maverick73 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Gemini 3.1 Pro Preview94 %
Qwen3.7 Max92 %
Grok 4.3 Beta89 %
▶ DeepSeek-V368 %
Mistral Medium…60 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1358164ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
StreamLake0,2002 $0,8001 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement3,3 × 10²⁴ FLOP
Taille du jeu d'entraînement1,5 × 10¹³
Coût d'entraînement estimé≈ 5 390 000 $ (USD 2023)
MatérielNVIDIA H800 SXM5
Nombre de puces2 048
Puissance électrique2 818 135 W
PaysChina

Notre analyse

Forces. À sa sortie, DeepSeek-V3 figurait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats en MATH level 5 indiquent aussi une bonne tenue sur les problèmes mathématiques structurés, même si le modèle ne dominait pas le classement. Son autre force nette est économique : son tarif est très bas pour un LLM comparable, environ 90% sous la moyenne des modèles similaires et ~24,1 fois moins cher que les modèles frontière. La licence autorise l’usage commercial, même si les poids ne sont pas ouverts.

Limites et points d’attention. DeepSeek-V3 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles récents, et il est souvent moins pertinent comme référence opérationnelle actuelle. Son rang Arena text le place loin des meilleurs modèles conversationnels évalués, tandis que FrontierMath montre une faiblesse nette sur les mathématiques de recherche très difficiles. OTIS Mock AIME indique aussi des résultats limités sur les olympiades de mathématiques de niveau lycée. La date de connaissances, arrêtée au 2024-07-31, impose en plus une limite temporelle claire. L’élément qui reste le plus instructif est l’échelle de l’effort d’entraînement, avec l’équivalent d’environ 420 GPU H100 tournant trois mois et ~5,4 millions de dollars de coût estimé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.