DeepSeek-V3
DeepSeek-V3 est un LLM de DeepSeek sorti le 24 mars 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : il doit être lu comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.
DeepSeek-V3 est un LLM de DeepSeek sorti le 24 mars 2025. À l’échelle de l’IA, son ancienneté d’environ un an est déjà importante : il doit être lu comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.
Le modèle se distingue par un format massif, avec 671 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 2024-07-31. Son entraînement reste marquant : 3,3 × 10²⁴ FLOP, soit environ 917 000 heures-GPU H100, pour un coût estimé à ~5,4 millions de dollars.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT + Model License (Commercial use allowed) (poids non ouverts) |
| Date de sortie | 24 mars 2025 |
| Connaissances jusqu'à | 2024-07-31 |
| Multimodal | non |
| Paramètres | 671 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 75,5 % | 28ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 67,6 % | 60ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 37,8 % | 64ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 1,7 % | 56ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| DROP | 91,6 % | 1ᵉ / 29 | llm-stats | Auto-déclaré |
| CLUEWSC | 90,9 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| MATH-500 | 90,2 % | 26ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-Redux | 89,1 % | 27ᵉ / 48 | llm-stats | Auto-déclaré |
| MMLU | 88,5 % | 17ᵉ / 98 | llm-stats | Auto-déclaré |
| C-Eval | 86,5 % | 12ᵉ / 18 | llm-stats | Auto-déclaré |
| IFEval | 86,1 % | 36ᵉ / 65 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 79,7 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| MMLU-Pro | 75,9 % | 66ᵉ / 125 | llm-stats | Auto-déclaré |
| CSimpleQA | 64,8 % | 7ᵉ / 7 | llm-stats | Auto-déclaré |
| GPQA | 59,1 % | 141ᵉ / 213 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 49,6 % | 17ᵉ / 22 | llm-stats | Auto-déclaré |
| LongBench v2 | 48,7 % | 13ᵉ / 15 | llm-stats | Auto-déclaré |
| CNMO 2024 | 43,2 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 42,0 % | 88ᵉ / 100 | llm-stats | Auto-déclaré |
| AIME 2024 | 39,2 % | 49ᵉ / 52 | llm-stats | Auto-déclaré |
| LiveCodeBench | 37,6 % | 50ᵉ / 72 | llm-stats | Auto-déclaré |
| SimpleQA | 24,9 % | 28ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1358 | 164ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| StreamLake | 0,2002 $ | 0,8001 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 3,3 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 1,5 × 10¹³ |
| Coût d'entraînement estimé | ≈ 5 390 000 $ (USD 2023) |
| Matériel | NVIDIA H800 SXM5 |
| Nombre de puces | 2 048 |
| Puissance électrique | 2 818 135 W |
| Pays | China |
Notre analyse
Forces. À sa sortie, DeepSeek-V3 figurait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats en MATH level 5 indiquent aussi une bonne tenue sur les problèmes mathématiques structurés, même si le modèle ne dominait pas le classement. Son autre force nette est économique : son tarif est très bas pour un LLM comparable, environ 90% sous la moyenne des modèles similaires et ~24,1 fois moins cher que les modèles frontière. La licence autorise l’usage commercial, même si les poids ne sont pas ouverts.
Limites et points d’attention. DeepSeek-V3 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles récents, et il est souvent moins pertinent comme référence opérationnelle actuelle. Son rang Arena text le place loin des meilleurs modèles conversationnels évalués, tandis que FrontierMath montre une faiblesse nette sur les mathématiques de recherche très difficiles. OTIS Mock AIME indique aussi des résultats limités sur les olympiades de mathématiques de niveau lycée. La date de connaissances, arrêtée au 2024-07-31, impose en plus une limite temporelle claire. L’élément qui reste le plus instructif est l’échelle de l’effort d’entraînement, avec l’équivalent d’environ 420 GPU H100 tournant trois mois et ~5,4 millions de dollars de coût estimé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.