DeepSeek-V3.1
DeepSeek-V3.1 est un LLM open-weights de DeepSeek, publié le 10 janvier 2025 sous licence MIT avec usage commercial autorisé. Son ancienneté d’environ un an le place déjà dans une génération très datée à l’échelle de l’IA, à comparer d’abord aux modèles de sa période plutôt qu’aux…
DeepSeek-V3.1 est un LLM open-weights de DeepSeek, publié le 10 janvier 2025 sous licence MIT avec usage commercial autorisé. Son ancienneté d’environ un an le place déjà dans une génération très datée à l’échelle de l’IA, à comparer d’abord aux modèles de sa période plutôt qu’aux systèmes actuels.
Le modèle se distingue par une très grande fenêtre de contexte, une taille totale élevée avec une fraction active plus réduite, et un positionnement tarifaire très économique. Sa tarification se situe nettement sous celle des LLM similaires et très loin des modèles frontière, ce qui en faisait surtout une option de volume à bas coût.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 10 janvier 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | non |
| Paramètres | 671 milliards |
| Paramètres actifs | 37 milliards |
| Fenêtre de contexte | 163 840 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 21.0 | 97ᵉ / 136 |
| Math Index | 49.7 | 32ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| SimpleQA | 93,4 % | 3ᵉ / 45 | llm-stats | Auto-déclaré |
| MMLU-Redux | 91,8 % | 21ᵉ / 48 | llm-stats | Auto-déclaré |
| MMLU-Pro | 83,7 % | 29ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 74,9 % | 95ᵉ / 213 | llm-stats | Auto-déclaré |
| CodeForces | 69,7 % | 12ᵉ / 16 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 68,4 % | 8ᵉ / 22 | llm-stats | Auto-déclaré |
| AIME 2024 | 66,3 % | 42ᵉ / 52 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 66,0 % | 68ᵉ / 100 | llm-stats | Auto-déclaré |
| LiveCodeBench | 56,4 % | 35ᵉ / 72 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 54,5 % | 27ᵉ / 32 | llm-stats | Auto-déclaré |
| AIME 2025 | 49,8 % | 94ᵉ / 108 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 49,2 % | 10ᵉ / 13 | llm-stats | Auto-déclaré |
| HMMT 2025 | 33,5 % | 32ᵉ / 33 | llm-stats | Auto-déclaré |
| Terminal-Bench | 31,3 % | 18ᵉ / 25 | llm-stats | Auto-déclaré |
| BrowseComp | 30,0 % | 48ᵉ / 51 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 15,9 % | 63ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1417 | 95ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,21 $ | 0,79 $ | 0,13 $ |
| artificialanalysis | 0,555 $ | 1,67 $ | 0,555 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 89 % en dessous de la moyenne des LLM similaires, et 23 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. À sa sortie, DeepSeek-V3.1 figurait dans le haut du panier de sa génération sur GPQA, avec un classement dans le top 9% des LLM comparables de la même période. Sa fenêtre de contexte très large constituait un atout concret pour traiter de longs documents, maintenir des échanges étendus ou agréger beaucoup d’éléments dans une même requête. Le modèle combinait aussi des poids ouverts, une licence MIT et un usage commercial autorisé, ce qui facilitait les déploiements indépendants. Son autre force majeure était économique : ses prix étaient très inférieurs à la moyenne des LLM similaires et environ 23 fois plus bas que ceux des modèles frontière.
Limites et points d'attention. DeepSeek-V3.1 est aujourd’hui un modèle ancien : un an représente un écart très long dans l’IA générative, et ses performances sont probablement largement dépassées par des modèles plus récents. Il est aussi souvent retiré des catalogues d’éditeurs à ce stade de cycle. Ses classements globaux, notamment sur Intelligence Index et Arena text, le placent loin des meilleurs modèles recensés, tandis que son Math Index ne suffit pas à en faire une référence spécialisée. Sa date limite de connaissances au 2025-03-31 impose enfin une prudence sur les sujets postérieurs. Les données disponibles reposent sur 4 sources concordantes, ce qui donne une base de comparaison solide sans combler l’absence de chiffres publics sur l’effort d’entraînement.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai).