DeepSeek-V3.2 (Thinking)
DeepSeek-V3.2 (Thinking) est un LLM open-weights de DeepSeek, publié le 1 décembre 2025 sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 685 milliards de paramètres, et une fenêtre de contexte de 131 072 tokens.
DeepSeek-V3.2 (Thinking) est un LLM open-weights de DeepSeek, publié le 1 décembre 2025 sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 685 milliards de paramètres, et une fenêtre de contexte de 131 072 tokens.
À sa sortie, il se situait dans le top 15% des LLM de sa génération sur GPQA, un benchmark utilisé pour évaluer des questions scientifiques difficiles. Sa fiche repose sur 2 sources de données concordantes, ce qui donne un socle factuel limité mais cohérent.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 1 décembre 2025 |
| Multimodal | non |
| Paramètres | 685 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| AIME 2025 | 93,1 % | 26ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT 2025 | 90,2 % | 17ᵉ / 33 | llm-stats | Auto-déclaré |
| MMLU-Pro | 85,0 % | 17ᵉ / 125 | llm-stats | Auto-déclaré |
| LiveCodeBench | 83,3 % | 3ᵉ / 72 | llm-stats | Auto-déclaré |
| GPQA | 82,4 % | 59ᵉ / 213 | llm-stats | Auto-déclaré |
| t2-bench | 80,2 % | 11ᵉ / 23 | llm-stats | Auto-déclaré |
| CodeForces | 79,5 % | 8ᵉ / 16 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 73,1 % | 43ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 70,2 % | 16ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 65,0 % | 6ᵉ / 13 | llm-stats | Auto-déclaré |
| BrowseComp | 51,4 % | 35ᵉ / 51 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 46,4 % | 37ᵉ / 48 | llm-stats | Auto-déclaré |
| Toolathlon | 35,2 % | 20ᵉ / 23 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 25,1 % | 44ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1423 | 86ᵉ |
| Arena Code | 1368 | 54ᵉ |
Notre analyse
Forces. DeepSeek-V3.2 (Thinking) combine une licence MIT, des poids ouverts et une autorisation d’usage commercial, un ensemble favorable aux déploiements contrôlés et aux adaptations internes. Sa fenêtre de contexte très étendue le place dans la catégorie des modèles capables de traiter de longs documents ou de larges historiques d’échange. À sa sortie, son résultat sur GPQA le positionnait dans le haut du panier de sa génération pour les tâches de raisonnement scientifique. En code, son classement Arena Code est meilleur que son classement Arena text, ce qui suggère un positionnement comparativement plus solide sur les usages de programmation que sur les échanges textuels généralistes.
Limites et points d'attention. Les classements Arena restent modestes en valeur relative, avec un rang plus compétitif en code qu’en texte, mais sans signal de domination sur les modèles haut de gamme. Le très grand nombre de paramètres implique aussi une empreinte de déploiement potentiellement lourde, même si aucun détail d’infrastructure n’est fourni dans les données disponibles. La couverture factuelle repose seulement sur 2 sources concordantes, sans information vérifiée sur les coûts, l’entraînement ou les performances sur d’autres benchmarks. Le modèle apparaît surtout pertinent quand les critères prioritaires sont les poids ouverts, la licence commerciale et un très long contexte.
Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai).