DeepSeek

DeepSeek-V3.2 (Thinking)

DeepSeek-V3.2 (Thinking) est un LLM open-weights de DeepSeek, publié le 1 décembre 2025 sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 685 milliards de paramètres, et une fenêtre de contexte de 131 072 tokens.

À sa sortie, il se situait dans le top 15% des LLM de sa génération sur GPQA, un benchmark utilisé pour évaluer des questions scientifiques difficiles. Sa fiche repose sur 2 sources de données concordantes, ce qui donne un socle factuel limité mais cohérent.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	1 décembre 2025
Multimodal	non
Paramètres	685 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
AIME 2025	93,1 %	26ᵉ / 108	llm-stats	Auto-déclaré
HMMT 2025	90,2 %	17ᵉ / 33	llm-stats	Auto-déclaré
MMLU-Pro	85,0 %	17ᵉ / 125	llm-stats	Auto-déclaré
LiveCodeBench	83,3 %	3ᵉ / 72	llm-stats	Auto-déclaré
GPQA	82,4 %	59ᵉ / 213	llm-stats	Auto-déclaré
t2-bench	80,2 %	11ᵉ / 23	llm-stats	Auto-déclaré
CodeForces	79,5 %	8ᵉ / 16	llm-stats	Auto-déclaré
SWE-Bench Verified	73,1 %	43ᵉ / 100	llm-stats	Auto-déclaré
SWE-bench Multilingual	70,2 %	16ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp-zh	65,0 %	6ᵉ / 13	llm-stats	Auto-déclaré
BrowseComp	51,4 %	35ᵉ / 51	llm-stats	Auto-déclaré
Terminal-Bench 2.0	46,4 %	37ᵉ / 48	llm-stats	Auto-déclaré
Toolathlon	35,2 %	20ᵉ / 23	llm-stats	Auto-déclaré
Humanity's Last Exam	25,1 %	44ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1423	86ᵉ
Arena Code	1368	54ᵉ

Notre analyse

Forces. DeepSeek-V3.2 (Thinking) combine une licence MIT, des poids ouverts et une autorisation d’usage commercial, un ensemble favorable aux déploiements contrôlés et aux adaptations internes. Sa fenêtre de contexte très étendue le place dans la catégorie des modèles capables de traiter de longs documents ou de larges historiques d’échange. À sa sortie, son résultat sur GPQA le positionnait dans le haut du panier de sa génération pour les tâches de raisonnement scientifique. En code, son classement Arena Code est meilleur que son classement Arena text, ce qui suggère un positionnement comparativement plus solide sur les usages de programmation que sur les échanges textuels généralistes.

Limites et points d'attention. Les classements Arena restent modestes en valeur relative, avec un rang plus compétitif en code qu’en texte, mais sans signal de domination sur les modèles haut de gamme. Le très grand nombre de paramètres implique aussi une empreinte de déploiement potentiellement lourde, même si aucun détail d’infrastructure n’est fourni dans les données disponibles. La couverture factuelle repose seulement sur 2 sources concordantes, sans information vérifiée sur les coûts, l’entraînement ou les performances sur d’autres benchmarks. Le modèle apparaît surtout pertinent quand les critères prioritaires sont les poids ouverts, la licence commerciale et un très long contexte.

Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai).

DeepSeek-V3.2 (Thinking)

Caractéristiques

Performances (benchmarks)

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast