deepseek-chat-v3.1

deepseek-chat-v3.1 est un LLM de DeepSeek évalué dans Benchable sur des tâches de raisonnement, de code, de mathématiques, de connaissances générales, de classification d’e-mails, d’éthique et de résistance aux hallucinations.

deepseek-chat-v3.1 est un LLM de DeepSeek évalué dans Benchable sur des tâches de raisonnement, de code, de mathématiques, de connaissances générales, de classification d’e-mails, d’éthique et de résistance aux hallucinations.

Son profil se distingue surtout par un résultat maximal en Ethics (Baseline), où il apparaît dans le top 10, et par des scores élevés en Hallucinations (Baseline) et Email Classification (Baseline). Les résultats disponibles reposent toutefois sur une seule source de données concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)90,9 %110ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)89,0 %118ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)80,0 %114ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)70,0 %92ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ deepseek-chat-v3.1100 %

Benchable : General Knowledge (Baseline)

Gemini 2.5 Flash100 %
GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ deepseek-chat-v3.1100 %
Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable12 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. deepseek-chat-v3.1 affiche son meilleur signal sur Ethics (Baseline), avec une première place dans le classement Benchable associé. Le modèle se montre aussi solide sur Hallucinations (Baseline), un indicateur utile pour apprécier la tendance à produire des réponses non fondées, et sur Email Classification (Baseline), qui évalue une tâche de tri textuel structurée. General Knowledge (Baseline) ressort également à un niveau élevé, ce qui indique une bonne tenue sur les questions factuelles générales dans ce cadre d’évaluation.

Limites et points d'attention. Les performances en Mathematics (Baseline) et Coding (Baseline) restent en retrait par rapport à ses meilleurs résultats, avec un positionnement plus proche du milieu de tableau que du haut du classement. La fiche ne fournit pas d’information sur le coût, la fenêtre de contexte, l’entraînement, les modalités d’accès ou la tarification, ce qui limite l’analyse opérationnelle. La couverture repose sur 1 source de données concordante, un niveau qui appelle une lecture prudente des classements. Le modèle paraît surtout pertinent à examiner pour des usages de texte général, de classification et de contrôle qualitatif, plutôt que comme premier choix spécialisé en code ou en mathématiques.


Sources des données : Benchable.ai (benchable.ai).