DeepSeek

deepseek-chat-v3.1

deepseek-chat-v3.1 est un LLM de DeepSeek évalué dans Benchable sur des tâches de raisonnement, de code, de mathématiques, de connaissances générales, de classification d’e-mails, d’éthique et de résistance aux hallucinations.

Son profil se distingue surtout par un résultat maximal en Ethics (Baseline), où il apparaît dans le top 10, et par des scores élevés en Hallucinations (Baseline) et Email Classification (Baseline). Les résultats disponibles reposent toutefois sur une seule source de données concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	90,9 %	110ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	89,0 %	118ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	80,0 %	114ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	70,0 %	92ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ deepseek-chat-v3.1100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ deepseek-chat-v3.1100 %

Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	12 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. deepseek-chat-v3.1 affiche son meilleur signal sur Ethics (Baseline), avec une première place dans le classement Benchable associé. Le modèle se montre aussi solide sur Hallucinations (Baseline), un indicateur utile pour apprécier la tendance à produire des réponses non fondées, et sur Email Classification (Baseline), qui évalue une tâche de tri textuel structurée. General Knowledge (Baseline) ressort également à un niveau élevé, ce qui indique une bonne tenue sur les questions factuelles générales dans ce cadre d’évaluation.

Limites et points d'attention. Les performances en Mathematics (Baseline) et Coding (Baseline) restent en retrait par rapport à ses meilleurs résultats, avec un positionnement plus proche du milieu de tableau que du haut du classement. La fiche ne fournit pas d’information sur le coût, la fenêtre de contexte, l’entraînement, les modalités d’accès ou la tarification, ce qui limite l’analyse opérationnelle. La couverture repose sur 1 source de données concordante, un niveau qui appelle une lecture prudente des classements. Le modèle paraît surtout pertinent à examiner pour des usages de texte général, de classification et de contrôle qualitatif, plutôt que comme premier choix spécialisé en code ou en mathématiques.

Sources des données : Benchable.ai (benchable.ai).

deepseek-chat-v3.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast