DeepSeek

deepseek-chat-v3-0324

deepseek-chat-v3-0324 est un LLM de DeepSeek orienté conversation, évalué ici à travers plusieurs benchmarks Benchable couvrant l’éthique, les connaissances générales, les hallucinations, la classification d’e-mails, les mathématiques et le code.

Son profil ressort surtout par un très haut niveau sur Ethics (Baseline), où il se place dans le top 10, et par des résultats solides sur Mathematics (Baseline) et Coding (Baseline). Les données disponibles reposent toutefois sur une seule source concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	88,0 %	94ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	71,0 %	82ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ deepseek-chat-v3-0324100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ deepseek-chat-v3-0324100 %

Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	5 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. deepseek-chat-v3-0324 se distingue d’abord sur Ethics (Baseline), un benchmark centré sur les réponses alignées avec des critères éthiques, où il atteint le meilleur niveau du panel évalué. Mathematics (Baseline) le place aussi dans le haut du classement, ce qui indique une bonne tenue sur les tâches quantitatives testées. Coding (Baseline) reste solide, même si le modèle n’apparaît pas parmi les tout premiers sur cet axe. General Knowledge (Baseline) et Hallucinations (Baseline) affichent des scores élevés, signe d’une bonne couverture factuelle dans ce cadre d’évaluation.

Limites et points d’attention. Les rangs montrent un profil moins dominant que certains scores bruts ne le suggèrent, notamment sur General Knowledge (Baseline), Hallucinations (Baseline) et Coding (Baseline), où plusieurs dizaines de modèles sont mieux classés. Email Classification (Baseline) est le point le plus faible relatif, avec un classement nettement plus bas malgré un score élevé. La fiche repose sur une seule source de données concordante, ce qui limite la robustesse de la comparaison. Le modèle paraît surtout pertinent pour des usages conversationnels généralistes nécessitant un bon équilibre entre raisonnement, code et contrôle des hallucinations.

Sources des données : Benchable.ai (benchable.ai).

deepseek-chat-v3-0324

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast