deepseek-chat-v3-0324

deepseek-chat-v3-0324 est un LLM de DeepSeek orienté conversation, évalué ici à travers plusieurs benchmarks Benchable couvrant l’éthique, les connaissances générales, les hallucinations, la classification d’e-mails, les mathématiques et le code.

deepseek-chat-v3-0324 est un LLM de DeepSeek orienté conversation, évalué ici à travers plusieurs benchmarks Benchable couvrant l’éthique, les connaissances générales, les hallucinations, la classification d’e-mails, les mathématiques et le code.

Son profil ressort surtout par un très haut niveau sur Ethics (Baseline), où il se place dans le top 10, et par des résultats solides sur Mathematics (Baseline) et Coding (Baseline). Les données disponibles reposent toutefois sur une seule source concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)71,0 %82ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ deepseek-chat-v3-0324100 %

Benchable : General Knowledge (Baseline)

Gemini 2.5 Flash100 %
GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ deepseek-chat-v3-0324100 %
Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable5 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. deepseek-chat-v3-0324 se distingue d’abord sur Ethics (Baseline), un benchmark centré sur les réponses alignées avec des critères éthiques, où il atteint le meilleur niveau du panel évalué. Mathematics (Baseline) le place aussi dans le haut du classement, ce qui indique une bonne tenue sur les tâches quantitatives testées. Coding (Baseline) reste solide, même si le modèle n’apparaît pas parmi les tout premiers sur cet axe. General Knowledge (Baseline) et Hallucinations (Baseline) affichent des scores élevés, signe d’une bonne couverture factuelle dans ce cadre d’évaluation.

Limites et points d’attention. Les rangs montrent un profil moins dominant que certains scores bruts ne le suggèrent, notamment sur General Knowledge (Baseline), Hallucinations (Baseline) et Coding (Baseline), où plusieurs dizaines de modèles sont mieux classés. Email Classification (Baseline) est le point le plus faible relatif, avec un classement nettement plus bas malgré un score élevé. La fiche repose sur une seule source de données concordante, ce qui limite la robustesse de la comparaison. Le modèle paraît surtout pertinent pour des usages conversationnels généralistes nécessitant un bon équilibre entre raisonnement, code et contrôle des hallucinations.


Sources des données : Benchable.ai (benchable.ai).