Qwen

qwen3-14b-04-28

qwen3-14b-04-28 est un LLM de Qwen évalué dans la grille Benchable Baseline. Son profil se distingue surtout par des résultats solides en Reasoning, en Ethics et en General Knowledge, trois axes qui situent le modèle sur des tâches de raisonnement, de connaissances et d’alignement…

La fiche met aussi en évidence un contraste net : qwen3-14b-04-28 obtient de bons signaux sur plusieurs tâches générales, mais son Instruction Following apparaît nettement moins compétitif. La couverture disponible repose sur une seule source de données concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,8 %	130ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	91,0 %	98ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	50,5 %	172ᵉ / 252	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	28,0 %	218ᵉ / 229	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ qwen3-14b-04-2899 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ qwen3-14b-04-2899 %

Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	14 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-14b-04-28 ressort particulièrement bien sur Reasoning (Baseline), où son classement le place dans le haut du tableau Benchable. Les résultats en Ethics (Baseline) et General Knowledge (Baseline) sont également élevés, même si ces catégories semblent plus serrées entre modèles au vu des rangs associés. Le modèle montre aussi une compétence exploitable en Coding (Baseline), avec un positionnement correct sans atteindre les meilleurs rangs de l’évaluation. Dans l’ensemble, son point fort est un socle général robuste, avec un avantage plus marqué sur les tâches de raisonnement que sur les tâches applicatives spécialisées.

Limites et points d'attention. Le principal signal faible concerne Instruction Following (Baseline), où qwen3-14b-04-28 se situe dans la moitié basse du classement malgré ses bons scores dans d’autres catégories. Email Classification (Baseline) affiche aussi un rang modeste, ce qui limite l’interprétation d’un score brut élevé. La couverture limitée à une source concordante réduit la profondeur de validation disponible : les résultats décrivent une photographie Benchable, sans corroboration large par d’autres jeux d’évaluation fournis ici.

Sources des données : Benchable.ai (benchable.ai).

qwen3-14b-04-28

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast