qwen3-14b-04-28

qwen3-14b-04-28 est un LLM de Qwen évalué dans la grille Benchable Baseline. Son profil se distingue surtout par des résultats solides en Reasoning, en Ethics et en General Knowledge, trois axes qui situent le modèle sur des tâches de raisonnement, de connaissances et d’alignement…

qwen3-14b-04-28 est un LLM de Qwen évalué dans la grille Benchable Baseline. Son profil se distingue surtout par des résultats solides en Reasoning, en Ethics et en General Knowledge, trois axes qui situent le modèle sur des tâches de raisonnement, de connaissances et d’alignement comportemental.

La fiche met aussi en évidence un contraste net : qwen3-14b-04-28 obtient de bons signaux sur plusieurs tâches générales, mais son Instruction Following apparaît nettement moins compétitif. La couverture disponible repose sur une seule source de données concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)98,8 %130ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)91,0 %98ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)50,5 %172ᵉ / 252benchable✅ Mesuré
Benchable : Hallucinations (Baseline)28,0 %218ᵉ / 229benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

▶ qwen3-14b-04-2899 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ qwen3-14b-04-2899 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable14 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-14b-04-28 ressort particulièrement bien sur Reasoning (Baseline), où son classement le place dans le haut du tableau Benchable. Les résultats en Ethics (Baseline) et General Knowledge (Baseline) sont également élevés, même si ces catégories semblent plus serrées entre modèles au vu des rangs associés. Le modèle montre aussi une compétence exploitable en Coding (Baseline), avec un positionnement correct sans atteindre les meilleurs rangs de l’évaluation. Dans l’ensemble, son point fort est un socle général robuste, avec un avantage plus marqué sur les tâches de raisonnement que sur les tâches applicatives spécialisées.

Limites et points d'attention. Le principal signal faible concerne Instruction Following (Baseline), où qwen3-14b-04-28 se situe dans la moitié basse du classement malgré ses bons scores dans d’autres catégories. Email Classification (Baseline) affiche aussi un rang modeste, ce qui limite l’interprétation d’un score brut élevé. La couverture limitée à une source concordante réduit la profondeur de validation disponible : les résultats décrivent une photographie Benchable, sans corroboration large par d’autres jeux d’évaluation fournis ici.


Sources des données : Benchable.ai (benchable.ai).