Qwen

qwen3-8b-04-28

qwen3-8b-04-28 est un LLM de Qwen évalué dans Benchable sur des tâches de conformité, de classification, de connaissance générale, de mathématiques, de suivi d’instructions et de raisonnement. Son profil ressort comme solide sur les évaluations de base les plus factuelles, avec des…

La fiche met surtout en évidence un modèle contrasté : très compétitif sur certains tests standardisés, moins convaincant dès que la tâche demande un suivi fin des consignes ou un raisonnement plus robuste. La couverture disponible repose sur une seule source de données concordante, ce qui limite la profondeur de comparaison.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	97,5 %	152ᵉ / 250	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	85,0 %	132ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	60,0 %	142ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	56,0 %	173ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	34,0 %	222ᵉ / 248	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ qwen3-8b-04-2899 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ qwen3-8b-04-2898 %

WizardLM-2 8x22B95 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	41 min 46 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-8b-04-28 obtient ses meilleurs résultats sur Ethics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), trois benchmarks Benchable où il se situe dans une zone haute en score absolu. Ce profil indique une bonne tenue sur des tâches de jugement normatif, de tri de messages et de restitution de connaissances générales dans le cadre de ces tests. Mathematics (Baseline) reste également à un niveau exploitable, même si son rang le place davantage dans le milieu du classement que parmi les tout premiers modèles évalués.

Limites et points d'attention. Les résultats baissent nettement sur Instruction Following (Baseline) et Reasoning (Baseline), deux catégories importantes pour les usages où la précision des consignes et l’enchaînement logique comptent davantage que la reconnaissance de motifs. Le rang en Reasoning le situe dans la partie basse du tableau Benchable disponible, malgré un score non nul. La lecture doit aussi tenir compte d’une couverture limitée à une seule source concordante, sans autre information fournie ici sur l’entraînement, le coût, la fenêtre de contexte, les langues ou les modalités supportées. qwen3-8b-04-28 apparaît donc surtout pertinent pour des tâches textuelles standardisées et peu ambiguës, moins pour des scénarios exigeant un raisonnement fiable ou une exécution stricte d’instructions complexes.

Sources des données : Benchable.ai (benchable.ai).

qwen3-8b-04-28

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast