qwen3-8b-04-28

qwen3-8b-04-28 est un LLM de Qwen évalué dans Benchable sur des tâches de conformité, de classification, de connaissance générale, de mathématiques, de suivi d’instructions et de raisonnement. Son profil ressort comme solide sur les évaluations de base les plus factuelles, avec des…

qwen3-8b-04-28 est un LLM de Qwen évalué dans Benchable sur des tâches de conformité, de classification, de connaissance générale, de mathématiques, de suivi d’instructions et de raisonnement. Son profil ressort comme solide sur les évaluations de base les plus factuelles, avec des résultats particulièrement élevés en Ethics, Email Classification et General Knowledge.

La fiche met surtout en évidence un modèle contrasté : très compétitif sur certains tests standardisés, moins convaincant dès que la tâche demande un suivi fin des consignes ou un raisonnement plus robuste. La couverture disponible repose sur une seule source de données concordante, ce qui limite la profondeur de comparaison.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)97,5 %152ᵉ / 250benchable✅ Mesuré
Benchable : Mathematics (Baseline)85,0 %132ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)60,0 %142ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)56,0 %173ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)34,0 %222ᵉ / 248benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

▶ qwen3-8b-04-2899 %

Benchable : Email Classification (Baseline)

▶ qwen3-8b-04-2898 %
WizardLM-2 8x22B95 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable41 min 46 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-8b-04-28 obtient ses meilleurs résultats sur Ethics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), trois benchmarks Benchable où il se situe dans une zone haute en score absolu. Ce profil indique une bonne tenue sur des tâches de jugement normatif, de tri de messages et de restitution de connaissances générales dans le cadre de ces tests. Mathematics (Baseline) reste également à un niveau exploitable, même si son rang le place davantage dans le milieu du classement que parmi les tout premiers modèles évalués.

Limites et points d'attention. Les résultats baissent nettement sur Instruction Following (Baseline) et Reasoning (Baseline), deux catégories importantes pour les usages où la précision des consignes et l’enchaînement logique comptent davantage que la reconnaissance de motifs. Le rang en Reasoning le situe dans la partie basse du tableau Benchable disponible, malgré un score non nul. La lecture doit aussi tenir compte d’une couverture limitée à une seule source concordante, sans autre information fournie ici sur l’entraînement, le coût, la fenêtre de contexte, les langues ou les modalités supportées. qwen3-8b-04-28 apparaît donc surtout pertinent pour des tâches textuelles standardisées et peu ambiguës, moins pour des scénarios exigeant un raisonnement fiable ou une exécution stricte d’instructions complexes.


Sources des données : Benchable.ai (benchable.ai).