Qwen

qwen3-30b-a3b-04-28

qwen3-30b-a3b-04-28 est un LLM édité par Qwen. La fiche le situe à partir de Benchable, où il ressort surtout par ses résultats en General Knowledge (Baseline) et en Ethics (Baseline), deux évaluations sur lesquelles il atteint le tout premier rang du classement disponible.

Le modèle affiche aussi un profil équilibré sur des tâches plus opérationnelles, avec de bons classements en Email Classification, Reasoning et Coding. La lecture doit toutefois rester prudente, car les données vérifiées reposent sur une seule source concordante et ne fournissent pas d'éléments sur l'entraînement, le coût, le contexte ou les modalités d'accès.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	60,8 %	138ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ qwen3-30b-a3b-04-28100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ qwen3-30b-a3b-04-28100 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	19 min 32 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-30b-a3b-04-28 se distingue d'abord sur General Knowledge (Baseline) et Ethics (Baseline), où il figure dans le top 10 et atteint le rang le plus élevé du panel Benchable. Ce double résultat indique un modèle particulièrement solide sur les connaissances générales et les réponses évaluées sous l'angle éthique. Il reste également bien placé en Email Classification (Baseline), un test utile pour apprécier la capacité à catégoriser des messages. Les performances en Reasoning (Baseline) et Coding (Baseline) le placent aussi dans une zone compétitive du classement, sans se limiter à un seul type de tâche.

Limites et points d'attention. Le benchmark Hallucinations (Baseline) est moins distinctif dans le classement, avec une position située plus près du milieu de tableau que de ses meilleurs résultats. Le score brut reste élevé, mais le rang montre que d'autres modèles du panel font mieux sur cet axe. La couverture documentaire est limitée à 1 source de données concordante, ce qui réduit la profondeur d'analyse possible. Aucune donnée vérifiée n'indique le volume d'entraînement, le coût, la taille de contexte, les tarifs, les licences ou les conditions de déploiement, autant de critères nécessaires pour juger son intérêt pratique au-delà des benchmarks disponibles.

Sources des données : Benchable.ai (benchable.ai).

qwen3-30b-a3b-04-28

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast