Qwen

qwen3-32b-04-28

qwen3-32b-04-28 est un LLM édité par Qwen. Dans les données Benchable disponibles, il se distingue surtout par des résultats de tête sur les tâches de culture générale, de raisonnement et d’éthique, trois domaines qui évaluent la solidité des réponses hors spécialisation étroite.

Le modèle conserve aussi un profil polyvalent : ses résultats restent élevés en classification d’e-mails, en mathématiques et en code. La fiche repose toutefois sur une seule source de données concordante, ce qui invite à lire ses performances comme un instantané Benchable plutôt que comme une validation large par plusieurs évaluations indépendantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,9 %	22ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	90,0 %	145ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	55,7 %	154ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ qwen3-32b-04-28100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Reasoning (Baseline)

DeepSeek V4 Flash100 %

Gemini 3.1 Pro Preview100 %

GPT-5.5100 %

▶ qwen3-32b-04-28100 %

Claude Opus 4.598 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	36 min 03 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-32b-04-28 atteint le top 10 Benchable en General Knowledge (Baseline), Reasoning (Baseline) et Ethics (Baseline), ce qui signale un modèle particulièrement solide sur les questions factuelles générales, les enchaînements logiques et les réponses encadrées par des critères éthiques. Son niveau reste également élevé sur Coding (Baseline) et Mathematics (Baseline), deux catégories plus techniques où il se situe dans le haut du classement sans dominer autant que sur ses meilleurs axes. Le résultat en Email Classification (Baseline) montre aussi une bonne capacité à traiter une tâche structurée de catégorisation textuelle.

Limites et points d'attention. Les données disponibles ne documentent ni le contexte d’entraînement, ni le coût, ni la fenêtre de contexte, ni les modalités de déploiement de qwen3-32b-04-28. La couverture indiquée se limite à une seule source concordante, ce qui réduit la robustesse de l’interprétation face à des modèles évalués sur davantage de sources. Ses performances les moins distinctives concernent la classification d’e-mails, les mathématiques et le code, où le modèle reste performant mais moins exceptionnel que sur la culture générale, le raisonnement et l’éthique. Profil pertinent pour l’analyse généraliste, le raisonnement textuel et les usages nécessitant une bonne polyvalence mesurée par Benchable.

Sources des données : Benchable.ai (benchable.ai).

qwen3-32b-04-28

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast