qwen3-32b-04-28
qwen3-32b-04-28 est un LLM édité par Qwen. Dans les données Benchable disponibles, il se distingue surtout par des résultats de tête sur les tâches de culture générale, de raisonnement et d’éthique, trois domaines qui évaluent la solidité des réponses hors spécialisation étroite.
qwen3-32b-04-28 est un LLM édité par Qwen. Dans les données Benchable disponibles, il se distingue surtout par des résultats de tête sur les tâches de culture générale, de raisonnement et d’éthique, trois domaines qui évaluent la solidité des réponses hors spécialisation étroite.
Le modèle conserve aussi un profil polyvalent : ses résultats restent élevés en classification d’e-mails, en mathématiques et en code. La fiche repose toutefois sur une seule source de données concordante, ce qui invite à lire ses performances comme un instantané Benchable plutôt que comme une validation large par plusieurs évaluations indépendantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,9 % | 22ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 55,7 % | 154ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Reasoning (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 36 min 03 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. qwen3-32b-04-28 atteint le top 10 Benchable en General Knowledge (Baseline), Reasoning (Baseline) et Ethics (Baseline), ce qui signale un modèle particulièrement solide sur les questions factuelles générales, les enchaînements logiques et les réponses encadrées par des critères éthiques. Son niveau reste également élevé sur Coding (Baseline) et Mathematics (Baseline), deux catégories plus techniques où il se situe dans le haut du classement sans dominer autant que sur ses meilleurs axes. Le résultat en Email Classification (Baseline) montre aussi une bonne capacité à traiter une tâche structurée de catégorisation textuelle.
Limites et points d'attention. Les données disponibles ne documentent ni le contexte d’entraînement, ni le coût, ni la fenêtre de contexte, ni les modalités de déploiement de qwen3-32b-04-28. La couverture indiquée se limite à une seule source concordante, ce qui réduit la robustesse de l’interprétation face à des modèles évalués sur davantage de sources. Ses performances les moins distinctives concernent la classification d’e-mails, les mathématiques et le code, où le modèle reste performant mais moins exceptionnel que sur la culture générale, le raisonnement et l’éthique. Profil pertinent pour l’analyse généraliste, le raisonnement textuel et les usages nécessitant une bonne polyvalence mesurée par Benchable.
Sources des données : Benchable.ai (benchable.ai).