qwen3-235b-a22b-04-28

qwen3-235b-a22b-04-28 est un LLM de Qwen dont le profil Benchable met en avant de très bons résultats sur les tâches de connaissance générale, de classification d’e-mails et de code. Le modèle apparaît surtout compétitif sur des évaluations de référence ciblées, avec plusieurs positions…

qwen3-235b-a22b-04-28 est un LLM de Qwen dont le profil Benchable met en avant de très bons résultats sur les tâches de connaissance générale, de classification d’e-mails et de code. Le modèle apparaît surtout compétitif sur des évaluations de référence ciblées, avec plusieurs positions dans le top 10.

Sa fiche repose sur une seule source de données concordante, ce qui limite la profondeur de l’analyse disponible. Les résultats publiés dessinent toutefois un modèle très performant sur plusieurs tâches structurées, mais nettement moins convaincant sur le suivi d’instructions.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)97,0 %9ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)40,4 %193ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ qwen3-235b-a22b-04-28100 %

Benchable : Email Classification (Baseline)

▶ qwen3-235b-a22b-04-28100 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,05 $
Latence moyenne par benchmark — Benchable39 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-235b-a22b-04-28 se distingue d’abord sur General Knowledge (Baseline), où il atteint le meilleur rang du panel Benchable, signe d’une forte capacité à restituer des connaissances générales dans ce cadre d’évaluation. Il obtient aussi le meilleur rang sur Email Classification (Baseline), une tâche utile pour le tri et la catégorisation de messages. Le modèle figure également dans le top 10 sur Coding (Baseline), ce qui indique une performance solide sur les tâches de programmation évaluées. Reasoning (Baseline) reste dans le haut du classement, même s’il ne fait pas partie des toutes premières positions.

Limites et points d'attention. Le principal point faible est Instruction Following (Baseline), où qwen3-235b-a22b-04-28 se situe loin derrière ses meilleurs résultats, avec une position de bas de tableau. Cette faiblesse suggère un écart entre ses capacités sur des tâches ciblées et sa régularité à respecter précisément une consigne. Ethics (Baseline) affiche un score élevé, mais son rang médian montre que beaucoup de modèles obtiennent des résultats proches sur ce test. La couverture limitée à une seule source concordante impose aussi de lire ces performances comme un instantané Benchable plutôt que comme une caractérisation complète du modèle.


Sources des données : Benchable.ai (benchable.ai).