Qwen

qwen3-235b-a22b-04-28

qwen3-235b-a22b-04-28 est un LLM de Qwen dont le profil Benchable met en avant de très bons résultats sur les tâches de connaissance générale, de classification d’e-mails et de code. Le modèle apparaît surtout compétitif sur des évaluations de référence ciblées, avec plusieurs positions…

Sa fiche repose sur une seule source de données concordante, ce qui limite la profondeur de l’analyse disponible. Les résultats publiés dessinent toutefois un modèle très performant sur plusieurs tâches structurées, mais nettement moins convaincant sur le suivi d’instructions.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	97,0 %	9ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	40,4 %	193ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Mistral Medium…100 %

▶ qwen3-235b-a22b-04-28100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ qwen3-235b-a22b-04-28100 %

Claude Sonnet 499 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,05 $
Latence moyenne par benchmark — Benchable	39 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-235b-a22b-04-28 se distingue d’abord sur General Knowledge (Baseline), où il atteint le meilleur rang du panel Benchable, signe d’une forte capacité à restituer des connaissances générales dans ce cadre d’évaluation. Il obtient aussi le meilleur rang sur Email Classification (Baseline), une tâche utile pour le tri et la catégorisation de messages. Le modèle figure également dans le top 10 sur Coding (Baseline), ce qui indique une performance solide sur les tâches de programmation évaluées. Reasoning (Baseline) reste dans le haut du classement, même s’il ne fait pas partie des toutes premières positions.

Limites et points d'attention. Le principal point faible est Instruction Following (Baseline), où qwen3-235b-a22b-04-28 se situe loin derrière ses meilleurs résultats, avec une position de bas de tableau. Cette faiblesse suggère un écart entre ses capacités sur des tâches ciblées et sa régularité à respecter précisément une consigne. Ethics (Baseline) affiche un score élevé, mais son rang médian montre que beaucoup de modèles obtiennent des résultats proches sur ce test. La couverture limitée à une seule source concordante impose aussi de lire ces performances comme un instantané Benchable plutôt que comme une caractérisation complète du modèle.

Sources des données : Benchable.ai (benchable.ai).

qwen3-235b-a22b-04-28

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast