qwen3.6-plus-04-02

qwen3.6-plus-04-02 est un LLM de Qwen au profil très contrasté dans les évaluations Benchable disponibles. Il se distingue surtout sur les tâches où la fiabilité de sortie et la classification structurée sont centrales, avec des résultats placés dans le top 10 sur Hallucinations…

qwen3.6-plus-04-02 est un LLM de Qwen au profil très contrasté dans les évaluations Benchable disponibles. Il se distingue surtout sur les tâches où la fiabilité de sortie et la classification structurée sont centrales, avec des résultats placés dans le top 10 sur Hallucinations (Baseline) et Email Classification (Baseline).

Le modèle apparaît moins homogène dès que les tests portent sur la connaissance générale, le code ou le raisonnement. Cette fiche met donc en avant un modèle spécialisé par ses points forts mesurés, plutôt qu’un LLM généraliste performant sur l’ensemble des usages.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Instruction Following (Baseline)82,0 %41ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

▶ qwen3.6-plus-04-02100 %

Benchable : Email Classification (Baseline)

▶ qwen3.6-plus-04-02100 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,13 $
Latence moyenne par benchmark — Benchable17 min 20 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3.6-plus-04-02 ressort très nettement sur Hallucinations (Baseline), où il occupe la première place du classement disponible, ce qui signale une forte capacité à éviter les réponses infondées dans ce cadre de test. Il atteint aussi le sommet du classement sur Email Classification (Baseline), un résultat cohérent avec des usages de tri, catégorisation ou routage de messages lorsque le format de tâche est bien cadré. Instruction Following (Baseline) le place dans une zone plus correcte que dominante, avec une capacité mesurée à respecter des consignes sans atteindre le tout premier groupe du classement.

Limites et points d'attention. Le profil se dégrade fortement sur General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline), où les scores disponibles sont nuls et les rangs se situent en bas de tableau. Ces résultats limitent l’intérêt du modèle pour les demandes ouvertes, la programmation ou les tâches nécessitant un raisonnement robuste. L’évaluation repose en outre sur une seule source de données concordante, ce qui rend le portrait utile mais étroit. qwen3.6-plus-04-02 se lit donc comme un modèle très fort sur quelques tests ciblés, mais fragile dès que la tâche sort de ces cadres.


Sources des données : Benchable.ai (benchable.ai).