Qwen

qwen3.6-plus-04-02

qwen3.6-plus-04-02 est un LLM de Qwen au profil très contrasté dans les évaluations Benchable disponibles. Il se distingue surtout sur les tâches où la fiabilité de sortie et la classification structurée sont centrales, avec des résultats placés dans le top 10 sur Hallucinations…

Le modèle apparaît moins homogène dès que les tests portent sur la connaissance générale, le code ou le raisonnement. Cette fiche met donc en avant un modèle spécialisé par ses points forts mesurés, plutôt qu’un LLM généraliste performant sur l’ensemble des usages.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	82,0 %	41ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ qwen3.6-plus-04-02100 %

Nemotron Nano 9B v298 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ qwen3.6-plus-04-02100 %

Claude Sonnet 499 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,13 $
Latence moyenne par benchmark — Benchable	17 min 20 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3.6-plus-04-02 ressort très nettement sur Hallucinations (Baseline), où il occupe la première place du classement disponible, ce qui signale une forte capacité à éviter les réponses infondées dans ce cadre de test. Il atteint aussi le sommet du classement sur Email Classification (Baseline), un résultat cohérent avec des usages de tri, catégorisation ou routage de messages lorsque le format de tâche est bien cadré. Instruction Following (Baseline) le place dans une zone plus correcte que dominante, avec une capacité mesurée à respecter des consignes sans atteindre le tout premier groupe du classement.

Limites et points d'attention. Le profil se dégrade fortement sur General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline), où les scores disponibles sont nuls et les rangs se situent en bas de tableau. Ces résultats limitent l’intérêt du modèle pour les demandes ouvertes, la programmation ou les tâches nécessitant un raisonnement robuste. L’évaluation repose en outre sur une seule source de données concordante, ce qui rend le portrait utile mais étroit. qwen3.6-plus-04-02 se lit donc comme un modèle très fort sur quelques tests ciblés, mais fragile dès que la tâche sort de ces cadres.

Sources des données : Benchable.ai (benchable.ai).

qwen3.6-plus-04-02

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

nova-2-lite-v1

Grok Code Fast

Devstral 2