qwen3.6-plus-04-02
qwen3.6-plus-04-02 est un LLM de Qwen au profil très contrasté dans les évaluations Benchable disponibles. Il se distingue surtout sur les tâches où la fiabilité de sortie et la classification structurée sont centrales, avec des résultats placés dans le top 10 sur Hallucinations…
qwen3.6-plus-04-02 est un LLM de Qwen au profil très contrasté dans les évaluations Benchable disponibles. Il se distingue surtout sur les tâches où la fiabilité de sortie et la classification structurée sont centrales, avec des résultats placés dans le top 10 sur Hallucinations (Baseline) et Email Classification (Baseline).
Le modèle apparaît moins homogène dès que les tests portent sur la connaissance générale, le code ou le raisonnement. Cette fiche met donc en avant un modèle spécialisé par ses points forts mesurés, plutôt qu’un LLM généraliste performant sur l’ensemble des usages.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 82,0 % | 41ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 0,0 % | 237ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 0,0 % | 232ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 0,0 % | 206ᵉ / 217 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Email Classification (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,13 $ |
| Latence moyenne par benchmark — Benchable | 17 min 20 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. qwen3.6-plus-04-02 ressort très nettement sur Hallucinations (Baseline), où il occupe la première place du classement disponible, ce qui signale une forte capacité à éviter les réponses infondées dans ce cadre de test. Il atteint aussi le sommet du classement sur Email Classification (Baseline), un résultat cohérent avec des usages de tri, catégorisation ou routage de messages lorsque le format de tâche est bien cadré. Instruction Following (Baseline) le place dans une zone plus correcte que dominante, avec une capacité mesurée à respecter des consignes sans atteindre le tout premier groupe du classement.
Limites et points d'attention. Le profil se dégrade fortement sur General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline), où les scores disponibles sont nuls et les rangs se situent en bas de tableau. Ces résultats limitent l’intérêt du modèle pour les demandes ouvertes, la programmation ou les tâches nécessitant un raisonnement robuste. L’évaluation repose en outre sur une seule source de données concordante, ce qui rend le portrait utile mais étroit. qwen3.6-plus-04-02 se lit donc comme un modèle très fort sur quelques tests ciblés, mais fragile dès que la tâche sort de ces cadres.
Sources des données : Benchable.ai (benchable.ai).