qwen3-next-80b-a3b-thinking-2509
qwen3-next-80b-a3b-thinking-2509 est un LLM édité par Qwen, évalué dans Benchable sur des tâches d’éthique, de connaissance générale, de classification d’e-mails, de limitation des hallucinations, de raisonnement et de code.
qwen3-next-80b-a3b-thinking-2509 est un LLM édité par Qwen, évalué dans Benchable sur des tâches d’éthique, de connaissance générale, de classification d’e-mails, de limitation des hallucinations, de raisonnement et de code.
Le modèle se distingue par un profil très homogène dans les tests disponibles, avec des résultats élevés sur l’ensemble des benchmarks renseignés. La fiche repose toutefois sur une couverture limitée, avec une seule source de données concordante.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,9 % | 37ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 88,9 % | 119ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 14,7 % | 218ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,81 $ |
| Latence moyenne par benchmark — Benchable | 35 min 44 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. qwen3-next-80b-a3b-thinking-2509 atteint le meilleur rang relevé sur Ethics (Baseline), où il figure dans le top 10 du classement Benchable. Email Classification (Baseline) le place aussi dans le haut du tableau, ce qui signale une forte tenue sur une tâche de tri supervisé. Reasoning (Baseline) et Coding (Baseline) affichent également des positions solides, sans rupture nette entre les capacités de raisonnement et les tâches de programmation. Hallucinations (Baseline) reste à un niveau élevé, ce qui indique une bonne maîtrise relative sur ce test précis.
Limites et points d'attention. La principale réserve vient de la couverture, limitée à une seule source concordante, ce qui réduit la diversité des points de comparaison disponibles. General Knowledge (Baseline) affiche un score maximal, mais son rang plus éloigné du sommet montre que ce benchmark départage mal les modèles les mieux notés ou que plusieurs concurrents obtiennent des résultats équivalents. Hallucinations (Baseline), malgré un score élevé, ne situe pas le modèle dans le tout premier groupe du classement. Ce profil convient surtout à l’analyse d’un LLM Qwen bien classé sur Benchable, en particulier pour comparer éthique, classification, raisonnement et code dans un même cadre d’évaluation.
Sources des données : Benchable.ai (benchable.ai).