Qwen

qwen3-next-80b-a3b-thinking-2509

qwen3-next-80b-a3b-thinking-2509 est un LLM édité par Qwen, évalué dans Benchable sur des tâches d’éthique, de connaissance générale, de classification d’e-mails, de limitation des hallucinations, de raisonnement et de code.

Le modèle se distingue par un profil très homogène dans les tests disponibles, avec des résultats élevés sur l’ensemble des benchmarks renseignés. La fiche repose toutefois sur une couverture limitée, avec une seule source de données concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,9 %	37ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	88,9 %	119ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	14,7 %	218ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ qwen3-next-80b-a3b-thin…100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ qwen3-next-80b-a3b-thin…100 %

Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,81 $
Latence moyenne par benchmark — Benchable	35 min 44 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-next-80b-a3b-thinking-2509 atteint le meilleur rang relevé sur Ethics (Baseline), où il figure dans le top 10 du classement Benchable. Email Classification (Baseline) le place aussi dans le haut du tableau, ce qui signale une forte tenue sur une tâche de tri supervisé. Reasoning (Baseline) et Coding (Baseline) affichent également des positions solides, sans rupture nette entre les capacités de raisonnement et les tâches de programmation. Hallucinations (Baseline) reste à un niveau élevé, ce qui indique une bonne maîtrise relative sur ce test précis.

Limites et points d'attention. La principale réserve vient de la couverture, limitée à une seule source concordante, ce qui réduit la diversité des points de comparaison disponibles. General Knowledge (Baseline) affiche un score maximal, mais son rang plus éloigné du sommet montre que ce benchmark départage mal les modèles les mieux notés ou que plusieurs concurrents obtiennent des résultats équivalents. Hallucinations (Baseline), malgré un score élevé, ne situe pas le modèle dans le tout premier groupe du classement. Ce profil convient surtout à l’analyse d’un LLM Qwen bien classé sur Benchable, en particulier pour comparer éthique, classification, raisonnement et code dans un même cadre d’évaluation.

Sources des données : Benchable.ai (benchable.ai).

qwen3-next-80b-a3b-thinking-2509

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast