Qwen

qwen3-next-80b-a3b-instruct-2509

qwen3-next-80b-a3b-instruct-2509 est un LLM de Qwen, identifié comme modèle instruct dans son nom. Sa fiche Benchable le place dans une zone très compétitive sur les évaluations de connaissances générales, d’éthique et de maîtrise des hallucinations.

Le modèle se distingue par une forte homogénéité sur les tâches de référence fournies, avec des résultats élevés aussi en classification d’e-mails. Les performances en mathématiques et en code restent solides, mais moins dominantes que ses meilleurs scores.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	88,0 %	94ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	63,0 %	122ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ qwen3-next-80b-a3b-inst…100 %

Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ qwen3-next-80b-a3b-inst…100 %

DeepSeek R1 Distill Lla…100 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,03 $
Latence moyenne par benchmark — Benchable	2 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-next-80b-a3b-instruct-2509 atteint le top 10 Benchable sur Hallucinations (Baseline), General Knowledge (Baseline) et Ethics (Baseline), ce qui signale un profil particulièrement fort sur la fiabilité perçue, les connaissances générales et les réponses alignées sur des critères éthiques. La classification d’e-mails ressort aussi comme un point fort, avec un résultat très élevé et un rang encore bien placé dans un panel large de modèles. L’ensemble décrit un LLM instruct surtout convaincant pour les tâches textuelles où la justesse, la cohérence et le tri d’informations comptent davantage que la spécialisation technique.

Limites et points d'attention. Les benchmarks Mathematics (Baseline) et Coding (Baseline) restent bons, mais leur classement est nettement moins favorable que celui des meilleurs domaines du modèle. Cette différence indique un profil moins dominant sur le raisonnement mathématique et la programmation que sur les connaissances, l’éthique et la limitation des hallucinations. La fiche repose aussi sur 1 source de données concordante, ce qui limite la diversité des validations disponibles. Le modèle paraît surtout pertinent pour l’évaluation de tâches générales de langage, de classification et de réponses factuelles, avec prudence sur les usages exigeant une forte performance en code ou en mathématiques.

Sources des données : Benchable.ai (benchable.ai).

qwen3-next-80b-a3b-instruct-2509

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast