qwen3-next-80b-a3b-instruct-2509

qwen3-next-80b-a3b-instruct-2509 est un LLM de Qwen, identifié comme modèle instruct dans son nom. Sa fiche Benchable le place dans une zone très compétitive sur les évaluations de connaissances générales, d’éthique et de maîtrise des hallucinations.

qwen3-next-80b-a3b-instruct-2509 est un LLM de Qwen, identifié comme modèle instruct dans son nom. Sa fiche Benchable le place dans une zone très compétitive sur les évaluations de connaissances générales, d’éthique et de maîtrise des hallucinations.

Le modèle se distingue par une forte homogénéité sur les tâches de référence fournies, avec des résultats élevés aussi en classification d’e-mails. Les performances en mathématiques et en code restent solides, mais moins dominantes que ses meilleurs scores.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)63,0 %122ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

▶ qwen3-next-80b-a3b-inst…100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ qwen3-next-80b-a3b-inst…100 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,03 $
Latence moyenne par benchmark — Benchable2 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen3-next-80b-a3b-instruct-2509 atteint le top 10 Benchable sur Hallucinations (Baseline), General Knowledge (Baseline) et Ethics (Baseline), ce qui signale un profil particulièrement fort sur la fiabilité perçue, les connaissances générales et les réponses alignées sur des critères éthiques. La classification d’e-mails ressort aussi comme un point fort, avec un résultat très élevé et un rang encore bien placé dans un panel large de modèles. L’ensemble décrit un LLM instruct surtout convaincant pour les tâches textuelles où la justesse, la cohérence et le tri d’informations comptent davantage que la spécialisation technique.

Limites et points d'attention. Les benchmarks Mathematics (Baseline) et Coding (Baseline) restent bons, mais leur classement est nettement moins favorable que celui des meilleurs domaines du modèle. Cette différence indique un profil moins dominant sur le raisonnement mathématique et la programmation que sur les connaissances, l’éthique et la limitation des hallucinations. La fiche repose aussi sur 1 source de données concordante, ce qui limite la diversité des validations disponibles. Le modèle paraît surtout pertinent pour l’évaluation de tâches générales de langage, de classification et de réponses factuelles, avec prudence sur les usages exigeant une forte performance en code ou en mathématiques.


Sources des données : Benchable.ai (benchable.ai).