Qwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Thinking est un LLM open-weights de Qwen, publié sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 80 milliards de paramètres et se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens.

Qwen3-Next-80B-A3B-Thinking est un LLM open-weights de Qwen, publié sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 80 milliards de paramètres et se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens.

Son positionnement est clairement économique : ses tarifs sont indiqués comme très inférieurs à la moyenne des LLM similaires et environ 49,6 fois plus bas que ceux des modèles frontière. À sa sortie, il se situait dans le top 21% de sa génération sur GPQA, ce qui en fait un modèle notable de sa période malgré des résultats LiveBench plus contrastés.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie10 septembre 2025
Connaissances jusqu'à2025-09-30
Multimodalnon
Paramètres80 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
LiveBench: Mathematics74,3 %49ᵉ / 76livebench✅ Mesuré
LiveBench: Coding60,7 %69ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning58,2 %54ᵉ / 76livebench✅ Mesuré
LiveBench: Language56,3 %62ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis53,6 %44ᵉ / 76livebench✅ Mesuré
LiveBench: Global average50,4 %59ᵉ / 76livebench✅ Mesuré
LiveBench: IF41,5 %49ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding8,3 %68ᵉ / 76livebench✅ Mesuré
MMLU-Redux92,5 %18ᵉ / 48llm-statsAuto-déclaré
IFEval88,9 %22ᵉ / 65llm-statsAuto-déclaré
AIME 202587,8 %48ᵉ / 108llm-statsAuto-déclaré
WritingBench84,6 %9ᵉ / 15llm-statsAuto-déclaré
MMLU-Pro82,7 %31ᵉ / 125llm-statsAuto-déclaré
Include78,9 %13ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX78,7 %13ᵉ / 32llm-statsAuto-déclaré
Multi-IF77,8 %5ᵉ / 20llm-statsAuto-déclaré
GPQA77,2 %84ᵉ / 213llm-statsAuto-déclaré
LiveBench 2024112576,6 %3ᵉ / 14llm-statsAuto-déclaré
HMMT2573,9 %16ᵉ / 25llm-statsAuto-déclaré
BFCL-v372,0 %4ᵉ / 19llm-statsAuto-déclaré
TAU-bench Retail69,6 %11ᵉ / 24llm-statsAuto-déclaré
LiveCodeBench v668,7 %33ᵉ / 53llm-statsAuto-déclaré
Tau2 Retail67,8 %21ᵉ / 25llm-statsAuto-déclaré
Arena-Hard v262,3 %10ᵉ / 16llm-statsAuto-déclaré
SuperGPQA60,8 %16ᵉ / 34llm-statsAuto-déclaré
Tau2 Airline60,5 %11ᵉ / 22llm-statsAuto-déclaré
PolyMATH56,3 %10ᵉ / 23llm-statsAuto-déclaré
TAU-bench Airline49,0 %14ᵉ / 22llm-statsAuto-déclaré
Tau2 Telecom43,9 %31ᵉ / 34llm-statsAuto-déclaré
OJBench29,7 %7ᵉ / 9llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Mathematics

Qwen3.7 Max85 %
▶ Qwen3-Next-80B-A3B-Thin…74 %

LiveBench: Coding

▶ Qwen3-Next-80B-A3B-Thin…61 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1370154ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,0975 $0,78 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 49,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Qwen3-Next-80B-A3B-Thinking combine trois atouts concrets : des poids ouverts exploitables commercialement, une fenêtre de contexte très large et un coût d’usage très bas. Son meilleur signal de performance vient de GPQA, où il figurait à sa sortie dans le haut du panier des LLM de la même période. Sur LiveBench, les mathématiques constituent son domaine le plus solide, devant l’analyse de données, ce qui indique un profil plus intéressant pour les tâches structurées que pour les usages généralistes purs. Le tarif renforce ce positionnement : le modèle vise clairement les déploiements où le volume de tokens et la maîtrise des coûts comptent davantage que l’accès aux performances les plus élevées du marché.

Limites et points d'attention. Les résultats LiveBench montrent un modèle inégal : la moyenne globale le place dans la partie basse du classement évalué, avec des faiblesses nettes en programmation et en compréhension du langage. Le score Arena text reste également loin des modèles les mieux classés, ce qui limite son intérêt pour les interactions textuelles où la qualité perçue prime. Les connaissances sont indiquées jusqu’au 2025-09-30, un point à vérifier pour les usages dépendants d’informations récentes. Le modèle convient surtout aux scénarios open-weights, économiques et à long contexte, avec une préférence pour les tâches mathématiques ou analytiques plutôt que le code avancé ou la rédaction haut de gamme.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai).