Qwen

Qwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Thinking est un LLM open-weights de Qwen, publié sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 80 milliards de paramètres et se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens.

Son positionnement est clairement économique : ses tarifs sont indiqués comme très inférieurs à la moyenne des LLM similaires et environ 49,6 fois plus bas que ceux des modèles frontière. À sa sortie, il se situait dans le top 21% de sa génération sur GPQA, ce qui en fait un modèle notable de sa période malgré des résultats LiveBench plus contrastés.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	10 septembre 2025
Connaissances jusqu'à	2025-09-30
Multimodal	non
Paramètres	80 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Mathematics	74,3 %	49ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	60,7 %	69ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	58,2 %	54ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	56,3 %	62ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	53,6 %	44ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	50,4 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	41,5 %	49ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	8,3 %	68ᵉ / 76	livebench	✅ Mesuré
MMLU-Redux	92,5 %	18ᵉ / 48	llm-stats	Auto-déclaré
IFEval	88,9 %	22ᵉ / 65	llm-stats	Auto-déclaré
AIME 2025	87,8 %	48ᵉ / 108	llm-stats	Auto-déclaré
WritingBench	84,6 %	9ᵉ / 15	llm-stats	Auto-déclaré
MMLU-Pro	82,7 %	31ᵉ / 125	llm-stats	Auto-déclaré
Include	78,9 %	13ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	78,7 %	13ᵉ / 32	llm-stats	Auto-déclaré
Multi-IF	77,8 %	5ᵉ / 20	llm-stats	Auto-déclaré
GPQA	77,2 %	84ᵉ / 213	llm-stats	Auto-déclaré
LiveBench 20241125	76,6 %	3ᵉ / 14	llm-stats	Auto-déclaré
HMMT25	73,9 %	16ᵉ / 25	llm-stats	Auto-déclaré
BFCL-v3	72,0 %	4ᵉ / 19	llm-stats	Auto-déclaré
TAU-bench Retail	69,6 %	11ᵉ / 24	llm-stats	Auto-déclaré
LiveCodeBench v6	68,7 %	33ᵉ / 53	llm-stats	Auto-déclaré
Tau2 Retail	67,8 %	21ᵉ / 25	llm-stats	Auto-déclaré
Arena-Hard v2	62,3 %	10ᵉ / 16	llm-stats	Auto-déclaré
SuperGPQA	60,8 %	16ᵉ / 34	llm-stats	Auto-déclaré
Tau2 Airline	60,5 %	11ᵉ / 22	llm-stats	Auto-déclaré
PolyMATH	56,3 %	10ᵉ / 23	llm-stats	Auto-déclaré
TAU-bench Airline	49,0 %	14ᵉ / 22	llm-stats	Auto-déclaré
Tau2 Telecom	43,9 %	31ᵉ / 34	llm-stats	Auto-déclaré
OJBench	29,7 %	7ᵉ / 9	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Mathematics

GPT-5.596 %

Claude Opus 4.895 %

Gemini 3.1 Pro Preview91 %

Qwen3.7 Max85 %

▶ Qwen3-Next-80B-A3B-Thin…74 %

Nemotron 3 Ultra55 %

LiveBench: Coding

GPT-5.2 Codex84 %

Claude Opus 4.782 %

Gemini 3.5 Flash78 %

Devstral 267 %

▶ Qwen3-Next-80B-A3B-Thin…61 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1370	154ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,0975 $	0,78 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 49,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Qwen3-Next-80B-A3B-Thinking combine trois atouts concrets : des poids ouverts exploitables commercialement, une fenêtre de contexte très large et un coût d’usage très bas. Son meilleur signal de performance vient de GPQA, où il figurait à sa sortie dans le haut du panier des LLM de la même période. Sur LiveBench, les mathématiques constituent son domaine le plus solide, devant l’analyse de données, ce qui indique un profil plus intéressant pour les tâches structurées que pour les usages généralistes purs. Le tarif renforce ce positionnement : le modèle vise clairement les déploiements où le volume de tokens et la maîtrise des coûts comptent davantage que l’accès aux performances les plus élevées du marché.

Limites et points d'attention. Les résultats LiveBench montrent un modèle inégal : la moyenne globale le place dans la partie basse du classement évalué, avec des faiblesses nettes en programmation et en compréhension du langage. Le score Arena text reste également loin des modèles les mieux classés, ce qui limite son intérêt pour les interactions textuelles où la qualité perçue prime. Les connaissances sont indiquées jusqu’au 2025-09-30, un point à vérifier pour les usages dépendants d’informations récentes. Le modèle convient surtout aux scénarios open-weights, économiques et à long contexte, avec une préférence pour les tâches mathématiques ou analytiques plutôt que le code avancé ou la rédaction haut de gamme.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai).

Qwen3-Next-80B-A3B-Thinking

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast