Qwen3-Next-80B-A3B-Thinking
Qwen3-Next-80B-A3B-Thinking est un LLM open-weights de Qwen, publié sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 80 milliards de paramètres et se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens.
Qwen3-Next-80B-A3B-Thinking est un LLM open-weights de Qwen, publié sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 80 milliards de paramètres et se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens.
Son positionnement est clairement économique : ses tarifs sont indiqués comme très inférieurs à la moyenne des LLM similaires et environ 49,6 fois plus bas que ceux des modèles frontière. À sa sortie, il se situait dans le top 21% de sa génération sur GPQA, ce qui en fait un modèle notable de sa période malgré des résultats LiveBench plus contrastés.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 10 septembre 2025 |
| Connaissances jusqu'à | 2025-09-30 |
| Multimodal | non |
| Paramètres | 80 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| LiveBench: Mathematics | 74,3 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 60,7 % | 69ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 58,2 % | 54ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 56,3 % | 62ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 53,6 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 50,4 % | 59ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 41,5 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 8,3 % | 68ᵉ / 76 | livebench | ✅ Mesuré |
| MMLU-Redux | 92,5 % | 18ᵉ / 48 | llm-stats | Auto-déclaré |
| IFEval | 88,9 % | 22ᵉ / 65 | llm-stats | Auto-déclaré |
| AIME 2025 | 87,8 % | 48ᵉ / 108 | llm-stats | Auto-déclaré |
| WritingBench | 84,6 % | 9ᵉ / 15 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,7 % | 31ᵉ / 125 | llm-stats | Auto-déclaré |
| Include | 78,9 % | 13ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-ProX | 78,7 % | 13ᵉ / 32 | llm-stats | Auto-déclaré |
| Multi-IF | 77,8 % | 5ᵉ / 20 | llm-stats | Auto-déclaré |
| GPQA | 77,2 % | 84ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 76,6 % | 3ᵉ / 14 | llm-stats | Auto-déclaré |
| HMMT25 | 73,9 % | 16ᵉ / 25 | llm-stats | Auto-déclaré |
| BFCL-v3 | 72,0 % | 4ᵉ / 19 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 69,6 % | 11ᵉ / 24 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 68,7 % | 33ᵉ / 53 | llm-stats | Auto-déclaré |
| Tau2 Retail | 67,8 % | 21ᵉ / 25 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 62,3 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
| SuperGPQA | 60,8 % | 16ᵉ / 34 | llm-stats | Auto-déclaré |
| Tau2 Airline | 60,5 % | 11ᵉ / 22 | llm-stats | Auto-déclaré |
| PolyMATH | 56,3 % | 10ᵉ / 23 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 49,0 % | 14ᵉ / 22 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 43,9 % | 31ᵉ / 34 | llm-stats | Auto-déclaré |
| OJBench | 29,7 % | 7ᵉ / 9 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
LiveBench: Mathematics
LiveBench: Coding
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1370 | 154ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,0975 $ | 0,78 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 49,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. Qwen3-Next-80B-A3B-Thinking combine trois atouts concrets : des poids ouverts exploitables commercialement, une fenêtre de contexte très large et un coût d’usage très bas. Son meilleur signal de performance vient de GPQA, où il figurait à sa sortie dans le haut du panier des LLM de la même période. Sur LiveBench, les mathématiques constituent son domaine le plus solide, devant l’analyse de données, ce qui indique un profil plus intéressant pour les tâches structurées que pour les usages généralistes purs. Le tarif renforce ce positionnement : le modèle vise clairement les déploiements où le volume de tokens et la maîtrise des coûts comptent davantage que l’accès aux performances les plus élevées du marché.
Limites et points d'attention. Les résultats LiveBench montrent un modèle inégal : la moyenne globale le place dans la partie basse du classement évalué, avec des faiblesses nettes en programmation et en compréhension du langage. Le score Arena text reste également loin des modèles les mieux classés, ce qui limite son intérêt pour les interactions textuelles où la qualité perçue prime. Les connaissances sont indiquées jusqu’au 2025-09-30, un point à vérifier pour les usages dépendants d’informations récentes. Le modèle convient surtout aux scénarios open-weights, économiques et à long contexte, avec une préférence pour les tâches mathématiques ou analytiques plutôt que le code avancé ou la rédaction haut de gamme.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai).